일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- #위도#경도#비정형데이터#크롤링
- 위도경도
- 코딩
- 파이썬
- 파이썬 셀레니움
- #크롤링 #웹문서
- #비정형#카카오api#api#크롤링
- 셀레니움
- 웹크롤링
- 구글 지오코드
- 카카오APi
- #비정형 데이터 #네이버 #지도 #크롤링
- #K-means #Clustering
- 숫자빼고 중복되는 코드동작법
- 웹매크로 #세잔느
- Today
- Total
목록Data Analysis (116)
지방이의 Data Science Lab
예를 들어, 가지고 있는 데이터 중에 홍길동의 나이만 모른다고 할때, 홍길동 데이터를 지우는 방법말고, 채워주는 방법이다. 홍길동을 제외한 나머지 데이터들의 평균값을 홍길동 나이라고 치는 셈. # mean imputation data$AGE[data$USERID=="홍길동"] = mean(mean(data$AGE[!is.na(data$AGE)]))
가지고 있는 데이터 프레임에서, 정렬해서 유저별로 상위 5줄씩가져와서 상위 아이템 보려고 할때: top5 = {} for num, idx in enumerate((pd.unique(lim.index))): print(num/len((pd.unique(kang.index)))) top5[idx] = lim.loc[lambda x: x.index ==idx,'CEM_PRDCD'][0:5] top5 = pd.concat(top5.values()) (굵은 표시 부분은 없어도 무방하다. %로 얼마나 진행됐는지 보고싶었는데, tqdm이 서버에 안깔려있어서 사용 불가했음) out_dict = {} for key in (pd.unique(top5.index))[0:100]: out_dict[key] = list((pd..
train.groupby([train['COMCSNO'], train['SALDT']]).size().to_frame('size').reset_index() 밑줄 부분에 컬럼명을 지정해주면 된다.
date 형태를 int로 바꾸는 기본 형태는 이렇다. from datetime import date date.today().strftime('%Y%m%d') pandas내 df형태로 되어있을 경우: (1) date 형태를 int로 변환하는 방법 train['SALDT'] = train['SALDT'].apply(lambda x: x.strftime('%Y%m%d')) train['SALDT'] = train['SALDT'].astype(int) (2) int형태를 date로 변환하는 방법 import datetime as dt train['SALDT'] = train['SALDT'].astype(str) train['SALDT'] = pd.to_datetime(train['SALDT'])
import datetime as dt kma3['date'] = pd.to_datetime(kma3['date']) kma3['month'] = pd.DatetimeIndex(kma3['date']).month *(1) 유저별로 최근 날짜 데이터만 뽑아보기 # 유저별로 가장 최근 날짜 가져오는건 .max()를 쓰는 것보다 int로 냅뒀다가 정렬을 최근순으로 두고 duplicate제거 해서 맨위에 꺼만 떼오는게 훨씬 빠르다. [비추천] import datetime as dt df1['SALDT']=df1['SALDT'].astype(str) df1['SALDT']=pd.to_datetime(df1['SALDT']) from tqdm import tqdm datediff_for_each_cs = {} fo..
https://colab.research.google.com/notebooks/mlcc/first_steps_with_tensor_flow.ipynb?utm_source=mlcc&utm_campaign=colab-external&utm_medium=referral&utm_content=firststeps-colab&hl=ko#scrollTo=ci1ISxxrZ7v0 Google Colaboratory colab.research.google.com 위 주소는 GD가 왜 필요한지 알게 해주는 실습 코딩방법이다. 신경망(Neural network)에 weight을 줄때 보통 사용. 아래로 볼록 한 그래프가 있다고 생각하면 손실값이 최소가 되는 값을 찾아가는 과정인데, step size=learning rate이..
[특정 고객 추출] # 2개- 11개만 산 고객들만 보고 싶을때 tab=table(data$COMCSNO) tab=sort(tab,decreasing=T) condition=tab[tab>2&tab%filter(COMCSNO %in% names(condition)) [너무 큰 데이터일 경우 샘플링해서 사이즈를 줄이고 특징잡을때] #2개-11개만 꺼냈는데도 데이터가 너무 클 경우, 고객으로 유니크걸고 한번 더 샘플링 subject_ids = unique(condition$COMCSNO) # Sample from the subject ids sample_subject_ids = sample(subject_ids, round(length(subject_ids)/100,0)) #현재고객 533 # Get the..
R console에서 install.packages("~")를 써서 안되는 경우에 해당한다. (.libPaths를 콘솔에 치면 밑에 노가다를 끝내면 저장되는 곳이 어디인지 알 수 있다. ) https://cran.r-project.org/package=~ 물결부분에 필요한 라이브러리 이름을 쓰고 링크로 타고 들어가면, tar.gz로 된 파일이 존재한다. 이것을 다운받으면 된다. 혹은 구글링할때 필요한 패키지이름 tar.gz download이런식으로 쳐서 다운받아도 괜찮다. 그후, setwd를 사용해서 다이렉토리를 명시해주거나 rstudio에 있는 Files>Upload로 가서 파일을 업로드 해준다. rstudio콘솔에 install.packages("setwd이름/hunspell_3.0.tar.gz",r..