일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- #K-means #Clustering
- 파이썬 셀레니움
- 웹크롤링
- 파이썬
- #위도#경도#비정형데이터#크롤링
- 구글 지오코드
- 웹매크로 #세잔느
- 위도경도
- #비정형 데이터 #네이버 #지도 #크롤링
- 카카오APi
- #크롤링 #웹문서
- 숫자빼고 중복되는 코드동작법
- 셀레니움
- #비정형#카카오api#api#크롤링
- 코딩
- Today
- Total
목록Data Analysis/Python (38)
지방이의 Data Science Lab
a= list(all.reset_index().USER.values) b= list(channel10.reset_index().USER.values) set(a)-set(b)
스트링 처리후 빼내는게 더 빠름 1 2 3 4 5 6 7 8 9 df['DATE']=df['DATE'].astype(str) date = df['DATE'].str.split('-') year= date.apply(lambda x:x[0]) month = date.apply(lambda x:x[1]) day = date.apply(lambda x:x[2]) data.DATE.astype(str).apply(lambda x:x[4:6]) 2020-01-01을 str.slice이용하여 년/월/일 추출하자. 1 2 3 manu_y = manu_y.assign(year = manu_y['평가일'].str.slice(0, 4) ) manu_y = manu_y.assign(month = manu_y['평가일'].s..
가지고 있는 데이터 프레임에서, 정렬해서 유저별로 상위 5줄씩가져와서 상위 아이템 보려고 할때: top5 = {} for num, idx in enumerate((pd.unique(lim.index))): print(num/len((pd.unique(kang.index)))) top5[idx] = lim.loc[lambda x: x.index ==idx,'CEM_PRDCD'][0:5] top5 = pd.concat(top5.values()) (굵은 표시 부분은 없어도 무방하다. %로 얼마나 진행됐는지 보고싶었는데, tqdm이 서버에 안깔려있어서 사용 불가했음) out_dict = {} for key in (pd.unique(top5.index))[0:100]: out_dict[key] = list((pd..
train.groupby([train['COMCSNO'], train['SALDT']]).size().to_frame('size').reset_index() 밑줄 부분에 컬럼명을 지정해주면 된다.
date 형태를 int로 바꾸는 기본 형태는 이렇다. from datetime import date date.today().strftime('%Y%m%d') pandas내 df형태로 되어있을 경우: (1) date 형태를 int로 변환하는 방법 train['SALDT'] = train['SALDT'].apply(lambda x: x.strftime('%Y%m%d')) train['SALDT'] = train['SALDT'].astype(int) (2) int형태를 date로 변환하는 방법 import datetime as dt train['SALDT'] = train['SALDT'].astype(str) train['SALDT'] = pd.to_datetime(train['SALDT'])
import datetime as dt kma3['date'] = pd.to_datetime(kma3['date']) kma3['month'] = pd.DatetimeIndex(kma3['date']).month *(1) 유저별로 최근 날짜 데이터만 뽑아보기 # 유저별로 가장 최근 날짜 가져오는건 .max()를 쓰는 것보다 int로 냅뒀다가 정렬을 최근순으로 두고 duplicate제거 해서 맨위에 꺼만 떼오는게 훨씬 빠르다. [비추천] import datetime as dt df1['SALDT']=df1['SALDT'].astype(str) df1['SALDT']=pd.to_datetime(df1['SALDT']) from tqdm import tqdm datediff_for_each_cs = {} fo..