일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 웹매크로 #세잔느
- 파이썬 셀레니움
- 파이썬
- 웹크롤링
- #K-means #Clustering
- #크롤링 #웹문서
- 구글 지오코드
- 위도경도
- 카카오APi
- 숫자빼고 중복되는 코드동작법
- 셀레니움
- #비정형#카카오api#api#크롤링
- #위도#경도#비정형데이터#크롤링
- 코딩
- #비정형 데이터 #네이버 #지도 #크롤링
- Today
- Total
지방이의 Data Science Lab
[python] 최근날짜에 따라 데이터 추출 본문
import datetime as dt
kma3['date'] = pd.to_datetime(kma3['date'])
kma3['month'] = pd.DatetimeIndex(kma3['date']).month
*(1) 유저별로 최근 날짜 데이터만 뽑아보기
# 유저별로 가장 최근 날짜 가져오는건 .max()를 쓰는 것보다 int로 냅뒀다가 정렬을 최근순으로 두고 duplicate제거 해서 맨위에 꺼만 떼오는게 훨씬 빠르다.
[비추천]
import datetime as dt from tqdm import tqdm datediff_for_each_cs = {} for idx in tqdm(pd.unique(df1.index)): datediff_for_each_cs[idx] = df1.loc[lambda x:x.index==idx]['SALDT'].max()
|
[추천]: format을 date으로 변경하지말고, int로 사용
df1=df.sort_values(['COMCSNO','SALDT'], ascending=False) latest_purchase_index = df1[['COMCSNO']].drop_duplicates().index latest_purchase_date = df1.loc[lambda x : x.index.isin(latest_purchase_index)]
|
* (2) 유저별로 최근 방문 후, 6개월 이내 데이터만 뽑아 보고 싶은경우
import datetime as dt latest_purchase_date['SALDT']=latest_purchase_date['SALDT'].astype(str) latest_purchase_date['SALDT']=pd.to_datetime(latest_purchase_date['SALDT'])
from datetime import date from dateutil.relativedelta import relativedelta latest_purchase_date['within6M'] = [d.date()- relativedelta(months=+6)for d in latest_purchase_date['SALDT']]
df1 = df1.reset_index(drop=True) df1 = df1.set_index("COMCSNO") latest_purchase_date.reset_index(level=0, inplace=True) latest_purchase_date.head(2) latest_purchase_date = latest_purchase_date[['COMCSNO', 'within6M']]
df1.reset_index(level=0, inplace=True) df2 = pd.merge(df1,latest_purchase_date, on="COMCSNO")
df2['within6M']=df2['within6M'].astype(str) df2['within6M']=pd.to_datetime(df2['within6M'])
sixM_index=df2['SALDT']>df2['within6M'] df2=df2[sixM_index] |
'Data Analysis > Python' 카테고리의 다른 글
[python] array속 비교 (0) | 2019.07.28 |
---|---|
[python] 날짜에서 연도, 월, 일 추출 (0) | 2019.07.25 |
[python] 유저아이디별로 5줄씩만 가져오기 (0) | 2019.07.23 |
[python] groupby로 본 데이터를 데이터프레임으로 만들기 (0) | 2019.07.23 |
[python] date형태를 다시 int로 변환 (0) | 2019.07.23 |