일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- #위도#경도#비정형데이터#크롤링
- 위도경도
- 카카오APi
- 구글 지오코드
- #비정형 데이터 #네이버 #지도 #크롤링
- 코딩
- 셀레니움
- 웹크롤링
- #크롤링 #웹문서
- #K-means #Clustering
- 파이썬
- #비정형#카카오api#api#크롤링
- 파이썬 셀레니움
- 숫자빼고 중복되는 코드동작법
- 웹매크로 #세잔느
- Today
- Total
목록Data Analysis/Python (38)
지방이의 Data Science Lab
1 2 3 4 5 6 7 8 9 10 my_2darray = np.array([[1, 2], [3,4], [5, 6]]) my_2darray my_dict = {"a": ['1', '2', '3'], "b": ['4', '5', '6']} df_temp = pd.DataFrame(my_dict, index = pd.date_range('2019-10-14', periods=3)) df_temp print(df_temp.shape) pd.DataFrame(my_2darray.reshape(df_temp.shape), columns=df_temp.columns, index=df_temp.index)
1 2 3 4 5 6 7 my_dict = {"a": ['갑', '을'], "b": ['1', '2'], "c": ['2', '4']} df_temp = pd.DataFrame(my_dict) pd.DataFrame(my_dict) temp = {'갑': 'Master1', '을': 'Master2'} df_temp['a1'] = df_temp['a'].map(temp) df_temp
1 2 3 4 5 6 my_dict = {"a": ['갑', '을', '을', '갑'], "b": ['1', '2', '2', '4']} df_temp = pd.DataFrame(my_dict) pd.DataFrame(my_dict) df_temp= df_temp.groupby(['a']).agg(sum_val = ('b',np.sum)).reset_index() df_temp
1 2 3 4 5 import pandas as pd data = pd.read_csv('temp.csv', parse_dates=['log_time'], infer_datetime_format = True) data['year'], data['month'], data['quarter'] = \ (data['log_time'].dt.year, data['log_time'].dt.month, data['log_time'].dt.quarter)
1 2 3 4 t = 3.000e-05 t = '{:.9f}'.format(t) print(t) # 0.000030000 t = float(t)는 안되는 이유: 이미 3.000e-05가 float이기 때문이다. np나 pd에서 지수표기를 숫자로 지정하는 방법은 아래를 사용하면 된다. 1 2 3 4 5 np.set_printoptions(precision=6, suppress=True) pd.options.display.float_format = '{:.5f}'.format pd.reset_option('display.float_format') Colored by Color Scripter
기본형태: df.query('컬럼명 > 1') .query는 내게 세상 편하다. 이게 조금더 머리에 잘 박히는 것 같다. 다만 알아야하는 부분이 몇가지 존재한다. (1) 컬럼명에 스페이스 바가 있는 경우: ` ` 사용 1 no_genres_list = genres.query('`(no genres listed)` == 1').index (2) dtypes에 숫자/string 확인하고 맞춰야 함: string인 경우 " " 사용 1 yr1993_list = movies.query('year == "1993"').index (3)리스트로 가지고 있는 경우: @ 사용 1 2 3 4 5 6 7 8 ratings.query('movieId in @yr1993_list')['rating'].mean() output..
1 2 3 4 5 6 7 movies1['year'] = movies1['title'].str.extract('(\(\d\d\d\d\))') movies1.isna().sum() #에러 유무 확인 movies1.dropna(axis=0, inplace=True) movies1['year'] = movies1['year'].apply(lambda x: str(x).replace('(','').replace(')','')) movies1.head()