일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 웹크롤링
- 구글 지오코드
- 파이썬 셀레니움
- #크롤링 #웹문서
- 웹매크로 #세잔느
- #비정형 데이터 #네이버 #지도 #크롤링
- 숫자빼고 중복되는 코드동작법
- 위도경도
- 파이썬
- 셀레니움
- #K-means #Clustering
- 카카오APi
- #위도#경도#비정형데이터#크롤링
- 코딩
- #비정형#카카오api#api#크롤링
- Today
- Total
목록Data Analysis/Python (38)
지방이의 Data Science Lab
1 2 3 4 5 6 7 8 9 10 11 #1. 0으로 잘못 표기되어 나왔을 경우 mean값으로 대체 pledge = pd.read_csv('train_pledge.csv', engine='python') non_combat = np.array(pledge['non_combat_play_time']) non_combat_mean = non_combat[np.nonzero(non_combat)].mean() pledge['non_combat_play_time'] = np.where(pledge['combat_play_time']>0, pledge['non_combat_play_time'] + non_combat_mean, pledge['non_combat_play_time']) #2. na라는 모든 값을..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bc3JnD/btqBQoqKljf/8GcrrWM2qT72KE9wKVouI0/img.png)
1 2 import glob (glob.glob("../data/x/*/*.csv")) 위 코드 번역 ==>data라는 폴더안에 들어있는 모든 폴더에 들어가서 .csv에 해당하는 모든 파일을 데려와서 directory를 보여라. 더보기 응용: ravel과 glob를 이용해 데이터 전처리 하는 방법 (옆으로 늘어져있던걸 밑으로 늘리는 방법) https://jlim0316.tistory.com/122 ravel c에 이어지는 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 y = pd.read_csv("../data/..
* 원하는 list에서 무언가 지우고 싶을때 del쓰면 된다. (추가하고 싶을땐 append) * 데이터를 좀 정리해서 무거운 데이터를 가볍게 가지고 싶을때 사용하면 된다. 즉, 아래와 같이 생긴 데이터를 회사명 2014년_신용등급 2015년_신용등급 2015년_신용등급 삼성 AAA AAA AAA ... 회사명 년도 등급 삼성 2014 AAA 삼성 2015 AAA 삼성 2016 AAA 이렇게 만들어 주는 과정이다. 과정에서 들어간 핵심코드는 ravel 'C'olumn별로 쓰여있는 등급을 한 열 안에 몰아넣는 것. 나머지 회사와 년도는 늘어난 갯수만큼 맟줘준것임. colnames는 한줄로 늘리고 싶은 열 이름들이 들어간 값, company는 나머지 이름들. 1 2 3 4 5 6 7 8 9 10 11 12 ..
1 2 회사채 =['사채', '금융채', '특수채', '자본증권'] manu_y = manu_y[manu_y['증권명'].str.contains('|'.join(회사채), na= False)] ==>manu_y의 증권명 컬럼 내에서 회사채에 해당하는 데이터 프레임만 필터링해 1 2 평가사 = ['-','Fitch', 'JCR', 'SP','S&P','이크레더블'] manu_y = manu_y[~manu_y["평가사명 및 등급"].str.contains('|'.join(평가사))] cs ==>manu_y의 평가사명 및 등급 컬럼에 평가사에 해당하는 데이터는 가져오지마 1 2 manu_y = manu_y[manu_y['평가사명 및 등급'].str.contains('A1')==False] manu_y = ma..
1 total_x.groupby(['회사명']).filter(lambda x:x.shape[0]>4) = 회사명의 중복 아이디 갯수 세었을때 5개넘는 것만 가져와.
from sklearn.cluster import AgglomerativeClustering %time cluster = AgglomerativeClustering(n_clusters=7, affinity='euclidean', linkage='average') cluster.fit_predict(temp_data) pd.value_counts(pd.Series(cluster.labels_)) 불러오는 중입니다... from sklearn.cluster import KMeans km = KMeans(n_clusters=7) x_names = [x for x in total_activity.columns if x not in ['acc_id']] km.fit(total_activity[x_names]) p..
1 2 3 4 5 def change_day(day_list): change = np.where(day_list == 28, 1, day_list+1) return change
from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler(copy=True, feature_range=(0, 1)) temp = label.iloc[:, 1:] scaler.fit_transform(temp.values)from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler(copy=True, feature_range=(0, 1)) temp = label.iloc[:, 1:] temp = pd.DataFrame(scaler.fit_transform(temp.values)) temp.columns = label.iloc[:,1:].columns temp=pd.concat([..