일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 셀레니움
- 숫자빼고 중복되는 코드동작법
- 구글 지오코드
- 파이썬
- 웹크롤링
- #비정형 데이터 #네이버 #지도 #크롤링
- #비정형#카카오api#api#크롤링
- 파이썬 셀레니움
- 웹매크로 #세잔느
- 위도경도
- #위도#경도#비정형데이터#크롤링
- 카카오APi
- #크롤링 #웹문서
- #K-means #Clustering
- 코딩
- Today
- Total
지방이의 Data Science Lab
1 2 import glob (glob.glob("../data/x/*/*.csv")) 위 코드 번역 ==>data라는 폴더안에 들어있는 모든 폴더에 들어가서 .csv에 해당하는 모든 파일을 데려와서 directory를 보여라. 더보기 응용: ravel과 glob를 이용해 데이터 전처리 하는 방법 (옆으로 늘어져있던걸 밑으로 늘리는 방법) https://jlim0316.tistory.com/122 ravel c에 이어지는 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 y = pd.read_csv("../data/..
* 원하는 list에서 무언가 지우고 싶을때 del쓰면 된다. (추가하고 싶을땐 append) * 데이터를 좀 정리해서 무거운 데이터를 가볍게 가지고 싶을때 사용하면 된다. 즉, 아래와 같이 생긴 데이터를 회사명 2014년_신용등급 2015년_신용등급 2015년_신용등급 삼성 AAA AAA AAA ... 회사명 년도 등급 삼성 2014 AAA 삼성 2015 AAA 삼성 2016 AAA 이렇게 만들어 주는 과정이다. 과정에서 들어간 핵심코드는 ravel 'C'olumn별로 쓰여있는 등급을 한 열 안에 몰아넣는 것. 나머지 회사와 년도는 늘어난 갯수만큼 맟줘준것임. colnames는 한줄로 늘리고 싶은 열 이름들이 들어간 값, company는 나머지 이름들. 1 2 3 4 5 6 7 8 9 10 11 12 ..
1 2 회사채 =['사채', '금융채', '특수채', '자본증권'] manu_y = manu_y[manu_y['증권명'].str.contains('|'.join(회사채), na= False)] ==>manu_y의 증권명 컬럼 내에서 회사채에 해당하는 데이터 프레임만 필터링해 1 2 평가사 = ['-','Fitch', 'JCR', 'SP','S&P','이크레더블'] manu_y = manu_y[~manu_y["평가사명 및 등급"].str.contains('|'.join(평가사))] cs ==>manu_y의 평가사명 및 등급 컬럼에 평가사에 해당하는 데이터는 가져오지마 1 2 manu_y = manu_y[manu_y['평가사명 및 등급'].str.contains('A1')==False] manu_y = ma..
1 total_x.groupby(['회사명']).filter(lambda x:x.shape[0]>4) = 회사명의 중복 아이디 갯수 세었을때 5개넘는 것만 가져와.