일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- #크롤링 #웹문서
- 셀레니움
- 구글 지오코드
- 숫자빼고 중복되는 코드동작법
- 위도경도
- 웹크롤링
- 파이썬
- #비정형 데이터 #네이버 #지도 #크롤링
- #비정형#카카오api#api#크롤링
- 카카오APi
- 파이썬 셀레니움
- #위도#경도#비정형데이터#크롤링
- 웹매크로 #세잔느
- 코딩
- #K-means #Clustering
- Today
- Total
목록Data Analysis/깨R지식 (20)
지방이의 Data Science Lab
빅데이터 ㄹㅇ 빅데이터일때, 2억개넘어가고, 열이 몇백이 넘어가면 코드하나 치고 돌아가는데 거의 10분걸릴때도 있다. 그럴때 유용하다. INPUT OUTPUT RAM을 줄이면서 코딩짜는 방법 (1) 100만 행이 넘어가는 데이터가 큰건 무조건 data.frame이 아니라 data.table로 해야 속도가 엄청 빨라진다. (2)*** 추천시스템 알고리즘을 만들때, dcast가 필요했다. melt도 해보고, spread도 해보고 다 시도해봤자 데이터 크기가 너무 커서 안됐다. 이때 그나마빠른게 dcas.data.table이라 생각했는데 이를 능가하는 방법이 있다. #비추천 aa=summarise(group_by(data_m, COMCSNO, PRDKEY), sumqty=sum(DASBLAFT_SALQTY))..
데이터가 100만개가 넘어가면 data.frame으로는 어림없다. 램문제로 고생하고 돌아가지도 않는다. 이때 사용하는게 data.table이다. data.table은 데이터를 합치고 쪼갤때 데이터가 100만개가 넘는 상황에서 20-40배 빠른 속도 차이를 보인다. 심지어 램으로 인해 안돌아가는 코드가 돌아가기도 한다. 밑의 코드는 패턴 분석할때, 클러스터링을 위해 integer로 설정된 2천개가 넘는 컬럼을 "한번에" 다 numeric처리해줄때 필요하다. 아래코드를 보통 많이 사용해왔었는데, #sample2[, 2:dim(sample2)[2]] = sapply(sample2[, 2:dim(sample2)[2]], as.numeric) 3억개의 데이터를 패턴분석을 위해 Sparsity Data로 변경하면,..
R: 1/1~12/31까지 존재하는 파일들을 한번에 불러와서 합치기 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 library(rio) monthDays