일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- #위도#경도#비정형데이터#크롤링
- 카카오APi
- 파이썬
- 위도경도
- #비정형#카카오api#api#크롤링
- 셀레니움
- #K-means #Clustering
- 구글 지오코드
- 숫자빼고 중복되는 코드동작법
- 웹크롤링
- 코딩
- #비정형 데이터 #네이버 #지도 #크롤링
- #크롤링 #웹문서
- 파이썬 셀레니움
- 웹매크로 #세잔느
- Today
- Total
지방이의 Data Science Lab
빅데이터 ㄹㅇ 빅데이터일때, 2억개넘어가고, 열이 몇백이 넘어가면 코드하나 치고 돌아가는데 거의 10분걸릴때도 있다. 그럴때 유용하다. INPUT OUTPUT RAM을 줄이면서 코딩짜는 방법 (1) 100만 행이 넘어가는 데이터가 큰건 무조건 data.frame이 아니라 data.table로 해야 속도가 엄청 빨라진다. (2)*** 추천시스템 알고리즘을 만들때, dcast가 필요했다. melt도 해보고, spread도 해보고 다 시도해봤자 데이터 크기가 너무 커서 안됐다. 이때 그나마빠른게 dcas.data.table이라 생각했는데 이를 능가하는 방법이 있다. #비추천 aa=summarise(group_by(data_m, COMCSNO, PRDKEY), sumqty=sum(DASBLAFT_SALQTY))..
https://jlim0316.tistory.com/20 Clustering 군집화 Clustering: K-means & Hierarchical clustering 군집화 클러스터링 방법은 행끼리 같은걸 묶는 게 될 수 도 있고, 설명변수가 비슷한거 끼리 묶는 방식이 될 수도 있다. 즉, row끼리 비슷하게 묶을 수도 있고, co.. jlim0316.tistory.com 에 이어서 새로 알게 된 것들이 있다. pam, pamk 혹은 clarad이다. k-means를 사용할거면 아웃라이어를 잘 처리하고 사용하던가, 혹은 robust k means를 해야하는데, Partitioning Around Medoids으로 개수를 내가 지정해서 나누던가, pamk로 지가알아서 분류를 하는거로 나누던가 해야한다. 둘..
데이터가 100만개가 넘어가면 data.frame으로는 어림없다. 램문제로 고생하고 돌아가지도 않는다. 이때 사용하는게 data.table이다. data.table은 데이터를 합치고 쪼갤때 데이터가 100만개가 넘는 상황에서 20-40배 빠른 속도 차이를 보인다. 심지어 램으로 인해 안돌아가는 코드가 돌아가기도 한다. 밑의 코드는 패턴 분석할때, 클러스터링을 위해 integer로 설정된 2천개가 넘는 컬럼을 "한번에" 다 numeric처리해줄때 필요하다. 아래코드를 보통 많이 사용해왔었는데, #sample2[, 2:dim(sample2)[2]] = sapply(sample2[, 2:dim(sample2)[2]], as.numeric) 3억개의 데이터를 패턴분석을 위해 Sparsity Data로 변경하면,..
R: 1/1~12/31까지 존재하는 파일들을 한번에 불러와서 합치기 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 library(rio) monthDays