Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 웹크롤링
- 코딩
- 구글 지오코드
- #위도#경도#비정형데이터#크롤링
- 숫자빼고 중복되는 코드동작법
- 위도경도
- 파이썬 셀레니움
- #비정형 데이터 #네이버 #지도 #크롤링
- 카카오APi
- 파이썬
- #크롤링 #웹문서
- 셀레니움
- #비정형#카카오api#api#크롤링
- 웹매크로 #세잔느
- #K-means #Clustering
Archives
- Today
- Total
지방이의 Data Science Lab
[R] 범주형 숫자형 대용량 데이터 처리 방법 본문
데이터가 100만개가 넘어가면 data.frame으로는 어림없다.
램문제로 고생하고 돌아가지도 않는다.
이때 사용하는게 data.table이다.
data.table은 데이터를 합치고 쪼갤때 데이터가 100만개가 넘는 상황에서 20-40배 빠른 속도 차이를 보인다.
심지어 램으로 인해 안돌아가는 코드가 돌아가기도 한다.
밑의 코드는 패턴 분석할때, 클러스터링을 위해 integer로 설정된 2천개가 넘는 컬럼을 "한번에" 다 numeric처리해줄때 필요하다.
아래코드를 보통 많이 사용해왔었는데,
#sample2[, 2:dim(sample2)[2]] = sapply(sample2[, 2:dim(sample2)[2]], as.numeric)
3억개의 데이터를 패턴분석을 위해 Sparsity Data로 변경하면,
컬럼이 무수히 늘어나는 고객 취향 분류를 할때면 위의 코드로는 어림없었다.
처리속도랑 class를 신경써야지만 코드가 돌아간다.
library(magrittr)
sample2[, 2:dim(sample2)[2]] %<>% lapply(function(x) as.numeric(as.character(x))
'Data Analysis > 깨R지식' 카테고리의 다른 글
[R] 특정 고객 데이터 추출 (0) | 2019.06.25 |
---|---|
R: package 직접 설치 (0) | 2019.05.02 |
[R] 빅데이터 dcast 램문제를 해결할 수 있는 코딩 (0) | 2019.04.07 |
[R] 1/1~12/31까지 존재하는 파일들을 한번에 불러와서 합치기 (0) | 2019.03.18 |
[R] 한 폴더 안에 있는 데이터를 몽땅 한 데이터 프레임으로 불러오기 (0) | 2019.03.18 |
Comments