Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- #위도#경도#비정형데이터#크롤링
- #비정형#카카오api#api#크롤링
- 웹크롤링
- 웹매크로 #세잔느
- #비정형 데이터 #네이버 #지도 #크롤링
- 숫자빼고 중복되는 코드동작법
- #크롤링 #웹문서
- 구글 지오코드
- 파이썬
- #K-means #Clustering
- 위도경도
- 코딩
- 셀레니움
- 카카오APi
- 파이썬 셀레니움
Archives
- Today
- Total
지방이의 Data Science Lab
[R] 이상치 or NA 처리 본문
["NA" to NA]
1
|
data = mutate_all(data, funs(replace(., .=='NA', NA)))
|
[Mean Imputation]
1
|
data$AGE[data$USERID=="홍길동"] = mean(mean(data$AGE[!is.na(data$AGE)]))
|
[이상치]
#1. 0보다 작을 수 없는 경우인데 0보다 작게 나온 데이터 이상치 삭제
1
2
|
idx = which(S_table$Sales.M.2015<0|S_table$Order.M.2015<0)
S_table = S_table[-idx,]
|
-
#2. inf일 수없는데 inf로 나온 데이터 이상치 삭제
idx=which(is.infinite(S_table$Sales.M.201)|is.infinite(S_table$Order.M.2015))
S_table<-S_table[-idx,]
|
[Missing 처리]
(1)reg imputation
1
2
3
4
5
6
7
|
attach(auto);reg=lm(Rep78~ Price+Mpg+Weight+Length)
summary(reg)
coeff=coefficients(reg)%>%as.vector
regcol=cbind(Price,Mpg,Weight,Length);imputation=Rep78
for (i in which(is.na(Rep78))%>%as.vector){imputation[i]=t(coeff[-1])%*%regcol[i,]+coeff[1]}
#coeff[-1]은 베타 0를 뺀 나머지. coeff[1]은 베타 0
|
(2)Missing값을 중위값으로 채워주기 =Imputing missing values using median
1
2
3
|
preProcValues = preProcess(data, method = c("medianImpute","center","scale"))
library(RANN)
data_processed = predict(preProcValues, data)
|
'Data Analysis > Data Preprocessing' 카테고리의 다른 글
[R] 데이터 시각화를 위한 데이터 전처리 (0) | 2020.06.29 |
---|---|
R: Preprocessing (0) | 2019.11.04 |
Comments