일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- #K-means #Clustering
- #위도#경도#비정형데이터#크롤링
- 웹매크로 #세잔느
- #크롤링 #웹문서
- 위도경도
- #비정형 데이터 #네이버 #지도 #크롤링
- 셀레니움
- #비정형#카카오api#api#크롤링
- 웹크롤링
- 카카오APi
- 구글 지오코드
- 숫자빼고 중복되는 코드동작법
- 파이썬
- 파이썬 셀레니움
- 코딩
- Today
- Total
목록Data Analysis/깨R지식 (20)
지방이의 Data Science Lab
data[(data$group %in% 'c'),] 밑줄 부분은 인덱스로 반환된다 True혹은 False로 생겼고, 코드가 실행되면 데이터형식안에 true에 해당하는 인덱스만 추출한 특정 데이터 즉, data라는 데이터프레임 속 group c만 보고싶을때 사용. data = subset(data, !(data$시작 %in% 20193025)) 20193025는 누가봐도 없는날짜. err를 drop하고 보고 싶을때 사용.
https://www.r-graph-gallery.com/316-possible-inputs-for-the-dygraphs-library.html An introduction to interactive time series with R and dygraphs This post is an introduction to the dygraphs package for interactive time series visualization with R. It shows how to deal with various input formats, and what are the main chart types offered. www.r-graph-gallery.com 위 사이트에 좋은 시각화 방법이 많다. 내가 공부하다 찾은 좋..
(데이터 크기가 커질수록 lubridate함수로 관리하는 것보다 string으로 들고 있는 것이 억만배 가볍다. 월별 추출도 string단위로 긁어오는게 훨씬 빠른 속도를 보인다.) [2019.12.25 => 20191225] library(stringr) monthly$관리년월 = str_replace_all(monthly$관리년월, "[.]", "") monthly$yearmonth = str_sub(monthly$yearmonth,1,7) [201912 => 2019-12-01] '몇일' 변수를 꼭 추가해야 하는 경우가 있다. (시각화) 예를들어 x축에 날짜를 넣고 싶은 경우가 그렇다. 그럴때 보통 사용하는 코드가 이것: temp$yearmonth = as.Date(ymd(paste0(temp$ye..
방법1.(추천) temp2 = summarise(group_by(data, yearmonth, 원하는 컬럼))%>%arrange(yearmonth) temp3 = model.matrix(~원하는 컬럼, temp2)%>%data.frame() temp3[,1]=NULL 한 컬럼에 담겨진 character들을 여러 컬럼으로 더미화하고 싶을때 사용. 방법2.(비추) library(mlr) df
library(stringr) temp1$month = str_sub(temp1$yearmonth,5,6) temp1$month = as.numeric(temp1$month) seasons = function(x){ if(x %in% 2:4) return('Spring') if(x %in% 5:7) return('Summer') if(x %in% 8:10) return('Fall') if(x %in% c(11,12,1)) return('Winter') } temp1$season = sapply(temp1$month, seasons)
예를 들어, 가지고 있는 데이터 중에 홍길동의 나이만 모른다고 할때, 홍길동 데이터를 지우는 방법말고, 채워주는 방법이다. 홍길동을 제외한 나머지 데이터들의 평균값을 홍길동 나이라고 치는 셈. # mean imputation data$AGE[data$USERID=="홍길동"] = mean(mean(data$AGE[!is.na(data$AGE)]))
[특정 고객 추출] # 2개- 11개만 산 고객들만 보고 싶을때 tab=table(data$COMCSNO) tab=sort(tab,decreasing=T) condition=tab[tab>2&tab%filter(COMCSNO %in% names(condition)) [너무 큰 데이터일 경우 샘플링해서 사이즈를 줄이고 특징잡을때] #2개-11개만 꺼냈는데도 데이터가 너무 클 경우, 고객으로 유니크걸고 한번 더 샘플링 subject_ids = unique(condition$COMCSNO) # Sample from the subject ids sample_subject_ids = sample(subject_ids, round(length(subject_ids)/100,0)) #현재고객 533 # Get the..

R console에서 install.packages("~")를 써서 안되는 경우에 해당한다. (.libPaths를 콘솔에 치면 밑에 노가다를 끝내면 저장되는 곳이 어디인지 알 수 있다. ) https://cran.r-project.org/package=~ 물결부분에 필요한 라이브러리 이름을 쓰고 링크로 타고 들어가면, tar.gz로 된 파일이 존재한다. 이것을 다운받으면 된다. 혹은 구글링할때 필요한 패키지이름 tar.gz download이런식으로 쳐서 다운받아도 괜찮다. 그후, setwd를 사용해서 다이렉토리를 명시해주거나 rstudio에 있는 Files>Upload로 가서 파일을 업로드 해준다. rstudio콘솔에 install.packages("setwd이름/hunspell_3.0.tar.gz",r..