일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 웹크롤링
- #위도#경도#비정형데이터#크롤링
- #K-means #Clustering
- 위도경도
- 셀레니움
- 카카오APi
- 파이썬
- #비정형 데이터 #네이버 #지도 #크롤링
- 웹매크로 #세잔느
- #크롤링 #웹문서
- 파이썬 셀레니움
- 코딩
- 구글 지오코드
- 숫자빼고 중복되는 코드동작법
- #비정형#카카오api#api#크롤링
- Today
- Total
목록Data Analysis/깨R지식 (20)
지방이의 Data Science Lab
1 2 3 4 library(stringr) library(dplyr) CO2 %>% filter(str_detect(Treatment, "non") 코드 해석: CO2데이터의 Treatment 열에 'non'이라는 글자를 포함하면 그 row들을 불러와라.
* 소소한 보고서 TIP 보고서에 담겼을 때 예쁜 색상 팁: geom_bar부분에 보이는 aplha(색상 투명도)값을 조정할 것 파스텔 톤이 아니어서 쨍한, 즉, Solid한 색상(alpha=1) 을 사용하면 촌스러워 진다. alpha값은 투명도를 조정하는 것인데, 1에 가까울 수록 solid한 색이고, 0에 가까울 수록 pastel색이다. alpha을 조정하여 파스텔 톤으로 변경하면 좀 더 고급지게 보고서에 담을 수 있다. 내 기준 0.6정도로 바꿔 투명하게 만들었을 때가 가장 예쁘게 담기는 색이라 생각한다. 그래야 보고서 상 강조하고 싶은 내용에 빨간색으로 표시를 하며 원하는 내용에 더 집중할 수 있다. 아래 그림을 비교해 보면 왜 alpha를 조정해야하는 지 느낄 수 있을 것이다. (library(..
1 2 3 4 5 6 7 8 9 10 11 12 13 libraray(dplyr); library(ggplot2);library(forcats) df = data%>%filter(categorical1=="aa") temp = aggregate(df$numerical, by = list(df$categorical2), FUN = sum) colnames(temp) = c('categorical2', 'numerical') temp%>% mutate(name = fct_reorder(categorical2, numerical)) %>% ggplot( aes(x=categorical2, y=numerical)) + labs(x="") + geom_bar(stat="identity", fill="#68C8CB..
median을 구하고 싶은데, 벡터길이가 다른 경우 사용이 가능하다. (벡터의 길이가 다른 경우, 그냥 cbind 때리면 길이가 작은 것엔 0값으로 들어간다.) 각 길이 중 max 값을 찾아내고 그만큼의 데이터 프레임을 형성해주면 벡터 길이가 작은 쪽에 NA가 추가된다. 1 2 3 n
ROC 커브를 그리기 위해서 찾아보다 알게됐다. 5fold인경우 그림에 다 담아내면 지저분해져서 ==>max값 min값의 차이 부분을 쉐이딩 해주고 median값을 선으로 나타냈다. 라인 사이 색칠법은 간단하다. polygon이라는 명령어를 사용해주면된다. 1 polygon(c(fpr1,rev(fpr2)),c(tpr1,rev(tpr2)),col="grey", border = 'grey')
tictoc이라는 패키지를 이용하면 된다. 1 2 3 4 5 6 7 8 devtools::install_github("jabiru/tictoc") library(tic) tic("LR(f) Modelling") mod_fit = train(target ~ ., data=data, method="glm", family="binomial") pred_target = predict(mod_fit, newdata=test1,type='prob') toc()
일반적으로 사용하는 caret에서 성능평가가 아닌, 즉, caret에 포함되지 않은 모델을 만들때 유용하다. train/test set을 각각 5세트로 만들어서 confusion matrix를 직접만들어서 성능을 평가해야하는 경우 사용할 수 있다. 나의 경우 베이지안 네트워크 모델을 사용하기 위해 사용했다. 1 2 3 4 5 6 7 8 9 10 11 12 library(forecast) flds=createFolds(data$target,k=5,list=T,returnTrain = F) c=c(); f=c() for(i in 1: 5){ want_assign = data[-flds[[i]],] name = paste0('train', i, sep='', collapse = ',') c = c(c, ass..
geom_path: Each group consists of only one observation. Do you need to adjust the group aesthetic? 위와 같은 에러 코드가 나는이유: 엄청 간단한 그룹도 없는 가장 basic한 라인그래프인데 왜 안그려질까? 할때는 group=1이라는 값을 지정해주지 않아서 그런것이다. library(ggplot2) ggplot(data, aes(x=X1, y=상관계수, group=1)) + geom_line(colour='#68C8CB')+ theme_bw()+xlab("")