'Data Analysis/깨R지식' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Data Analysis/깨R지식 (20)

지방이의 Data Science Lab

[R] 데이터 string 부분 매칭되는 row 불러오기

1 2 3 4 library(stringr) library(dplyr) CO2 %>% filter(str_detect(Treatment, "non") 코드 해석: CO2데이터의 Treatment 열에 'non'이라는 글자를 포함하면 그 row들을 불러와라.

Data Analysis/깨R지식 2020. 8. 2. 20:05

[R] 보고서 작성에 쓰이는 데이터 시각화 색상 고르는 팁

* 소소한 보고서 TIP 보고서에 담겼을 때 예쁜 색상 팁: geom_bar부분에 보이는 aplha(색상 투명도)값을 조정할 것 파스텔 톤이 아니어서 쨍한, 즉, Solid한 색상(alpha=1) 을 사용하면 촌스러워 진다. alpha값은 투명도를 조정하는 것인데, 1에 가까울 수록 solid한 색이고, 0에 가까울 수록 pastel색이다. alpha을 조정하여 파스텔 톤으로 변경하면 좀 더 고급지게 보고서에 담을 수 있다. 내 기준 0.6정도로 바꿔 투명하게 만들었을 때가 가장 예쁘게 담기는 색이라 생각한다. 그래야 보고서 상 강조하고 싶은 내용에 빨간색으로 표시를 하며 원하는 내용에 더 집중할 수 있다. 아래 그림을 비교해 보면 왜 alpha를 조정해야하는 지 느낄 수 있을 것이다. (library(..

Data Analysis/깨R지식 2020. 6. 29. 18:41

[R] 데이터 시각화: Bar Plot

1 2 3 4 5 6 7 8 9 10 11 12 13 libraray(dplyr); library(ggplot2);library(forcats) df = data%>%filter(categorical1=="aa") temp = aggregate(df$numerical, by = list(df$categorical2), FUN = sum) colnames(temp) = c('categorical2', 'numerical') temp%>% mutate(name = fct_reorder(categorical2, numerical)) %>% ggplot( aes(x=categorical2, y=numerical)) + labs(x="") + geom_bar(stat="identity", fill="#68C8CB..

Data Analysis/깨R지식 2020. 6. 29. 17:12

[R] 다른 길이 벡터인 경우, median 구하는법

median을 구하고 싶은데, 벡터길이가 다른 경우 사용이 가능하다. (벡터의 길이가 다른 경우, 그냥 cbind 때리면 길이가 작은 것엔 0값으로 들어간다.) 각 길이 중 max 값을 찾아내고 그만큼의 데이터 프레임을 형성해주면 벡터 길이가 작은 쪽에 NA가 추가된다. 1 2 3 n

Data Analysis/깨R지식 2020. 4. 23. 10:53

[R] plot: 두 라인 사이 색칠 법

ROC 커브를 그리기 위해서 찾아보다 알게됐다. 5fold인경우 그림에 다 담아내면 지저분해져서 ==>max값 min값의 차이 부분을 쉐이딩 해주고 median값을 선으로 나타냈다. 라인 사이 색칠법은 간단하다. polygon이라는 명령어를 사용해주면된다. 1 polygon(c(fpr1,rev(fpr2)),c(tpr1,rev(tpr2)),col="grey", border = 'grey')

Data Analysis/깨R지식 2020. 4. 22. 20:38

[R] 코드 동작시간 잴때 tictoc사용

tictoc이라는 패키지를 이용하면 된다. 1 2 3 4 5 6 7 8 devtools::install_github("jabiru/tictoc") library(tic) tic("LR(f) Modelling") mod_fit = train(target ~ ., data=data, method="glm", family="binomial") pred_target = predict(mod_fit, newdata=test1,type='prob') toc()

Data Analysis/깨R지식 2020. 1. 5. 10:19

[R] 5-fold CV 코드 직접 생성 (숫자빼고 반복되는 코드일 경우, 깨알 팁)

일반적으로 사용하는 caret에서 성능평가가 아닌, 즉, caret에 포함되지 않은 모델을 만들때 유용하다. train/test set을 각각 5세트로 만들어서 confusion matrix를 직접만들어서 성능을 평가해야하는 경우 사용할 수 있다. 나의 경우 베이지안 네트워크 모델을 사용하기 위해 사용했다. 1 2 3 4 5 6 7 8 9 10 11 12 library(forecast) flds=createFolds(data$target,k=5,list=T,returnTrain = F) c=c(); f=c() for(i in 1: 5){ want_assign = data[-flds[[i]],] name = paste0('train', i, sep='', collapse = ',') c = c(c, ass..

Data Analysis/깨R지식 2020. 1. 5. 10:06

[R] geom_line (geom_path: Each group consists of only one observation. )

geom_path: Each group consists of only one observation. Do you need to adjust the group aesthetic? 위와 같은 에러 코드가 나는이유: 엄청 간단한 그룹도 없는 가장 basic한 라인그래프인데 왜 안그려질까? 할때는 group=1이라는 값을 지정해주지 않아서 그런것이다. library(ggplot2) ggplot(data, aes(x=X1, y=상관계수, group=1)) + geom_line(colour='#68C8CB')+ theme_bw()+xlab("")

Data Analysis/깨R지식 2020. 1. 2. 15:42

Prev 1 2 3 Next

목록Data Analysis/깨R지식 (20)

지방이의 Data Science Lab

티스토리툴바