'Data Analysis' 카테고리의 글 목록 (14 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록Data Analysis (116)

지방이의 Data Science Lab

[R] 평균값으로 imputation하는 방법

예를 들어, 가지고 있는 데이터 중에 홍길동의 나이만 모른다고 할때, 홍길동 데이터를 지우는 방법말고, 채워주는 방법이다. 홍길동을 제외한 나머지 데이터들의 평균값을 홍길동 나이라고 치는 셈. # mean imputation data$AGE[data$USERID=="홍길동"] = mean(mean(data$AGE[!is.na(data$AGE)]))

Data Analysis/깨R지식 2019. 7. 25. 10:53

[python] 유저아이디별로 5줄씩만 가져오기

가지고 있는 데이터 프레임에서, 정렬해서 유저별로 상위 5줄씩가져와서 상위 아이템 보려고 할때: top5 = {} for num, idx in enumerate((pd.unique(lim.index))): print(num/len((pd.unique(kang.index)))) top5[idx] = lim.loc[lambda x: x.index ==idx,'CEM_PRDCD'][0:5] top5 = pd.concat(top5.values()) (굵은 표시 부분은 없어도 무방하다. %로 얼마나 진행됐는지 보고싶었는데, tqdm이 서버에 안깔려있어서 사용 불가했음) out_dict = {} for key in (pd.unique(top5.index))[0:100]: out_dict[key] = list((pd..

Data Analysis/Python 2019. 7. 23. 11:35

[python] groupby로 본 데이터를 데이터프레임으로 만들기

train.groupby([train['COMCSNO'], train['SALDT']]).size().to_frame('size').reset_index() 밑줄 부분에 컬럼명을 지정해주면 된다.

Data Analysis/Python 2019. 7. 23. 11:12

[python] date형태를 다시 int로 변환

date 형태를 int로 바꾸는 기본 형태는 이렇다. from datetime import date date.today().strftime('%Y%m%d') pandas내 df형태로 되어있을 경우: (1) date 형태를 int로 변환하는 방법 train['SALDT'] = train['SALDT'].apply(lambda x: x.strftime('%Y%m%d')) train['SALDT'] = train['SALDT'].astype(int) (2) int형태를 date로 변환하는 방법 import datetime as dt train['SALDT'] = train['SALDT'].astype(str) train['SALDT'] = pd.to_datetime(train['SALDT'])

Data Analysis/Python 2019. 7. 23. 11:08

[python] 최근날짜에 따라 데이터 추출

import datetime as dt kma3['date'] = pd.to_datetime(kma3['date']) kma3['month'] = pd.DatetimeIndex(kma3['date']).month *(1) 유저별로 최근 날짜 데이터만 뽑아보기 # 유저별로 가장 최근 날짜 가져오는건 .max()를 쓰는 것보다 int로 냅뒀다가 정렬을 최근순으로 두고 duplicate제거 해서 맨위에 꺼만 떼오는게 훨씬 빠르다. [비추천] import datetime as dt df1['SALDT']=df1['SALDT'].astype(str) df1['SALDT']=pd.to_datetime(df1['SALDT']) from tqdm import tqdm datediff_for_each_cs = {} fo..

Data Analysis/Python 2019. 7. 22. 14:46

손실 줄이기 Recuding Loss : Gradient descent algorithm

https://colab.research.google.com/notebooks/mlcc/first_steps_with_tensor_flow.ipynb?utm_source=mlcc&utm_campaign=colab-external&utm_medium=referral&utm_content=firststeps-colab&hl=ko#scrollTo=ci1ISxxrZ7v0 Google Colaboratory colab.research.google.com 위 주소는 GD가 왜 필요한지 알게 해주는 실습 코딩방법이다. 신경망(Neural network)에 weight을 줄때 보통 사용. 아래로 볼록 한 그래프가 있다고 생각하면 손실값이 최소가 되는 값을 찾아가는 과정인데, step size=learning rate이..

Data Analysis 2019. 7. 3. 16:51

[R] 특정 고객 데이터 추출

[특정 고객 추출] # 2개- 11개만 산 고객들만 보고 싶을때 tab=table(data$COMCSNO) tab=sort(tab,decreasing=T) condition=tab[tab>2&tab%filter(COMCSNO %in% names(condition)) [너무 큰 데이터일 경우 샘플링해서 사이즈를 줄이고 특징잡을때] #2개-11개만 꺼냈는데도 데이터가 너무 클 경우, 고객으로 유니크걸고 한번 더 샘플링 subject_ids = unique(condition$COMCSNO) # Sample from the subject ids sample_subject_ids = sample(subject_ids, round(length(subject_ids)/100,0)) #현재고객 533 # Get the..

Data Analysis/깨R지식 2019. 6. 25. 17:10

R: package 직접 설치

R console에서 install.packages("~")를 써서 안되는 경우에 해당한다. (.libPaths를 콘솔에 치면 밑에 노가다를 끝내면 저장되는 곳이 어디인지 알 수 있다. ) https://cran.r-project.org/package=~ 물결부분에 필요한 라이브러리 이름을 쓰고 링크로 타고 들어가면, tar.gz로 된 파일이 존재한다. 이것을 다운받으면 된다. 혹은 구글링할때 필요한 패키지이름 tar.gz download이런식으로 쳐서 다운받아도 괜찮다. 그후, setwd를 사용해서 다이렉토리를 명시해주거나 rstudio에 있는 Files>Upload로 가서 파일을 업로드 해준다. rstudio콘솔에 install.packages("setwd이름/hunspell_3.0.tar.gz",r..

Data Analysis/깨R지식 2019. 5. 2. 11:20

Prev 1 ··· 11 12 13 14 15 Next

목록Data Analysis (116)

지방이의 Data Science Lab

티스토리툴바