| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
- #위도#경도#비정형데이터#크롤링
- 위도경도
- 구글 지오코드
- 숫자빼고 중복되는 코드동작법
- 셀레니움
- #비정형#카카오api#api#크롤링
- 파이썬
- 웹매크로 #세잔느
- #비정형 데이터 #네이버 #지도 #크롤링
- #K-means #Clustering
- #크롤링 #웹문서
- 코딩
- 파이썬 셀레니움
- 카카오APi
- 웹크롤링
- Today
- Total
목록All (143)
지방이의 Data Science Lab
import datetime as dt kma3['date'] = pd.to_datetime(kma3['date']) kma3['month'] = pd.DatetimeIndex(kma3['date']).month *(1) 유저별로 최근 날짜 데이터만 뽑아보기 # 유저별로 가장 최근 날짜 가져오는건 .max()를 쓰는 것보다 int로 냅뒀다가 정렬을 최근순으로 두고 duplicate제거 해서 맨위에 꺼만 떼오는게 훨씬 빠르다. [비추천] import datetime as dt df1['SALDT']=df1['SALDT'].astype(str) df1['SALDT']=pd.to_datetime(df1['SALDT']) from tqdm import tqdm datediff_for_each_cs = {} fo..
https://colab.research.google.com/notebooks/mlcc/first_steps_with_tensor_flow.ipynb?utm_source=mlcc&utm_campaign=colab-external&utm_medium=referral&utm_content=firststeps-colab&hl=ko#scrollTo=ci1ISxxrZ7v0 Google Colaboratory colab.research.google.com 위 주소는 GD가 왜 필요한지 알게 해주는 실습 코딩방법이다. 신경망(Neural network)에 weight을 줄때 보통 사용. 아래로 볼록 한 그래프가 있다고 생각하면 손실값이 최소가 되는 값을 찾아가는 과정인데, step size=learning rate이..
[특정 고객 추출] # 2개- 11개만 산 고객들만 보고 싶을때 tab=table(data$COMCSNO) tab=sort(tab,decreasing=T) condition=tab[tab>2&tab%filter(COMCSNO %in% names(condition)) [너무 큰 데이터일 경우 샘플링해서 사이즈를 줄이고 특징잡을때] #2개-11개만 꺼냈는데도 데이터가 너무 클 경우, 고객으로 유니크걸고 한번 더 샘플링 subject_ids = unique(condition$COMCSNO) # Sample from the subject ids sample_subject_ids = sample(subject_ids, round(length(subject_ids)/100,0)) #현재고객 533 # Get the..
R console에서 install.packages("~")를 써서 안되는 경우에 해당한다. (.libPaths를 콘솔에 치면 밑에 노가다를 끝내면 저장되는 곳이 어디인지 알 수 있다. ) https://cran.r-project.org/package=~ 물결부분에 필요한 라이브러리 이름을 쓰고 링크로 타고 들어가면, tar.gz로 된 파일이 존재한다. 이것을 다운받으면 된다. 혹은 구글링할때 필요한 패키지이름 tar.gz download이런식으로 쳐서 다운받아도 괜찮다. 그후, setwd를 사용해서 다이렉토리를 명시해주거나 rstudio에 있는 Files>Upload로 가서 파일을 업로드 해준다. rstudio콘솔에 install.packages("setwd이름/hunspell_3.0.tar.gz",r..
https://github.com/jihyunlim0316/Financing-Calculator jihyunlim0316/Financing-Calculator Contribute to jihyunlim0316/Financing-Calculator development by creating an account on GitHub. github.com
빅데이터 ㄹㅇ 빅데이터일때, 2억개넘어가고, 열이 몇백이 넘어가면 코드하나 치고 돌아가는데 거의 10분걸릴때도 있다. 그럴때 유용하다. INPUT OUTPUT RAM을 줄이면서 코딩짜는 방법 (1) 100만 행이 넘어가는 데이터가 큰건 무조건 data.frame이 아니라 data.table로 해야 속도가 엄청 빨라진다. (2)*** 추천시스템 알고리즘을 만들때, dcast가 필요했다. melt도 해보고, spread도 해보고 다 시도해봤자 데이터 크기가 너무 커서 안됐다. 이때 그나마빠른게 dcas.data.table이라 생각했는데 이를 능가하는 방법이 있다. #비추천 aa=summarise(group_by(data_m, COMCSNO, PRDKEY), sumqty=sum(DASBLAFT_SALQTY))..
https://jlim0316.tistory.com/20 Clustering 군집화 Clustering: K-means & Hierarchical clustering 군집화 클러스터링 방법은 행끼리 같은걸 묶는 게 될 수 도 있고, 설명변수가 비슷한거 끼리 묶는 방식이 될 수도 있다. 즉, row끼리 비슷하게 묶을 수도 있고, co.. jlim0316.tistory.com 에 이어서 새로 알게 된 것들이 있다. pam, pamk 혹은 clarad이다. k-means를 사용할거면 아웃라이어를 잘 처리하고 사용하던가, 혹은 robust k means를 해야하는데, Partitioning Around Medoids으로 개수를 내가 지정해서 나누던가, pamk로 지가알아서 분류를 하는거로 나누던가 해야한다. 둘..
데이터가 100만개가 넘어가면 data.frame으로는 어림없다. 램문제로 고생하고 돌아가지도 않는다. 이때 사용하는게 data.table이다. data.table은 데이터를 합치고 쪼갤때 데이터가 100만개가 넘는 상황에서 20-40배 빠른 속도 차이를 보인다. 심지어 램으로 인해 안돌아가는 코드가 돌아가기도 한다. 밑의 코드는 패턴 분석할때, 클러스터링을 위해 integer로 설정된 2천개가 넘는 컬럼을 "한번에" 다 numeric처리해줄때 필요하다. 아래코드를 보통 많이 사용해왔었는데, #sample2[, 2:dim(sample2)[2]] = sapply(sample2[, 2:dim(sample2)[2]], as.numeric) 3억개의 데이터를 패턴분석을 위해 Sparsity Data로 변경하면,..