일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- #위도#경도#비정형데이터#크롤링
- #비정형 데이터 #네이버 #지도 #크롤링
- 코딩
- #비정형#카카오api#api#크롤링
- 웹크롤링
- 파이썬
- #크롤링 #웹문서
- 웹매크로 #세잔느
- 카카오APi
- 셀레니움
- 파이썬 셀레니움
- 구글 지오코드
- #K-means #Clustering
- 숫자빼고 중복되는 코드동작법
- 위도경도
- Today
- Total
지방이의 Data Science Lab
[python] kmeans, agglomerative clustering 본문
from sklearn.cluster import AgglomerativeClustering
%time
cluster = AgglomerativeClustering(n_clusters=7, affinity='euclidean', linkage='average')
cluster.fit_predict(temp_data)
pd.value_counts(pd.Series(cluster.labels_))
from sklearn.cluster import KMeans
km = KMeans(n_clusters=7)
x_names = [x for x in total_activity.columns if x not in ['acc_id']]
km.fit(total_activity[x_names])
pd.value_counts(pd.Series(km.labels_))
from scipy.cluster.hierarchy import dendrogram, linkage
import scipy.cluster.hierarchy as spc
from scipy.cluster.hierarchy import cophenet
from scipy.spatial.distance import pdist
import pylab
corr = temp_data.corr()#.values()
Z = linkage(corr, 'average')
c, coph_dists = cophenet(Z, pdist(corr))
c
# pdist = spc.distance.pdist(corr)
# linkage = spc.linkage(pdist, method='average')
# idx = spc.fcluster(linkage, 0.5 * pdist.max(), 'distance')
# assignments = fcluster(linkage(temp_data, method='complete'),4,'distance')
# cluster_output = pandas.DataFrame({'team':df.teamID.tolist() , 'cluster':assignments})
import matplotlib.pyplot as plt
%matplotlib inline
plt.title('Dendrogram')
plt.xlabel('Index Numbers')
plt.ylabel('Distance')
dendrogram(
Z,
leaf_rotation=90.,
leaf_font_size=8.,
)
plt.show()
'Data Analysis > Python' 카테고리의 다른 글
[python] 원하는 string포함한 pd.dataframe 필터링 (0) | 2020.02.05 |
---|---|
[python] key id가 multiple 관측치일때 갯수 일정하게 (1) | 2020.02.01 |
[python] 데이하루씩 미루기 (0) | 2019.08.30 |
[python] minmaxscaler (0) | 2019.08.28 |
[python] 주별, 요일별로 변경 (0) | 2019.08.28 |