Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 셀레니움
- #크롤링 #웹문서
- #비정형 데이터 #네이버 #지도 #크롤링
- 웹매크로 #세잔느
- 위도경도
- 구글 지오코드
- #K-means #Clustering
- #위도#경도#비정형데이터#크롤링
- 코딩
- 숫자빼고 중복되는 코드동작법
- 웹크롤링
- 파이썬
- #비정형#카카오api#api#크롤링
- 카카오APi
- 파이썬 셀레니움
Archives
- Today
- Total
지방이의 Data Science Lab
[python] x, y 쪼개기, train, test 쪼개기 본문
imbalance일때 학습시키려면 계층유지셔커서 쪼개는 방법
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
|
X = flatten.drop('KIS_credit_&_2018',axis=1)
y = flatten['KIS_credit_&_2018']
#방법1
from sklearn.model_selection import train_test_split
train_test_split(X, y, random_state=0, stratify=y, shuffle=True)
train=flatten.iloc[train_inds]
test=flatten.iloc[test_inds]
#방법2
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GroupShuffleSplit
train_inds, test_inds=next(GroupShuffleSplit(test_size=.3,n_splits=10,random_state=7).split(flatten,groups=flatten['Name']))
train=flatten.iloc[train_inds]
test=flatten.iloc[test_inds]
#방법3(추천)
from sklearn.model_selection import StratifiedShuffleSplit
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(X, y):
strat_train_set = flatten.loc[train_index]
strat_test_set = flatten.loc[test_index]
|
cs |
쪼갠 후 , 확인하는 코드:
1
2
3
|
strat_test_set.groupby(['KIS_credit_&_2018'])['Name'].count()
|
'Data Analysis > Python' 카테고리의 다른 글
[Python] 두 리스트에서 다른 것 찾기 (0) | 2020.08.01 |
---|---|
[python] string 을 list로 변환 (0) | 2020.02.13 |
[python] imputation (0) | 2020.02.08 |
[python] file 속 데이터들을 전부 가져오는 방법 glob.glob (0) | 2020.02.08 |
[python] one row to multiple rows (0) | 2020.02.07 |
Comments