'Data Analysis/Python' 카테고리의 글 목록 (3 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Data Analysis/Python (38)

지방이의 Data Science Lab

[python] imputation

1 2 3 4 5 6 7 8 9 10 11 #1. 0으로 잘못 표기되어 나왔을 경우 mean값으로 대체 pledge = pd.read_csv('train_pledge.csv', engine='python') non_combat = np.array(pledge['non_combat_play_time']) non_combat_mean = non_combat[np.nonzero(non_combat)].mean() pledge['non_combat_play_time'] = np.where(pledge['combat_play_time']>0, pledge['non_combat_play_time'] + non_combat_mean, pledge['non_combat_play_time']) #2. na라는 모든 값을..

Data Analysis/Python 2020. 2. 8. 16:51

[python] file 속 데이터들을 전부 가져오는 방법 glob.glob

1 2 import glob (glob.glob("../data/x/*/*.csv")) 위 코드 번역 ==>data라는 폴더안에 들어있는 모든 폴더에 들어가서 .csv에 해당하는 모든 파일을 데려와서 directory를 보여라. 더보기 응용: ravel과 glob를 이용해 데이터 전처리 하는 방법 (옆으로 늘어져있던걸 밑으로 늘리는 방법) https://jlim0316.tistory.com/122 ravel c에 이어지는 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 y = pd.read_csv("../data/..

Data Analysis/Python 2020. 2. 8. 15:15

[python] one row to multiple rows

* 원하는 list에서 무언가 지우고 싶을때 del쓰면 된다. (추가하고 싶을땐 append) * 데이터를 좀 정리해서 무거운 데이터를 가볍게 가지고 싶을때 사용하면 된다. 즉, 아래와 같이 생긴 데이터를 회사명 2014년_신용등급 2015년_신용등급 2015년_신용등급 삼성 AAA AAA AAA ... 회사명 년도 등급 삼성 2014 AAA 삼성 2015 AAA 삼성 2016 AAA 이렇게 만들어 주는 과정이다. 과정에서 들어간 핵심코드는 ravel 'C'olumn별로 쓰여있는 등급을 한 열 안에 몰아넣는 것. 나머지 회사와 년도는 늘어난 갯수만큼 맟줘준것임. colnames는 한줄로 늘리고 싶은 열 이름들이 들어간 값, company는 나머지 이름들. 1 2 3 4 5 6 7 8 9 10 11 12 ..

Data Analysis/Python 2020. 2. 7. 15:18

[python] 원하는 string포함한 pd.dataframe 필터링

1 2 회사채 =['사채', '금융채', '특수채', '자본증권'] manu_y = manu_y[manu_y['증권명'].str.contains('|'.join(회사채), na= False)] ==>manu_y의 증권명 컬럼 내에서 회사채에 해당하는 데이터 프레임만 필터링해 1 2 평가사 = ['-','Fitch', 'JCR', 'SP','S&P','이크레더블'] manu_y = manu_y[~manu_y["평가사명 및 등급"].str.contains('|'.join(평가사))] cs ==>manu_y의 평가사명 및 등급 컬럼에 평가사에 해당하는 데이터는 가져오지마 1 2 manu_y = manu_y[manu_y['평가사명 및 등급'].str.contains('A1')==False] manu_y = ma..

Data Analysis/Python 2020. 2. 5. 13:21

[python] key id가 multiple 관측치일때 갯수 일정하게

1 total_x.groupby(['회사명']).filter(lambda x:x.shape[0]>4) = 회사명의 중복 아이디 갯수 세었을때 5개넘는 것만 가져와.

Data Analysis/Python 2020. 2. 1. 11:43

[python] kmeans, agglomerative clustering

from sklearn.cluster import AgglomerativeClustering %time cluster = AgglomerativeClustering(n_clusters=7, affinity='euclidean', linkage='average') cluster.fit_predict(temp_data) pd.value_counts(pd.Series(cluster.labels_)) 불러오는 중입니다... from sklearn.cluster import KMeans km = KMeans(n_clusters=7) x_names = [x for x in total_activity.columns if x not in ['acc_id']] km.fit(total_activity[x_names]) p..

Data Analysis/Python 2019. 9. 3. 01:46

[python] 데이하루씩 미루기

1 2 3 4 5 def change_day(day_list): change = np.where(day_list == 28, 1, day_list+1) return change

Data Analysis/Python 2019. 8. 30. 15:46

[python] minmaxscaler

from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler(copy=True, feature_range=(0, 1)) temp = label.iloc[:, 1:] scaler.fit_transform(temp.values)from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler(copy=True, feature_range=(0, 1)) temp = label.iloc[:, 1:] temp = pd.DataFrame(scaler.fit_transform(temp.values)) temp.columns = label.iloc[:,1:].columns temp=pd.concat([..

Data Analysis/Python 2019. 8. 28. 20:04

Prev 1 2 3 4 5 Next

목록Data Analysis/Python (38)

지방이의 Data Science Lab

티스토리툴바