일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 파이썬 셀레니움
- #비정형 데이터 #네이버 #지도 #크롤링
- 파이썬
- #크롤링 #웹문서
- 숫자빼고 중복되는 코드동작법
- 카카오APi
- 구글 지오코드
- #위도#경도#비정형데이터#크롤링
- 위도경도
- 셀레니움
- 웹매크로 #세잔느
- #K-means #Clustering
- 웹크롤링
- 코딩
- #비정형#카카오api#api#크롤링
- Today
- Total
목록Data Analysis (116)
지방이의 Data Science Lab
1 2 3 movies = pd.read_csv('data/movies.csv', encoding='utf-8') genres = [x.split('|') for x in movies['genres'].values] genres = list(set(sum(genres, [])))
옵션 추가기능으로 개발 도구 탭을 생성한 후, Excel 추가 기능을 누른다. 분석도구 부분을 체크 표시해준다. 이게 통계 분석 하는 법이다. 그러면 데이터 탭에 맨 우측에 데이터 분석이라는 메뉴가 생긴다.
이게 진짜 엑셀 내부에서 데이터 전처리를 하는 법 배우는 이유라고 생각한다. 간편하다. 시각적으로 보여주자면 좋은 이유는 다음과 같다. [Excel] 데이터 전처리: 데이터 조인(1)에서 공부한 대로 따라하면 아래 왼쪽 사진처럼 나오게 된다. [Excel] 데이터 전처리: 데이터 조인(2)에서 오른쪽 사진처럼 나오게 하는 방법을 알아보고자 한다. 왼쪽 위 사진처럼 조인하는 세부 방법은 아래 사이트에서 확인할 수 있다. jlim0316.tistory.com/280?category=963501 위사이트에서 병합하는 법까지 따라해서 병합을 완료하고 확인하기까지 누르면 아래사진처럼 뜬다. 그럼 이제 한 행에 unique한 element를 전부 넣는 방법을 사용해서 응용해보고자 한다. jlim0316.tistor..
데이터 조인은 여러 방법이 있다. sql에서 혹은 python이나 r에서 데이터 조인 그리고 지금처럼 엑셀에서 조인이 있다. 엑셀에서 조인하면 장점은 제품을 여러번 산 경우 혹은 어딘가 방문한 경우이다. 예를 들어 내가 화장품을 열개를 살 수 있는데 열개를 산 기록을 모두 가져오고 싶은경우 조인할 때 distinct가 다르다고 에러나는 경우가 많은데, 엑셀은 똑똑하게 가져온다. 1. 일단 연결하기로 데이터를 만들어줘야한다. 아래 사진처럼 연결전용입니다. 라는 말이 나오게까지 일단 만들어야 한다. 이렇게 만드는 방법은 jlim0316.tistory.com/280 [Excel] 데이터 전처리: 데이터 조인 연결하기로 데이터를 만들어줘야한다. 1. 표로 생성하기 파워쿼리를 사용하기 위해 두개의 테이블 모두 C..
표 범위 전체 선택해주고 ctrl+t 로 파워쿼리에서 쓸 수 있는 형태로 변환해준 후 데이터 탭 혹은 파워쿼리 탭에서 표에서를 클릭한다. 그리고 열추가> 인덱스 열 > 0부터 클릭한다 인덱스 열을 추가한 후, 열추가 탭> 표준> 모듈로 를 클릭한다. 반복되는 행의 갯수를 세어주면 된다. 예시에서는 4행이 반복되고 있으니 모듈로에 4를 적어준다. 다음은 변환 탭> 피벗 열을 클릭한다. 피벗 열에서 하고 싶은 걸 대략적인 사진으로 보여주자면 아래와 같다. 열1의 값들을 값열로 가져올 것이다. 그런데 이때 집계안함으로 가져와야 값을 변환없이 가져올 수 있다. 저 화살표로 시뮬레이션 하며 보여준 값은 아래 사진과 같은 거다. 0,1,2,3,이라는 열이름으로 놓고 값열을 열1의 내용을 집어 넣어준 것이다. 이제 ..
두 열의 중복된 행/중복되지 않은 행을 보고 싶다라면 ctrl을 눌러서 보고싶은 열 전체 선택해준다. 그 후 그룹화라는 버튼 눌러주고 변경할 것 없이 확인 버튼을 누르면 아래사진처럼 뜬다. 필터걸고 하고싶은대로 하고 닫기 및 로드를 누르면 된다. 중복된 열 중복되지 않은 열로 가져오는 것보다 갯수 그대로 가져온다음에 밖에서 필터링 하는 것도 괜찮다고 생각한다. 아래는 정보전달일 뿐 그닥 중요하지 않다. 따로따로 테이블을 불러오면 중복된 열을 추출하고 싶을 때 필터링으로 가져오면 파워쿼리의 장점인 자동화가 안된다. 따라서 중복된 열 추출은 열추가 탭> 조건 열 에서 아래처럼 설정해주면 된다. 이후 필터에서 True선택하고 사용자지정 열은 제거해준다.
내 엑셀엔 파워쿼리가 없는데? 라면 간단하게도 그냥 설치하면 된다. 파일 탭> 계정 탭> 제품정보 확인하면 자신의 제품 구독 정보를 확인할 수 있다. 회사 컴퓨터인 경우 대부분 Microsoft Office 365 ProPlus여서 여타의 설정없이 따라할 수 있을 것이다. 2016 버전 이후부터는 엑셀에 이미 포함이된 게 디폴트로 나왔고, 2010과 2013버전을 쓰는 사람은 따로 추가기능을 설치해야 사용할 수 있다. 대부분 가지고 있는 엑셀이 Microsoft Office Standard 2013정도일 것이다. 이미 추가기능으로 내장되어 있지만 이걸 모르고 아, 내 엑셀로는 따라할 수 없나보다라고 생각하지 말고 설정을 변경해보자. 설정을 변경하기 전 데이터 탭으로 가보면 아래 사진 처럼 생겼다. 1. ..
아래와 같이 지저분하게 되어있는 데이터를 정형화시켜야 분석을 시작할 수 있다. 특히나 공공데이터가 이런 식으로 가공되어 나오는 경우가 많은데 분석하고자 할때 이런 걸 잘 정형화 시키는게 중요하다. 이렇게 열병합까지 되어 있는 경우엔 행/열 변환을 요긴하게 사용해서 형식을 변환시켜야 한다. 아래 설명을 따라하면 다음과 같은 형식으로 변경할 수 있다. 시작하기 앞서 행/열 변환을 한번 해주고자 한다. 값을 채워주고 싶기 때문이다. 이제 필요없는 열1, 열2 이부분을 날리고 오른쪽 열처럼 변경하는 방법을 알아보자. 이제 열 아래부분은 같은 이름으로 채워주는 방법을 알아보자. 우클릭 하고 채우기 누른후에 아래로를 클릭한다. 열 병합을 해주고자 한다. 열을 이동시키려면 커서로 잡아서 끌어도 되고 우클릭해서 이동 ..