일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 위도경도
- 카카오APi
- 웹매크로 #세잔느
- #비정형#카카오api#api#크롤링
- #위도#경도#비정형데이터#크롤링
- 웹크롤링
- 파이썬
- #비정형 데이터 #네이버 #지도 #크롤링
- 구글 지오코드
- #크롤링 #웹문서
- 파이썬 셀레니움
- 셀레니움
- 코딩
- 숫자빼고 중복되는 코드동작법
- #K-means #Clustering
- Today
- Total
지방이의 Data Science Lab
손실 줄이기 Recuding Loss : Gradient descent algorithm 본문
Google Colaboratory
colab.research.google.com
위 주소는 GD가 왜 필요한지 알게 해주는 실습 코딩방법이다.
신경망(Neural network)에 weight을 줄때 보통 사용.
아래로 볼록 한 그래프가 있다고 생각하면 손실값이 최소가 되는 값을 찾아가는 과정인데, step size=learning rate이 너무 작으면 개오래 걸리고 크면 발산하는 위험이 있다. 한단계 실행할때마다 다음 단계로 가는 과정이 촘촘해짐.
batch는 한번 이터레이션 돌릴때 기울기를 계산하기 위해 하는 행위가 총 몇번인가를 의미한다.
(1): An Iterative Approach
손실 함수(loss fuction)값을 검토해서 새로운 값 생성하고 새 매개변수 값을 계속 출력하다 보면 손실 값이 가장 낮은 모델의 매개변수를 발견하게 된다. 수렴하게 될때 멈추는 방법.
The learning continues iterating until the algorithm discovers the model parameters with the lowest possible loss.
(2): Gradient Descent
회귀 문제에서 볼록 함수 모양의 손실 대 가중치 도표가 산출된다. 기울기가 0인 지점은 하나만 존재한다. 이때 수렴.
가중치 w_i를 작게 잘 설정해야함. The gradient descent algorithm calculates the gradient of the loss curve at the starting point. 단일 가중치에 대한 손실의 기울기= 미분 값. 경사하강법(Gradient descent)는 음의 기울기를 의존한다.
w_i와 b를 잘 찾아야함.
(3): Learning Rate
=Step size를 잘 조정하는게 중요하다. 손실 함수의 기울기가 너무 작으면 학습속도가 오래걸려서 좀 더 큰 learning rate을 사용하는게 좋다. Gradient Descent 가 잘 수렴하고 발산하지 않는 값을 찾으면 장땡이다.
( Goldilocks learning rate)의 존재: 가장 짧은 단계로 효율적으로 찾아내는 학습률
데이터가 엄청나게 크다면-> a small batch나 a batch of one example(SGD)사용해야한다.
무작위 샘플링이면 노이즈가 존재한다. stochastic Gradient Descent(SGD)의 Stochastic은 각 배치를 포함하는 하나의 예를 무작위로 선택하는 것이다. 이터레이션이 충분하다면 SGD는 좋겠지만 노이즈가 심함. 그래서 Mini-batch stochastic gradient descent를 절충안으로 사용한다. SGD의 노이즈를 줄이면서 효율적이기 때문.
'Data Analysis' 카테고리의 다른 글
Lyx 설치방법 (0) | 2020.11.25 |
---|