액티베이션 펑션
데이터가 들어오면 가중치와 곱한다.
시그모이드
0근처가 선형같다
3개문제
그레디언트를 죽인다
- 백프로파 과정에서 편미분을할 때 x -10이면 그레디언트가 0이 된다 0에 가까운 값이 백프롭 되고 이게 계속 백프롭 된다
제로센터드가 아니다
뉴런 입력이 항상 양수일떄 문제이다
- 그레디언트가 모두 양수 또는 모두 음수가 된다.
계산 비용이 크다
-그렇게 큰 문제는 아니다
하이퍼블릭 탄젠트
제로센터드
렐루
음수면 0 양수면 값 그대로 출력
양수값에서 세츄레이션 되지않는다.
계산효율 뛰어나다
알렉스넷 렐루사용
문제 제로센터드가 아님
데드렐루 문제 데이터 클라우드에서 떨어져 있을 때 발생
문제 러닝레이트가 엄청 큰경우
맥스아웃
둘중 max 취함
리니어
W1, W2가 있어야함
LECTURE 6-40 질문
가중치가 모두 0으로 세팅되면 어떻게 될까
모든 뉴런들이 모두 같은 일을 한다
모든 가중치가 똑같이 업데이트 되고
모든 가중치를 동일하게 초기화 시키면 뉴런들이 같은 일을 한다.
근데 알엔엔에서는 동일한 가중치를 가진다고했는데
이는 입력값이 계속 달라져서 히든스테이트에 X를 계속 더해줘서 가능한 일인가?
XAVIER 가중치 초기화 방법 - 2010 - 입/출력의 분산을 맞춰주는것 . 입력이 작으면 작은값으로 나누고 크면 큰값으로 나누고
너무작으면 가중치가 소멸된다
가중치가 너무 크면 SATURATed 된다 한쪽으로 치우친다느것같다.
근데 렐루+ 자비어는 렐루는 가중치 절반을 죽여버려서 결국 그라디언트가 소실된다.
그래서 반을 나눠줘서 하면 결과가 좋다.
알엔엔은 다르게
씨엔엔과 다르게 다양성을 보자는 것보다는 연속성을보자에 포커싱을 맞춰서
똑같은걸 겹친다
트랜스포머 어텐션 올유니드- 혁명적 - 과거에는 리뷰감성분석때는 워드투벡터 사용 - 단어의미를 알면 문맥을 알수 있다. 워드백터로
트랜스포머 어텐션 개념은 단어 단위가 아니고 문장단위-
RNN는 나는, 배를, 좋아한다를 넣어준다.
트랜스포머는 문장을 통째로 넣는다.
lstm은 너무 단어를 계속 넣어서 넣는횟수가 많다.
attention류는 문장만 넣어서 넣는 속도가 빨라졌다.
배치노말라이제이션
가우시안 범위로 액티베이션을 유지시키는것
평균0과 분산1에 가깝게 되도록 맞추는것
이렇게 만들면 미분 가능한 함수가 됨 -> 백프롭 가능하게 됨
FC나 conv 뒤에 넣어준다.
감마 분산 베타 평균
입력 미니배치 평균 구하기 분산구하기 평균분산으로 노말라이제이션 흐름원활 러닝레이트 키움 다양한초기화 가능 레귤러라이제이션 기능 레이어 출력 디털메이스틱하지 않게 된다
데이터를 배치노말라이제이션 해도 가우시안화 해도 특징을 잃진 않는다. 그저 스케일링하고 이동하는 것 뿐이기 때문이다.
레이어의 입력을 노말라이즈 하는 것이다.
입력에 평균을 빼고 표준편차로 나눠주면 가우시안화 된다.
'모두의 연구소 AIFFEL 교육' 카테고리의 다른 글
tensorflow-gpu 삭제후 원하는 버젼으로 재설치 방법 (0) | 2021.03.18 |
---|---|
텐서 2.2.0 설치방법 (0) | 2021.03.16 |
Cs231n 9강 ResNet 복습 (0) | 2021.03.15 |
CS231n 10강 복습 (0) | 2021.03.15 |
구글넷 lecture 9 (0) | 2021.03.12 |