본문 바로가기

모두의 연구소 AIFFEL 교육37

모델 파라미터와 하이퍼 파라미터 모델 파라미터는 모델이 학습을 하면서 점차 최적화되는, 그리고 최적화가 되어야 하는 파라미터입니다. 예를 들어 선형 회귀의 경우 y_pred = W*x + b 라는 식으로 예측값을 만들어 낼 텐데, 여기에서 모델 파라미터는 W 입니다. 모델은 학습 과정을 거치면서 최적의 y_pred 값, 즉 y_true에 가장 가까운 값을 출력해낼 수 있는 최적의 W를 찾아나갈 것입니다. 반면, 하이퍼 파라미터는 모델이 학습을 하기 위해서 사전에 사람이 직접 입력해 주는 파라미터입니다. 이는 모델이 학습하는 과정에서 변하지 않습니다. 예를 들어 학습 횟수에 해당하는 epoch 수, 가중치를 업데이트할 학습률(learning rate), 또는 선형 규제를 담당하는 labmda 값 등이 이에 해당합니다. 2021. 2. 4.
시그모이드 지그재그 시그모이드 지그재그 s1 s2 시그모이드를 통해서 들어온 입력값 양수 양수 일떄 0~1 노드는 웨이트를 가지고 있는데 W1,W2, b를 가지고 있는데 f = w1x1+w2x2+b W가 올바른 방향으로 업데이트 되길 원한다. 로스에 대한 W1로 미분값 = 그레디언트 = df/dw1 * dL/df = x1*dL/df 로스에 대한 W2로 미분값 = df/dw2(로컬 그레디언트) * dL/df(업스크림 그라디언트) = x2*dL/df x1양수 x2 양수이면 업스트림 그라디 언트와 방향이 똑같이 된다. 예를들어 dL/df =7이면 (양수)*7 = +7 * ㅁ (양수)* -7 = -7 * ㅁ 1.W1,W2가 모두 양수 일 때 x축 W1, y축 W2 1사분면 2. W1, W2가 모두 음수일 때 3사분면 만약 4사분면.. 2021. 2. 1.
2월 1일 cs231n 6강 메모 딥러닝 네트워크에서 노드에 입력된 값들을 비선형 함수에 통과시킨 후 다음 레이어로 전달하는데, 이 때 사용하는 함수를 활성화 함수(Activation Function)라고 한다. 선형 함수가 아니라 비선형 함수를 사용하는 이유는 딥러닝 모델의 레이어 층을 깊게 가져갈 수 있기 때문이다. 5*5냐 5*5*3이냐 ? -> 5*5*3이 맞다. 3이 생략되어있다. input volume 32*32*3 10 5*5, pad2 -.케라스 로 표현하면 tf.keras.layers.conv2D(10,5, padding='same', input_volume >0) 10 ==필터갯수, 5==필터크기 필터의 차원은 입력 값에 따라 자동으로 맞춰준다. 함수를 컴퓨터셔널 그래프로 표현하는법을 배웠다. 리니어 레이어를 비 선형 .. 2021. 2. 1.
pooling 이란 제로 패딩을 하게되면 데이터 양이 너무 커지니 max-pooling 같은 걸 써서 특징들을 추출한뒤 뽑아내줘서 학습 시간을 줄여준다. 2021. 2. 1.