CS231 Lecture 13: Attention 요약 & 정리
지난 번 배운 내용들 sequence가 짧지 않고, 길게 되면 어떻게 될까? 길게 되면 막히는 문제가 생김. 한 개의 single vector C가 모든 것을 process하기 때문에 - 문제해결 방법: decoder 하기 전마다 새로운 context vector를 사용한다! 아래가 이제 문제 해결 방법으로 변경 된 모습 1) scalar alignment score를 계산한다 2) attention weight 가중치를 얻기 위해서 Noramlize 를 한다 3) hidden states의 linear 혼합으로서 context vector를 계산한다. Intution예상: decoder 부분에서 여러개의 다른 output이 나올 수 있음. we are 같은 경우 두 문자로 나온 예시로 볼 수 있음? 또..
2021.03.22