[인공지능개론] Transformer②
이제 진짜 Transformer에 대해 알아보자. Transformer는 NLP 분야에서 많이 쓰이던 RNN 구조가 아닌 Attention 매커니즘을 사용하여 번역 부분에서 SOTA를 차지하였고 현재는 다양한 분야에서 우수한 성능을 보여주고 있다. Transformer model의 전체 구조는 아래와 같다. 여기서 주의할 점은 내부적으로는 Self Attention을 수행하지만 Encoder의 결과를 Decoder의 입력으로 전달할 때에는 Cross Attention을 한다는 점이다.sequence data의 패턴을 찾는 예제와 함께 Transformer 구조를 분석해보자. 이는 input sequence로 1,1,1,1이 들어온다면 1이 반복되는 패턴을 인식하여 1,1,1,1,1,1,1,1,1을 출..
2024. 8. 20.