본문 바로가기

Transformer2

[인공지능개론] Transformer② 이제 진짜 Transformer에 대해 알아보자. Transformer는 NLP 분야에서 많이 쓰이던 RNN 구조가 아닌 Attention 매커니즘을 사용하여 번역 부분에서 SOTA를 차지하였고 현재는 다양한 분야에서 우수한 성능을 보여주고 있다. Transformer model의 전체 구조는 아래와 같다. 여기서 주의할 점은 내부적으로는 Self Attention을 수행하지만 Encoder의 결과를 Decoder의 입력으로 전달할 때에는 Cross Attention을 한다는 점이다.sequence data의 패턴을 찾는 예제와 함께 Transformer  구조를 분석해보자. 이는  input sequence로 1,1,1,1이 들어온다면 1이 반복되는 패턴을 인식하여 1,1,1,1,1,1,1,1,1을 출.. 2024. 8. 20.
[인공지능개론] Transformer① Transformer에 대해 알아보자.Transformer가 나오게 된 배경은 무엇일까? 그 이전에는 seq2seq (sequence-to-sequence) 모델이 있었다. 이는 Encoder-Decoder 구조로 LSTM이 여러개 연결되어 구성된 Encoder를 context를 추출하고 이를 다시 LSTM으로 구성된 Decoder에 넣어 autoregressive하게 생성해내는 모델이다.이 모델은 하나의 고정된 크기의 context 벡터에 모든 정보를 압축하는 과정에서 정보의 손실이 발생한다는 문제와 vanishing gradient 문제가 존재했다. 이를 보완하기 위해 Attention으로 이루어진 Encoder-Decoder 구조의 Transformer 모델이 제안되었다.그렇다면 Attention은.. 2024. 8. 20.