[LLM] Attention is All You Need

Attention is All You Need

従来の機械翻訳(Seq2Seq)はこうでした:
🧩 RNN(LSTMなど)で入力文を順に読み、隠れ状態にエンコード
🧩 その状態をデコーダーが順に展開して出力を生成
→ つまり「時系列処理(順番に読む)」が前提。
しかしRNNは並列化できず、長文では文脈を忘れやすいという弱点がありました。

Transformerの発想
「全部並列で読んで、Attention(注意機構)で関係性だけを学習すればいい」
つまり:
時系列構造をやめて「全単語を同時に見て」
単語間の関係を Attention で表現する
→ これがタイトルの “Attention is All You Need” の意味です。

構成は「エンコーダ」と「デコーダ」の2ブロック:
ブロック 役割 構成
Encoder 入力文の意味を圧縮・表現 Self-Attention + Feed Forward
Decoder その表現をもとに出力文を生成 Masked Self-Attention + Cross-Attention + Feed Forward

名前 役割
Q (Query) 注目する視点(どの単語に注目したいか)
K (Key) 単語の特徴(注目される側)
V (Value) 実際に取り出す情報

🎭 Multi-Head Attentionとは?
「1つの視点では足りない」ので、
複数の異なるQ, K, V空間(ヘッド) を並列で使い、
さまざまな関係(文法的・意味的など)を学びます。

Feed Forward Network(FFN)
Self-Attentionの出力(各単語)を、
個別に2層のMLP(全結合層)で変換します。
これにより非線形変換が入り、表現力が上がります。