[LLM] Attention is All You Need – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

Attention is All You Need

従来の機械翻訳（Seq2Seq）はこうでした：
🧩 RNN（LSTMなど）で入力文を順に読み、隠れ状態にエンコード
🧩 その状態をデコーダーが順に展開して出力を生成
→ つまり「時系列処理（順番に読む）」が前提。
しかしRNNは並列化できず、長文では文脈を忘れやすいという弱点がありました。

Transformerの発想
「全部並列で読んで、Attention（注意機構）で関係性だけを学習すればいい」
つまり：
時系列構造をやめて「全単語を同時に見て」
単語間の関係を Attention で表現する
→ これがタイトルの “Attention is All You Need” の意味です。

構成は「エンコーダ」と「デコーダ」の2ブロック：
ブロック役割構成
Encoder 入力文の意味を圧縮・表現 Self-Attention + Feed Forward
Decoder その表現をもとに出力文を生成 Masked Self-Attention + Cross-Attention + Feed Forward

名前役割
Q (Query) 注目する視点（どの単語に注目したいか）
K (Key) 単語の特徴（注目される側）
V (Value) 実際に取り出す情報

🎭 Multi-Head Attentionとは？
「1つの視点では足りない」ので、
複数の異なるQ, K, V空間（ヘッド）を並列で使い、
さまざまな関係（文法的・意味的など）を学びます。

Feed Forward Network（FFN）
Self-Attentionの出力（各単語）を、
個別に2層のMLP（全結合層）で変換します。
これにより非線形変換が入り、表現力が上がります。