[LLM] 3Blue1BrownのLLM解説 – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

3Blue1Brown は有名なYoutubeチャンネル
https://www.youtube.com/@3blue1brown

制作者：Grant Sanderson（グラント・サンダーソン）
内容：数学・AI・物理などの抽象的な概念を超美しいアニメーションで可視化する教育チャンネル
名前の意味：制作者の目の色（片方が青3つ、もう片方が茶1つ）に由来しています

■高品質なアニメーション
使用しているツールは Manim（Mathematical Animation Engine）
自作のPythonライブラリで、数学アニメーション専用。
現在はオープンソース化され、教育・AI研究の可視化に広く使われています。
👉 Manim公式

OpenAIやDeepMindのエンジニアも「彼の動画で理解した」と発言

### 3Blue1BrownのLLM解説
1. LLMとは「次の単語を予測する関数」
LLM（大規模言語モデル）は、あるテキストの直後に続く単語を予測する確率分布関数と考えられる。
ただし「最も確率の高い単語」を常に選ぶわけではなく、ランダム性を持たせて応答を自然にするよう設計されることがある。
モデルは、与えられた文脈（プロンプト＋生成済みテキスト）をすべて使って次の単語を決定する。

2. Transformer／Attention の利用
3Blue1Brown の解説では、LLM内部で Transformer（Attention 機構）が使われている点を詳細に描写します。
– Embed（埋め込み）段階：単語を高次元ベクトルに変換
– Attention：各単語ベクトルが他の単語ベクトルに注目して情報を交換
– Feed Forward ネットワーク（MLP）：Attention 後のベクトルを各位置で独立変換
– これらの処理を複数層重ねることで、文脈の情報が多段階で取り込まれていく

3. 事実の記憶（Knowledge / Facts の “格納”）
3Blue1Brown は “LLM がどうやって事実（知識）を内部に持つか” という観点に触れています。特に “How might LLMs store facts” という章で詳述。
– モデルの MLP（多層パーセプトロン）層に、事実情報がある程度蓄えられている可能性を指摘
– 例示：入力「Michael Jordan plays the sport of ___」に対して “basketball” を予測できるのは、内部で “Michael Jordan → basketball” という対応を何らかのベクトル操作で実現しているから、という説明
3blue1brown.com
+1
– この観点から、「Attention は文脈処理／結合、MLP は知識格納の役割を持つ」という分担感が描かれています

4. モデルの規模と訓練の難しさ
3Blue1Brown では、LLM の巨大さ・計算コストにも触れています。
3blue1brown.com
何十億〜何千億というパラメータ（重み）を持つ
それらを最適化するための学習には膨大なデータと計算資源が必要
人間が株ごとパラメータを設定するわけではなく、勾配法 + 損失関数によって徐々に学ばれる

5. 応答の確率的性・多様性
3Blue1Brown は「同じプロンプトでも違う応答が返る」点にも言及します。
3blue1brown.com
モデルは確率分布を使って次の単語を選ぶので、必ずしも最頻出語を返すわけではない
少し確率が下がる語を選ぶことで、応答が自然・人間らしくなる