[LLM] コンテキスト長、推論速度、埋め込み – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

① コンテキスト長（Context Length）とは？

「モデルが一度に理解・処理できる情報量」のことです。つまり、「LLMが一度の会話・文書入力で覚えておける最大トークン数（単語や記号のかたまり）」を指す。

🧩 たとえば：
GPT-4 Turbo：128,000トークン（＝日本語でおよそ8〜10万文字）
Gemini 1.5 Pro：100万トークン（＝本一冊レベル）
小型モデル（LLaMA 3 8Bなど）：通常4,000〜8,000トークン

短いコンテキスト長（例：4,000トークン）
→「一度に短文しか読めないAI」
→ 小説1章を超えると前の内容を忘れてしまう。

長いコンテキスト長（例：100万トークン）
→「本1冊をまるごと読んで要約できるAI」
→ ドキュメント全体を把握して、前後の関係を理解できる。

長いコンテキスト長を持つモデルほど、
「文脈を途切れずに理解」できる

### 推論速度（Inference Speed）とは？
AIが応答を返すまでの速さのこと
同じ質問をしても、モデルの設計や規模によって速度は大きく異なる

Flash系 (例: Gemini Flash, GPT-4o-mini) 軽量スポーツカー速い 🚀
Pro系 (例: GPT-4, Gemini Pro) 高性能SUV やや遅いが高精度
巨大モデル (例: Mixtral, LLaMA 70B) 重トラック高精度だが遅い 🐢

速度は主に以下の3要素で決まります。
モデルサイズ（パラメータ数が多いほど遅い）
ハードウェア（GPU or CPU）
並列化や量子化（最適化で速くなる）

チャットボットやQA → 高速モデル（Flash系）
高精度な分析や生成 → Pro系モデル
リアルタイム処理が必要な場面 → 推論速度重視

埋め込み（Embedding）とは？

これは、LLMの「意味を数値に変換する技術」です。
テキストを単なる文字列ではなく、
AIが「意味的な距離」で比較できるようにします。

🔍 たとえば：
テキスト埋め込み後のベクトル（例）
「りんご」 [0.12, -0.87, 0.44, …]
「みかん」 [0.10, -0.80, 0.46, …]
「車」 [-0.55, 0.92, -0.33, …]

このとき、「りんご」と「みかん」はベクトルが近い