[LLM] コンテキスト長、推論速度、埋め込み

① コンテキスト長(Context Length)とは?

「モデルが一度に理解・処理できる情報量」 のことです。つまり、「LLMが一度の会話・文書入力で覚えておける最大トークン数(単語や記号のかたまり)」を指す。

🧩 たとえば:
GPT-4 Turbo:128,000トークン(=日本語でおよそ8〜10万文字)
Gemini 1.5 Pro:100万トークン(=本一冊レベル)
小型モデル(LLaMA 3 8Bなど):通常4,000〜8,000トークン

短いコンテキスト長(例:4,000トークン)
→「一度に短文しか読めないAI」
→ 小説1章を超えると前の内容を忘れてしまう。

長いコンテキスト長(例:100万トークン)
→「本1冊をまるごと読んで要約できるAI」
→ ドキュメント全体を把握して、前後の関係を理解できる。

長いコンテキスト長を持つモデルほど、
「文脈を途切れずに理解」できる

### 推論速度(Inference Speed)とは?
AIが応答を返すまでの速さ のこと
同じ質問をしても、モデルの設計や規模によって速度は大きく異なる

Flash系 (例: Gemini Flash, GPT-4o-mini) 軽量スポーツカー 速い 🚀
Pro系 (例: GPT-4, Gemini Pro) 高性能SUV やや遅いが高精度
巨大モデル (例: Mixtral, LLaMA 70B) 重トラック 高精度だが遅い 🐢

速度は主に以下の3要素で決まります。
モデルサイズ(パラメータ数が多いほど遅い)
ハードウェア(GPU or CPU)
並列化や量子化(最適化で速くなる)

チャットボットやQA → 高速モデル(Flash系)
高精度な分析や生成 → Pro系モデル
リアルタイム処理が必要な場面 → 推論速度重視

埋め込み(Embedding)とは?

これは、LLMの「意味を数値に変換する技術」です。
テキストを単なる文字列ではなく、
AIが「意味的な距離」で比較できるようにします。

🔍 たとえば:
テキスト 埋め込み後のベクトル(例)
「りんご」 [0.12, -0.87, 0.44, …]
「みかん」 [0.10, -0.80, 0.46, …]
「車」 [-0.55, 0.92, -0.33, …]

このとき、「りんご」と「みかん」はベクトルが近い