① コンテキスト長(Context Length)とは?
「モデルが一度に理解・処理できる情報量」 のことです。つまり、「LLMが一度の会話・文書入力で覚えておける最大トークン数(単語や記号のかたまり)」を指す。
🧩 たとえば:
GPT-4 Turbo:128,000トークン(=日本語でおよそ8〜10万文字)
Gemini 1.5 Pro:100万トークン(=本一冊レベル)
小型モデル(LLaMA 3 8Bなど):通常4,000〜8,000トークン
短いコンテキスト長(例:4,000トークン)
→「一度に短文しか読めないAI」
→ 小説1章を超えると前の内容を忘れてしまう。
長いコンテキスト長(例:100万トークン)
→「本1冊をまるごと読んで要約できるAI」
→ ドキュメント全体を把握して、前後の関係を理解できる。
長いコンテキスト長を持つモデルほど、
「文脈を途切れずに理解」できる
### 推論速度(Inference Speed)とは?
AIが応答を返すまでの速さ のこと
同じ質問をしても、モデルの設計や規模によって速度は大きく異なる
Flash系 (例: Gemini Flash, GPT-4o-mini) 軽量スポーツカー 速い 🚀
Pro系 (例: GPT-4, Gemini Pro) 高性能SUV やや遅いが高精度
巨大モデル (例: Mixtral, LLaMA 70B) 重トラック 高精度だが遅い 🐢
速度は主に以下の3要素で決まります。
モデルサイズ(パラメータ数が多いほど遅い)
ハードウェア(GPU or CPU)
並列化や量子化(最適化で速くなる)
チャットボットやQA → 高速モデル(Flash系)
高精度な分析や生成 → Pro系モデル
リアルタイム処理が必要な場面 → 推論速度重視
埋め込み(Embedding)とは?
これは、LLMの「意味を数値に変換する技術」です。
テキストを単なる文字列ではなく、
AIが「意味的な距離」で比較できるようにします。
🔍 たとえば:
テキスト 埋め込み後のベクトル(例)
「りんご」 [0.12, -0.87, 0.44, …]
「みかん」 [0.10, -0.80, 0.46, …]
「車」 [-0.55, 0.92, -0.33, …]
このとき、「りんご」と「みかん」はベクトルが近い