[LLM] 会話ログの分析 – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

LLMの「会話ログ分析（chat log analysis）」は、AIの品質改善・ユーザー理解・安全性検証などに直結する重要な工程

LLMの会話ログ分析は、次の3段階で行うのが一般的
1️⃣ データ収集・整形
2️⃣ 定量分析（メトリクス）
3️⃣ 定性分析（内容・品質）

1️⃣ データ収集・整形
ログは通常、以下のような形式で保存される：
JSONL（1行ごとに1チャット）
PostgreSQL / BigQuery（大規模ログ）
ログ収集基盤（例：Datadog, ElasticSearch）

2️⃣ 定量分析（メトリクス）
数値的に「モデルがどのくらい良かったか」を分析
品質 BLEU / ROUGE / BERTScore 生成文と理想解の一致度
自然さ perplexity / fluency 文章の滑らかさ
応答速度 latency 応答にかかった時間
満足度 thumbs up/down, rating ユーザーのフィードバック
業務指標解決率 / 再質問率実務上の有効性

Pythonの分析例

import pandas as pd

df = pd.read_csv("chat_logs.csv")

# 応答時間の平均
print("平均応答時間:", df["latency"].mean())

# 再質問率（ユーザーが同じ質問を繰り返した回数）
repeat_rate = df[df["input_text"].duplicated()].shape[0] / len(df)
print("再質問率:", repeat_rate)

# フィードバックスコア
positive_rate = (df["feedback"] == "👍").mean()
print("満足度:", positive_rate)

3️⃣ 定性分析（内容・品質）
数値だけでは分からない「中身の良し悪し」を人が確認します。
分析方法：
要約分析：どんなテーマの質問が多いか（例：経費、勤怠、福利厚生）
回答品質の分類：正確・不正確・曖昧など
トーン分析：丁寧／フレンドリー／冷たいなど
ハルシネーション（幻覚）検出：根拠のない出力があるか

from openai import OpenAI
client = OpenAI()

log = "ユーザー: 経費申請の期限は？\nAI: 翌月15日までに提出してください。"
prompt = f"次のAI回答は正確ですか？ Yes/Noで答えてください。\n\n{log}"

resp = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": prompt}]
)

print(resp.choices[0].message.content)

モデル品質評価 BLEU, ROUGE, GPT-based eval
カスタマーサポート分析意図分類、トピッククラスタリング
改善ポイント抽出ネガティブフィードバック解析
安全性検証不適切発言検出、機密情報流出検出
運用指標応答時間、利用回数、解決率