1. BLEU(Bilingual Evaluation Understudy)
主に「機械翻訳」や「文章生成の精度」を自動で測る指標。
生成文 と 正解文(リファレンス) の間で、
単語やフレーズ(n-gram) の一致率を計算
「どれだけ同じ単語列が出てきたか」を重視する手法です。
正解文: 私はリンゴを食べました
生成文: 私はリンゴを食べた
共通の n-gram が多いため、
BLEUスコアは高くなる(例: 0.8 など)。
「食べた」 vs 「食事した」 は同じ意味でも評価されない
2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
目的:主に「要約タスク」の自動評価に使われます。
BLEUが「生成文にどれだけ正解単語が含まれるか(Precision)」を重視するのに対し、
ROUGEは正解文の情報をどれだけ拾えているか(Recall) を重視します。
特に有名なのは ROUGE-1(単語)、ROUGE-2(2-gram)、ROUGE-L(最長共通部分列)。
正解要約: 富士山は日本で最も高い山である。
生成要約: 富士山は日本一高い山。
→ 多くの重要単語(富士山、日本、高い山)が共通
→ ROUGEスコア高め
3.人手評価(Human Evaluation)
目的:
AIが出力した文章を人間が直接見て判断する方法。
一番信頼できるが、一番コストが高い。
正確性(Accuracy) 事実・情報が正しいか
一貫性(Consistency) 文全体に矛盾がないか
流暢性(Fluency) 日本語として自然か
関連性(Relevance) 質問や文脈に合っているか
創造性(Creativity) 独自性・表現力があるか
4. ガイドラインベース評価(Guideline-based Evaluation)
人手評価の主観を抑え、一貫性のある基準で評価する方法。
💡 概念
OpenAIやAnthropicが内部で使用しているように、
評価者に「詳細な採点基準(ガイドライン)」を与えることで、
人手評価を半構造化・定量化します
指標 種類 評価対象 特徴 長所 短所
BLEU 自動 翻訳・生成 単語の一致率 定量的で高速 意味を理解できない
ROUGE 自動 要約 単語の網羅性 要約に適する 言い換えに弱い
人手評価 手動 全般 主観ベース 正確・柔軟 高コスト・主観的
ガイドライン評価 手動+基準化 全般 定義ベース 再現性が高い 準備が必要