Shingo Sakamoto
- Jun 23
- 6 min read

LLMの出力の信頼性向上

すっかり我々の日常や業務に普及したLLM（大規模言語モデル）ですが、ときに事実と異なる内容や論理的に矛盾する内容を出力することもあり、出力結果を信頼して良いのか、頭を悩ませることがあります。そういった背景もあり、ビジネス上の重要な意思決定の根拠として使うには不安が残ると感じる方も多いと思います。

そこで、今回はLLMの出力の信頼性向上に向けた最新の取り組みとして、2つの興味深い論文をご紹介します。これらの研究は、LLMの応答の正確性を担保しつつ、ユーザーがその信頼性を適切に判断できるようにするための方法論を提案しています。

（Source: ChatGPTで生成）

SAFE：事実性評価の自動化

1つ目に紹介する論文はGoogle DeepMindとスタンフォード大学、イリノイ大学アーバナ・シャンペーン校による共同研究 "LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS " です。本研究では、LLMの長文出力の事実性を自動評価するための新しい手法SAFE （Search-Augmented Factuality Evaluator）を提案しています。

SAFE以前にも、言語モデルの応答を評価するモデルとしてはThibault SellamらによるBLEURT、Sewon Minらによる FActScoreといったモデルが提案されてきましたが、いずれも長文形式のレスポンスに対する評価には適していないという課題がありました。SAFEではLLMエージェントを活用したレスポンスの分析とGoogle検索による事実確認を組み合わせることで事実性評価の精度向上を図っています。

（Source: https://arxiv.org/pdf/2403.18802）

SAFEは上図で示されるようなプロセスでLLMの応答の事実性を評価します。まず最初に

“What is the Eiffel Tower?”

というPrompt（入力）から、以下のResponse（出力）を得ています。

“The Eiffel Tower is a tower in Paris. It opened in the 20th century. The Nile River is in Egypt.”

次に、このReponseの事実性を以下のプロセスで評価しています。

LLMからのResponseを小さな情報に分割する これにより、応答に含まれる各事実を別々に評価することができます。(例: エッフェル塔はパリにあります。）
代名詞等を置き換えることにより、文章中で情報を完結させる 分割した各文が自己完結しているか（その文章を読むだけで、何を言いたいかわかる状態）を確認し、必要に応じて関係代名詞のように他の情報を参照するような表現を解消します。
ユーザーのプロンプトに対して必要な情報だけに絞り込む
情報それぞれについてGoogle検索し、検索結果から事実性を評価 評価の結果をもとに、Outputとして、支持される情報の数、支持されない情報の数、無関係な情報の数をそれぞれ出力しています。上記の例では、"The Eiffel Tower is a tower."と"The Eiffel Tower is in Paris."はGoogle検索で事実性が支持され、"The Eiffel Tower opened in the 20th century."は支持されず、"The Nile River is in Egypt."は無関係な情報として評価されています。

他の例も見てみます。以下の図は、

"Elsa Pataky's contributions have been significant."

という文の事実性が評価されるプロセスを明らかにしています。

（Source: https://arxiv.org/pdf/2403.18802）

上図を見ると、"Elsa Pataky's contributions have been significant."という文章の事実性は、3つの検索結果から支持されているようです。先ほどのエッフェル塔の例と異なるのは、SAFEが元の文章を分割するだけではなく、「どのような観点で貢献したか」という解釈に幅を与えるようなクエリ生成を行っており、これによってElsa Patakyの貢献を多角的に調査できていることがわかります。

著者らの検証によれば、SAFEは比較のために雇われた人間の評価者よりも高い精度で事実性を判定でき、コストも20分の1に抑えられたとのことです。また、著者らは特に言語モデルをエージェントとして振る舞わせ、複数ステップに及ぶGoogle検索と注意深く推論をさせた点にSAFEの革新性があると述べています。

LLMの確信度とユーザーの信頼度の乖離

2つ目はカリフォルニア大学アーバイン校の研究者らによる論文 “The Calibration Gap between Model and Human Confidence in Large Language Models” です。本論文では、LLMが自分自身の出力にあまり自信がない場合であっても、人間はその出力を信頼してしまう傾向があることが明らかにされ、この問題を解消するアイデアを提示しています。

他の研究でLLMが自己認識を反映する内部的なメカニズムを持つことが示唆されており、本研究ではこのメカニズムを活用した形のアプローチを導入しています。質問セットに対する回答をLLMに出力させる際に、通常の出力パターンに加えて、回答に対する確信度を含む内容を出力させるパターンも用意し、両者に対する人間の受け止め方を比較しています。

具体的な検証の流れは下図のように、択一式の質問に対してLLMが回答の選択肢と説明を出力し人間がLLMの出力の信頼度を評価するという流れとなります。

（Source: https://arxiv.org/pdf/2401.13835）

本検証では、LLMに対して、選択肢を選ばせる前に各選択肢に対する確信度を出力させている点に特徴があります。上図の例では、LLMの内部的な確信度ではCが突出していないのに対し、受け取る人間は95%の信頼度を示しており、LLMの内部的な確信度と人間の受け止め方に乖離があることがわかります。

著者らの実験では、通常の説明を出力した場合と内部的な確信度を反映させた説明を出力した場合を比較しており、ECE（Expected Calibration Error）という指標を用いて、以下のような結果を得ました。ECEは、分類問題において、モデルの確信度（モデルが自分自身の回答それぞれについて何％で正解すると思っているか）と実際の正解率との間の一致を測定します。例えば、モデル（今回は人間も同様）が「70%の確信を持ってこの回答が正しい」と予測した場合、実際の正解率も70%であることが理想です。ECEの値は、0に近いほど確信度と実際の正解率の差が小さく、良い結果であることを示します。

（Source: https://arxiv.org/pdf/2401.13835）

上図を見ると、説明に対して特別な工夫をしていない場合（Baseline Explanations）と比較して、内部的な確信度を反映した説明を出力した場合（Modified Explanations）によりECEが小さくなる、つまり、人間がLLMの出力に対する信頼性を正確に判断できるようになったことがわかります。

また、Baseline Explanationsを用いた場合に人間がLLMの回答に対して過剰に高い信頼を示してしまう傾向も見て取ることができます。

この研究は、実はすごくシンプルなことを言っています。人間同士の会話でも、（a）実際はそれほど根拠がないのに自信満々に答える人もいれば、逆に、（b）根拠はあるのに自信なさげに答える人もいます。自信満々な人の回答に対する信頼度はやはり高い傾向にあり、逆に自信なさげな人の回答に対する信頼度は低い傾向にあるのが一般的だと思います。そこで、実際の根拠レベルを定量的に言語化してもらってから答えてもらう（「根拠レベルとしては80点くらいなんだけど、これは〜だよ。」とか、「根拠レベルとしては20点もないんだけど、それは〜だよ。」等）ことで、インターフェース（自信満々な顔や自信なさげな挙動）に惑わされずに、回答に対する信頼性を評価できるのではないか？ということを言っています。

さまざまなビジネスシーンでLLMによる情報が意思決定に影響を与える可能性が高まってきている中、人間がLLMのレスポンスを過剰に信頼してしまうことが大きなリスクになり得るとも指摘されています。そうしたリスクを軽減し、LLMをより信頼できる形で活用するために、本研究で実施されたようなモデルの確信度と人間の信頼度の乖離を埋めるようなアプローチが有用となるかもしれません。これは、プロダクトにおけるAI-UX（AIを中心とするユーザーエクスペリエンス）を考える上で今後ますます重要なテーマになっていくと思います。

IDATEN Ventures（イダテンベンチャーズ）について

フィジカル世界とデジタル世界の融合が進む昨今、フィジカル世界を実現させている「ものづくり」あるいは「ものはこび」の進化・変革・サステナビリティを支える技術やサービスに特化したスタートアップ投資を展開しているVCファンドです。

お問い合わせは、こちらからお願いします。

今回の記事のようなIDATENブログの更新をタイムリーにお知りになりたい場合は、下記フォームからぜひ IDATEN Letters に登録をいただければ幸いです。

LLMの出力の信頼性向上

Recent Posts