BLOG
AI(人工知能)

ハルシネーション?そもそもLLMには間違った情報が含まれている!

ハルシネーションとの遭遇

ハルシネーションとは

 ハルシネーションについてはいろいろな説明がありますが、Metaによる定義がシンプルで分かりやすく感じます。

真実ではない自信のある発言(confidently state information that isn’t correct)」
引用元:Blender Bot 2.0: An open source chatbot that builds long-term memory and searches the internet(July 16, 2021)

最初のハルシネーション

筆者が最初にAIの「ハルシネーション」を体験したのは、2023年初頭のことでした。当時、ChatGPTが2022年11月に発表され、その能力に多くの人々が注目していました。一方で、AIのハルシネーションが発生することはすでに知られており、一部の企業ではChatGPTの業務利用に慎重な姿勢を見せていた時期でもあります。

2022年の大河ドラマ「鎌倉殿の13人」は2022年12月まで放送されました。鎌倉幕府の二代執権となった北条義時を主人公に描かれています。その最終回は衝撃的で強く印象に残っていました。ただし、史実として確定していない結末でもありました。

そこで、ChatGPTに尋ねてみました。

「北条義時を殺したのは誰か」

その時の回答は、明確に記録していなかったのですが、おおむね次のようなものでした。

「北条義時は、本能寺にて、明智光秀によって殺されました」

これはまさにハルシネーションです。そんな事実は存在せず、時代も全く異なります。

不足した知識による推論

では、なぜChatGPTがこのような回答を返したのでしょうか。次のように考えました。北条義時の殺害に関する直接の知識がないため、関連付けを試みて推論したのではないかと。

  • 北条義時の殺害について、直接の知識がない→関連付けをたどってみる
  • 「時の権力者である武将の殺害」の知識はないか?→「本能寺の変」があった!
  • 殺したのは、明智光秀だ!

ChatGPTは膨大な情報を学習し、その関連性をたどって推論した結果、誤りにたどり着いてしまったようです。この推論過程の誤りは、AIが膨大な情報をもとに正しい結論に至れない場合の典型といえるでしょう。

余談ですが)  

ChatGPTがどこまでの知識を保持しているのかは不明ですが、次のような妄想も浮かびました。
 - 北条義時 の配役=小栗旬 (鎌倉殿の13人)
 - 小栗旬が演じた武将=織田信長 (信長協奏曲
 - 織田信長を殺したのは=明智光秀 (歴史的事実)
しかし、これはあまりにも都合が良すぎるため、単なる妄想の範囲にとどめておきましょう。

さらに余談ですが
なお、現時点では、「北条義時を殺したのは誰か」という質問には、CoPilot、ChatGPT、Gemini、Claudeは、異口同音に「病死と言われている。殺害された証拠はない。」と回答しています。

知識と推論の限界

今回の経験からもわかるように、AIの実際の限界は学習した情報の質と量に依存しています。大量のデータを学習することで、AIは驚くべき能力を発揮しますが、それが必ずしも正確であるわけではありません。

学習データの質とその影響

前述の例では、学習された情報に答えが含まれていない場合について触れました。しかし、もしその学習データ自体が誤った情報に基づいていたらどうなるのでしょうか?AIが学習する大量のデータは人間によって作成されたものです。さて、その作成者自体が誤った知識を持っていたらどうでしょうか?さらに、多数の人々や社会全体が誤解をしていた場合、その影響はどれほどのものになるでしょうか?

ここで簡単な実験を行ってみます。世間で誤って広まっている認識について、大規模言語モデル(LLM)に問い合わせてみます。

例えば「拙速は巧遅に勝る」という言葉ですが、これが誰の言葉かについて多くの人々が誤解しています。Web検索してみると、これを孫子の言葉だと誤解しているウェブサイトが多数ヒットします。(最近では、これが誤りであることを指摘するサイトも見かけるようになりました。)

このような状況において、LLMはどのように回答するのでしょうか?

「拙速は巧遅に勝るとは誰の言葉か」

Copilot

「拙速は巧遅に勝る」という言葉は、孫子の兵法に由来するものだよ。孫子は中国の古代の軍事戦略家で、その教えは今でも多くの分野で引用されているんだ。興味深いよね?

ChatGPT

「拙速は巧遅に勝る」という言葉は、中国の古典『晏子春秋』(あんししゅんじゅう)に由来します。この言葉は、政治家であり思想家であった晏嬰(あんえい)の言葉とされています。内容としては、「完璧を期して時間がかかるよりも、多少の粗さがあっても早く実行するほうがよい」という意味です。

Gemini

「拙速は巧遅に勝る」という言葉は、特定の誰かの言葉というよりは、中国の兵法書『孫子』から来ている考え方です。

(以下略)

Claude 3.5 sonnet

「拙速は巧遅に勝る」(せっそくはこうちにまさる)という言葉の出典については、しばしば織田信長の言葉として広く知られていますが、実は正確な歴史的な出典は明確ではありません。

(以下略)

CopilotやGeminiは、「孫子」が出典だと主張しています。多くの誤った情報が存在し、それを基に学習すればこのような結果になるのは想定の範囲内です。しかし、これは間違いなのです。これを「ハルシネーション」と呼ぶべきでしょうか?

冒頭で示したハルシネーションの定義における「真実ではない自信のある発言」には該当しますが、AIが人々の信じていることをそのまま回答しているという点では、一種の「正解」とも言えます。しかし、問題はその信じている内容自体が間違っていることです。

こうした問題を避けるためには、AIに何を学習させるかを慎重に選別する必要があります。しかし、現在の情報量は膨大で、すべてをチェックするのは不可能に近いのが現状です。

Web検索してみると、検索結果の上位には誤った情報が多く、結局LLMもそれに基づいた答えを生成しているといえます。

一方で、ChatGPTやClaudeは、CopilotやGeminiとは異なる結果を返しました。しかし、これもまた間違っています。こちらはハルシネーションに相当するでしょう。

この結果から、どちらの回答がより適切であるかを判断するのは難しいところです。孫子の言葉だと誤解している人が多いため、それを反映した回答をするCopilotやGeminiの方が、一般的な認識に沿っているとも言えます。一方で、ChatGPTやClaudeは誤った情報を提供していますが、少なくとも広く誤解されている説を避けようとする姿勢が見られます。(意図した結果かどうかはわかりませんが)

ここで示した例は、特定のLLMの優劣を論じるものではなく、AIシステム全般が直面する共通の課題を浮き彫りにしています。どのLLMであっても、学習データの質と量、アルゴリズムの設計、そして最新の情報への更新頻度などの要因によって、同様の問題に直面する可能性があります。

この事例が示唆しているのは、AIシステムの出力を批判的に評価し、常に検証する必要性です。ユーザーや開発者は、特定のAIシステムを無条件に信頼するのではなく、複数の情報源を確認し、人間の専門知識と組み合わせて判断を行うことが重要です。

※ LLMの回答は、環境やタイミングによって変わる可能性があるため、上記の再現が保証されるものではありません。

まとめ

AIのハルシネーション現象について具体的な体験と事例を通じて紹介しました。筆者の体験で明らかになったように、膨大なデータを学習するAIでも関連づけを誤ることで、事実とかけ離れた回答をすることがあります。さらに、学習した情報自体が誤っていると、AIはそれを正しいとみなし、間違った結論を導く可能性があります。

このような誤った結論は、AIを活用する分野において深刻な影響を及ぼす可能性があります。そのため、AIを利用する際には、AIが提供する情報を受け身で受け入れるのではなく、常に人間の知識や批判的思考で検証する姿勢が求められます。特に、歴史や科学のような分野では、正確な情報に基づく検証が重要です。

また、AIの開発と運用に携わる専門家は、学習データの選定やアルゴリズムの改善を通じて、このような誤りを最小限に抑える努力を続ける必要があります。透明性と説明可能性を重視したAI開発は、この課題を克服するための一つのアプローチです。AIのもたらす多大な可能性を最大限に引き出すためには、正確な知識の土台とともに倫理的な視点を持ってAI技術と向き合うことが不可欠です。

これからのAI技術の進化は、社会に多大な恩恵をもたらし得ますが、それには我々がAIの限界を理解し、適切に利用するための責任を負うことが必要であることを肝に銘じるべきです。

追記

AIがPCを操作する機能が発表されました。この機能は今後さらに拡張されていくことが予想されます。

ついにAIがPCを操作 Claude 3.5 Sonnetに作業自動化する「Computer use」(Impress Watch, 2024/10/23)

このような状況下で、AIがPCを操作する機能が実装された場合、人類に深刻な影響を及ぼす可能性があります:

  • 誤った情報に基づく重要な決定: AIが間違った情報を基に重要なシステムを操作し、経済や社会インフラに大きな混乱をもたらす可能性があります。
  • セキュリティリスクの増大: 悪意のある者がAIの誤認識を利用して、機密情報へのアクセスや重要システムの操作を行う危険性があります。
  • 人間の判断力の低下: AIへの過度の依存により、人間が批判的思考や独自の判断力を失っていく可能性があります。
  • 責任の所在の不明確化: AIの誤操作による問題が発生した際、その責任の所在が不明確になり、法的・倫理的な課題が生じる可能性があります。

これらのリスクを最小限に抑えるためには、AIシステムの精度向上と同時に、人間による監視と介入の仕組みを適切に設計することが不可欠です。また、AIの判断プロセスの透明性を高め、誤った情報や判断を迅速に検出し修正できるシステムの構築が求められます。


Biz Freakでは、独自のAIシステムとローコード等のツールを活用して、短期間で最高品質のプロダクトを実装できる能力を養うことができます!
https://bizfreak.co.jp/recruit


(M.H)

BACK

RECRUIT

世の中に「技術」で
価値を生み出す

JOIN OUR TEAM