Shared conversation
Claude-2-100k ·
https://twitter.com/bindureddy/status/1699975747786641855 このツイートの内容を解説してください。
バインドゥ・レディ氏のこのツイートは、大規模言語モデルがなぜ幻覚を起こすのか、そしてそれを防ぐにはどうすれば良いかについて説明しています。
主なポイントは以下の通りです:
-
幻覚はデータの稀薄さが最大の原因。GPT-4のような最近のデータにアクセスできないモデルは、最近の話題について幻覚を起こしやすい。
-
教師なし学習のため、モデルに「正解」がない。強化学習で修正はできるが、基本的に「正しさ」の概念がない。
-
コンテキストウィンドウが固定長のため、重要なコンテキストが外れると誤りが発生。
-
リアルタイムのフィードバックループがないため、人間のように即座に失敗から学ぶことができない。
-
幻覚を防ぐにはプロンプト設計、ドメイン固有の微調整、自己矛盾チェックなどがある。
-
検索拡張生成や人間による確認も効果的。
-
データの重みづけやコンテキストウィンドウの拡大などの訓練時の工夫も可能。
全体として、幻覚を完全に防ぐ良い方法はないが、様々なテクニックで軽減は可能だという内容です。
全文を翻訳してください。
バインドゥ・レディ氏のツイートの全文翻訳は以下の通りです。
なぜ大規模言語モデルは幻覚を起こすのか、そしてそれを減らすには
ChatGPTの熟練者であれば、幻覚の罠にはまったことがあるだろう。LLMはあなたを安心させ、そして信憑性のあるが完全にでたらめな話を持ち出して、あなたを騙そうとする。
これらの幻覚は、LLMが物語を作り出しているようなものだ。なぜこれらのLLMが幻覚を起こすのか、そしてそれを防ぐにはどうすればいいか。
ここに幾つかの理由がある。
データの稀薄さ: これが幻覚の最大の理由だ。例えば、GPT-4は2021年に訓練されたため、最近のデータにアクセスできない。最近の話題に関する質問をすると、正しい答えのデータがないため、幻覚を起こしやすい。モデルは学習したことから一般化しているが、それは正確ではない可能性が高い。
教師なし学習: LLMには「グラウンドトゥルース」や正解の例はない。強化学習のプロセスはLLMをより正しい答えに導こうとするが、ベースの訓練は教師あり学習のプロセスではなく、これはモデルが「正しさ」を判断できないことを意味する。
短期的なコンテキスト: モデルのアーキテクチャは固定長のコンテキストウィンドウを持っており、一度に見ることができるトークン数が限られている。重要なコンテキストがこのウィンドウの外にあると、モデルはそれを失い、誤りにつながる。
リアルタイムのフィードバックループがない: 人間のように、LLMにはリアルタイムのフィードバックループがなく、間違いから即座に学ぶことができない。良い知らせは、人間のフィードバックでモデルを改善したり微調整でき、幻覚を減らすことができることだ。
では、これらの幻覚を防ぐにはどうしたらいいか、未来のLLMで幻覚が減る可能性はあるか。
LLMが決して幻覚を起こさないことを保証する簡単な方法はない。しかし、次のテクニックである程度軽減できる。
プロンプト設計: 簡単なプロンプトエンジニアリングと設計で幻覚は減る。例えば、プロンプトに「科学的証拠に基づいて事実を答えよ」を追加する。
ドメイン固有の微調整: 信頼でき関連性の高いデータセットでモデルをドメイン固有に微調整する。
自己矛盾のチェック: LLMに自己矛盾を指摘させ、矛盾を認識し軽減するよう促す。これはアドバンスドプロンプティングの一種。
検索拡張生成: エンタープライズLLMでよく使われるテクニック。最初に関連ドキュメントから答えを検索し、それをLLMに入力して最終答えを生成する。LLMは送られた情報から答えを見つけ出さなければならないため、幻覚が大幅に減る。
人間による確認: エキスパートの人間が使う前に回答をチェックできる。これは理想的ではない労力のかかるオプション。
訓練済みLLMには上記のテクニックが機能するが、以下の2つのテクニックはLLMの訓練時に適用できる。
データの重み付け: 訓練時に信頼でき検証済みデータに高い重みを付ける。モデルがそれらにより注目するようになる。
コンテキストウィンドウの拡大: モデルのメモリを拡張し、長い文章を通してコンテキストを保持できるようにする。これで幻覚が減る。
エンタープライズの文脈では、幻覚をほぼ完全に除去する簡単な方法があるが、AGIの文脈でははるかに難しい。これはAI研究の非常に熱いトピックで、多くの研究者が取り組んでいる。
This conversation may have been edited by the sharer.