LEGAL SHIFT

LLMの弱点克服─RAG活用事例とNotebookLMでの運用ポイント

作成者: llamadrive株式会社|1 6, '25

最新情報への対応とLLMの限界

ChatGPTをはじめとするLLM(大規模言語モデル)をベースにしたチャットボットサービスは、通常、事前学習されたデータに依存して回答を行います。たとえば、OpenAIの各モデルには「knowledge cutoff」と呼ばれる学習データの最終時点が設定されており、GPT-4oでは2023年10月の情報までが学習対象とされています。したがって、2023年10月以降の出来事に関する質問には、原則として最新情報を反映した回答は期待しにくい面があります。

しかし、ここで示す例として、大谷選手がメジャーリーグで優勝したかどうかについて質問すると、正確な回答が得られるというケースがありました。回答の「情報源」を確認すると、2024年11月1日時点のロイター通信のニュースが参照されていることがわかります。これは、LLMの事前学習データにない新しい情報を外部データベースから取得し、最新情報を付加して回答する仕組みが使われているためです。いわゆる「RAG(Retrieval-Augmented Generation)」という技術で、ウェブ検索などの外部ソースとLLMを組み合わせることで、学習時点を超えた情報を回答に取り込むことができます。

事前学習データ外の情報を活用する仕組み

RAGは、うまく実装すればLLMが「自分の学習データのみでは十分に回答できない」と判断した際に、外部の検索エンジンやデータベースにアクセスして情報を取得し、回答を補強することができます。先ほどの大谷選手の例では、事前学習されたデータだけでは優勝の有無を正確に回答できず、ウェブ検索を自発的に行った上でロイター通信の記事を参考にしました。こうした仕組みにより、従来のLLMの弱点である「学習時点以降の新しいトピックに対応できない」という問題をある程度克服できます。

簡単な実装例として、ChatGPTユーザーであれば「GPTs」という機能を利用し、自分が用意したファイルやデータをLLMに参照させることが可能です。今回のニュース記事を「知識」として事前にアップロードし、大谷選手に関する質問があった場合、それを元に回答させる仕組みを構築できます。これは外部ウェブ検索とは違い、手元で準備した資料を直接参照させる方法であり、オンライン検索の制約やリスクを回避したい場合にも有用です。

ユーザーとしては、回答の正確性さえ担保されていれば、ウェブ検索かアップロードデータかはあまり気にならないかもしれません。しかし、弁護士の業務で生成AIを使う場合、「どのように情報が収集され、どんなプロセスで回答が生成されているのか」という点を理解しておくことが重要です。特に、外部から取得する情報源の信頼性や、社外秘のファイルをアップロードする場合のデータ取り扱いなど、留意すべき法的・倫理的観点があるためです。

GPTsによる情報参照とハルシネーション防止

こうして回答の根拠をGPTsのようにあらかじめ設定することで、専門領域に関する回答精度を高められます。さらに、異なる情報を混在させてしまうハルシネーション(実際には存在しない情報をあたかも事実のように回答する現象)を軽減することも期待できます。ただし、現在のところGPTsのUIは必ずしも直感的ではなく、日常業務で繰り返し使いたいと思うほどの使い勝手ではないという声もあります。また、私個人の意見としては、ChatGPTの「壁打ち的な雑談や要点整理」という使い方の方が合っているため、GPTsを頻繁に作成することはないというのが率直な感想です。

ChatGPTがOpenAIが開発したGPTをベースとしたチャットボットサービスであるのに対し、NotebookLMはGoogleが開発したGeminiをベースとしたサービスです。NotebookLMのUIは「ユーザーが情報源を指定する」ことを前提に設計されているため、「特定の情報から答えを得る」という用途では使いやすくなっています。それでは、実際に業務での活用可能性を見ていきましょう。

GPTsで行った大谷選手のニュース記事のアップロード実験と同様の操作をNotebookLMで試してみました。NotebookLMでもニュース記事を正確に参照して回答することができています。「特定の情報から答えを得る」ことを前提としているため、情報の引用方法にも工夫が見られます。画面左側に表示される参照元のニュース記事では、具体的な引用箇所が一目で分かるようになっています。今回は短いニュース記事1つだけが対象なので大きな違いは感じませんが、長文をアップロードする場合には非常に便利な機能だと言えます。

NotebookLMの対応ファイル

アップロードできる資料の種類と制限事項の詳細はこちらですが、重要なポイントをいくつかピックアップしてご紹介します。

  • Google ドキュメント、Google スライド、PDF、テキストファイルなど、一般的な資料形式に幅広く対応しています。スキャンしたPDFも問題なく読み込めます。
  • Google スプレッドシートとエクセルファイルには非対応です。
  • ウェブサイトのURLやYouTube動画のURLにも対応していますが、動画の場合は文字起こしされたテキスト部分のみが対象となります。
  • 1つのソースにつき、単語数は500,000語まで、ファイルサイズは200MBまでと十分な上限が設定されています。
  • 一度アップロードしたファイルの削除や編集はできません。Google ドキュメントやGoogle スライドをインポートすると、元ファイルのコピーが作成されます。NotebookLMは元ファイルの変更を自動追跡しないため、最新情報を反映するには資料を再度アップロードする必要があります。

試験的に、準備書面のサンプルをスキャンしたPDF形式でアップロードしてみました。参照箇所のハイライト表示は表示されませんでしたが、内容は正確に認識され、適切な回答が得られました。

NotebookLMが「特定の情報から答えさせる」前提で設計されていることを示す実験結果が以下の2つです。試しにNotebookLMに明日の天気について質問したところ、資料に記載がないという回答が返ってきました。

  1. NotebookLMでの試行

同様の質問を本記事の前半に作成した大谷翔平さんボットで試したところ、ウェブ検索を行って正しい情報を回答する動きとなりました。NotebookLMが使いやすいと言われている理由の一つは、この「わからないものは答えない」という一貫した姿勢にあるのではないでしょうか。弁護士が取り扱うような正確性重視の分野ではこの動作が適しているケースが多いかもしれません。

  1. GPTs(大谷翔平さんボット)での試行

NotebookLMのデータの取り扱い

また、ユーザーがアップロードしたデータの取り扱いは、無料プランか有料プランかによって多少異なりますが、いずれの場合も「学習には使用しない」という方針が明言されています。個人用アカウントでフィードバックを送信するときには人間のレビュアーが問題解決のために閲覧する可能性がありますが、業務用途での機密データを扱う場合は、Google Workspace アカウントでの利用や有料プランへの切り替えなど、より厳格な運用を検討してみるのもよいでしょう。

  • 無料プラン
    • NotebookLM
      • Google はユーザーのプライバシーを重視しており、NotebookLM のトレーニングに個人データが使用されることは一切ありません。
      • 個人の Google アカウントでログインしている状態でフィードバックを送信すると、人間のレビュアーが、問い合わせやアップロード、モデルの回答をレビューし、トラブルシューティング、不正行為への対処、モデルの改良を行う場合があります。共有したくない情報は送信されないことをおすすめします。
      • Google Workspace または Google Workspace for Education のアカウントでは、NotebookLM にアップロードしたデータ、クエリ、モデルの応答は、人間のレビュアーの対象にはならず、AI モデルのトレーニングにも使用されません。(参照:NotebookLM によるデータ保護
  • 有料プラン
    • NotebookLM Plus
      • アップロードされたファイル、チャット、およびモデルの出力は、人間によるレビューの対象にはならず、生成 AI モデルの改良に使用されることもありません。(参照:NotebookLM と NotebookLM Plus の相違点

具体的な弁護士業務での活用事例

弁護士業務は多岐にわたり、大量の文書処理と正確な情報提供が求められます。ここでは、NotebookLMを活用してLLMの弱点を克服する具体的なユースケースを紹介します。

1. 法律リサーチの効率化

NotebookLMに判例データベースや関連法令文書をアップロードすることで、法的質問に対して正確な情報を即座に取得できます。たとえば「契約不履行に関する最新の判例は?」という質問に対し、NotebookLMはアップロードされた資料から適切な判例を抽出して提示します。

2. 契約書のレビューとドラフト作成

契約書のレビュー時には、過去に作成・修正した契約書テンプレートや関連法令をNotebookLMにアップロードし、カスタマイズされたレビューツールとして活用できます。既存のAI契約書レビューツールは判断基準がブラックボックス化され、不要な修正提案を受けることがありましたが、NotebookLMでは参照情報を自らコントロールでき、より効率的なレビューが可能です。新規の契約書作成時も、過去の契約書を参考に効率的な修正や追加ができます。

3. クライアントへの説明資料作成

複雑な法的問題や訴訟の進捗状況をクライアントに説明する際は、案件関連資料や過去の説明資料をNotebookLMにアップロードします。「依頼者にもわかりやすい言葉で状況を説明してください」といった指示で、平易な説明文を作成できる可能性があります。

まとめ

本記事では、LLMの弱点とされる「特定の情報源に対する対応」に対して、RAG活用やNotebookLMなどの具体的な解決策を紹介しました。NotebookLMのように、あらかじめ特定のファイルや資料をアップロードしておくと、資料の内容を根拠とする正確な回答を得やすくなるメリットがあります。弁護士業務では、信頼できる文書を参照する必要性が高く、かつ機密情報の取り扱いには細心の注意が求められるため、各サービスのデータ利用規約やUI上の使い勝手を検討することが極めて大切です。

LLMをどのように使い分け、どのサービスを選択するかは、最終的に業務内容やリスク許容度によって変わってきます。ChatGPTやGPTsといった汎用的な対話型AIが適した場面もあれば、NotebookLMのようにあらかじめ情報源を指定して誤回答を最小限に抑えたいケースもあるはずです。これらのポイントを踏まえて適切な仕組みを導入できれば、LLMを活用した法律実務の効率化はさらに期待できるでしょう。