[市場動向]
契約業務の主要タスクでGPT-5がGPT-4.1の性能を上回る─LegalOn Technologies
2025年8月15日(金)IT Leaders編集部、日川 佳三
LegalOn Technologiesは2025年8月15日、米OpenAIの大規模言語モデル(LLM)「GPT-5」の契約業務における性能を検証し、結果の概要を発表した。大半の評価項目で前世代の「GPT-4.1」を上回る結果を確認した一方、契約時の問題発見タスクや条文修正の文章の自然さでは、横ばいないし性能低下が見られたという。
法務・コーポレート業務関連のAIサービスを提供するLegalOn Technologiesは、米OpenAIが2025年8月7日にリリースした大規模言語モデル(LLM)「GPT-5」の契約業務における性能を、前世代の「GPT-4.1」との比較で検証を行った。
同社が開発したベンチマークプログラム「Contract Review Benchmark」を用いて、契約業務の主要タスクを検証した。モデルの性能は言語によって異なるため、英語と日本語の両方で評価している。以下は英語での評価の結果である。日本語での評価は現在検証中で、後日発表するとしている。
- 質問応答や要約などの対話型タスクで、GPT-5が90%の精度を達成し、GPT-4.1の78%から12ポイント改善した。
- 契約内容の修正案作成タスクで、約6ポイント向上した。
- 契約における問題点の発見タスクについてはほぼ横ばいか、わずかに性能低下が見られた。
また、同社が開発した日本の法規制をカバーするベンチマークプログラム「LegalRikai」を用いた評価の結果は次のとおりである。
- 条文分類(契約条文に含まれるキーワードの検出やタグ付け)は、GPT-5がGPT-4.1を約10ポイント上回った。回答品質も改善し、質問とは関係のない不適切な回答がGPT-4.1の2000件超からGPT-5では190件まで減少した。
- 条文修正(契約書に潜むリスクを検出して修正文を提案)は、意味や文法、論理の正確性でGPT-5が約10ポイント上回った。一方、文章の自然さではGPT-4.1が約4ポイント上回った。
- レビュー対象条文特定(レビューの対象である条文を見つけ出す)はほぼ同等の結果となった。