契約業務の主要タスクでGPT-5がGPT-4.1の性能を上回る─LegalOn Technologies

横ばいないし性能低下が見られた項目も

2025年8月15日(金)IT Leaders編集部、日川佳三

リスト

LegalOn Technologiesは2025年8月15日、米OpenAIの大規模言語モデル（LLM）「GPT-5」の契約業務における性能を検証し、結果の概要を発表した。大半の評価項目で前世代の「GPT-4.1」を上回る結果を確認した一方、契約時の問題発見タスクや条文修正の文章の自然さでは、横ばいないし性能低下が見られたという。

　法務・コーポレート業務関連のAIサービスを提供するLegalOn Technologiesは、米OpenAIが2025年8月7日にリリースした大規模言語モデル（LLM）「GPT-5」の契約業務における性能を、前世代の「GPT-4.1」との比較で検証を行った。

　同社が開発したベンチマークプログラム「Contract Review Benchmark」を用いて、契約業務の主要タスクを検証した。モデルの性能は言語によって異なるため、英語と日本語の両方で評価している。以下は英語での評価の結果である。日本語での評価は現在検証中で、後日発表するとしている。

質問応答や要約などの対話型タスクで、GPT-5が90%の精度を達成し、GPT-4.1の78%から12ポイント改善した。
契約内容の修正案作成タスクで、約6ポイント向上した。
契約における問題点の発見タスクについてはほぼ横ばいか、わずかに性能低下が見られた。

　また、同社が開発した日本の法規制をカバーするベンチマークプログラム「LegalRikai」を用いた評価の結果は次のとおりである。

条文分類（契約条文に含まれるキーワードの検出やタグ付け）は、GPT-5がGPT-4.1を約10ポイント上回った。回答品質も改善し、質問とは関係のない不適切な回答がGPT-4.1の2000件超からGPT-5では190件まで減少した。
条文修正（契約書に潜むリスクを検出して修正文を提案）は、意味や文法、論理の正確性でGPT-5が約10ポイント上回った。一方、文章の自然さではGPT-4.1が約4ポイント上回った。
レビュー対象条文特定（レビューの対象である条文を見つけ出す）はほぼ同等の結果となった。

リスト

トピックス

[Sponsored]

契約業務の主要タスクでGPT-5がGPT-4.1の性能を上回る─LegalOn Technologies

おすすめのホワイトペーパー

トピックス