[市場動向]
契約業務の主要タスクでGPT-5がGPT-4.1の性能を上回る─LegalOn Technologies
2025年8月15日(金)IT Leaders編集部、日川 佳三
LegalOn Technologiesは2025年8月15日、米OpenAIの大規模言語モデル(LLM)「GPT-5」の契約業務における性能を検証し、結果の概要を発表した。大半の評価項目で前世代の「GPT-4.1」を上回る結果を確認した一方、契約時の問題発見タスクや条文修正の文章の自然さでは、横ばいないし性能低下が見られたという。
法務・コーポレート業務関連のAIサービスを提供するLegalOn Technologiesは、米OpenAIが2025年8月7日にリリースした大規模言語モデル(LLM)「GPT-5」の契約業務における性能を、前世代の「GPT-4.1」との比較で検証を行った。
同社が開発したベンチマークプログラム「Contract Review Benchmark」を用いて、契約業務の主要タスクを検証した。モデルの性能は言語によって異なるため、英語と日本語の両方で評価している。以下は英語での評価の結果である。日本語での評価は現在検証中で、後日発表するとしている。
- 質問応答や要約などの対話型タスクで、GPT-5が90%の精度を達成し、GPT-4.1の78%から12ポイント改善した。
- 契約内容の修正案作成タスクで、約6ポイント向上した。
- 契約における問題点の発見タスクについてはほぼ横ばいか、わずかに性能低下が見られた。
また、同社が開発した日本の法規制をカバーするベンチマークプログラム「LegalRikai」を用いた評価の結果は次のとおりである。
- 条文分類(契約条文に含まれるキーワードの検出やタグ付け)は、GPT-5がGPT-4.1を約10ポイント上回った。回答品質も改善し、質問とは関係のない不適切な回答がGPT-4.1の2000件超からGPT-5では190件まで減少した。
- 条文修正(契約書に潜むリスクを検出して修正文を提案)は、意味や文法、論理の正確性でGPT-5が約10ポイント上回った。一方、文章の自然さではGPT-4.1が約4ポイント上回った。
- レビュー対象条文特定(レビューの対象である条文を見つけ出す)はほぼ同等の結果となった。
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



