[調査・レポート]
6つのLLMでITパスポート試験の正答率を比較、ELYZAが72.3%でGPT-4を上回る─GMOメディア調査
2024年3月13日(水)IT Leaders編集部
GMOメディアは2024年3月12日、IT分野の言語処理能力を測る目的で大規模言語モデル(LLM)の性能比較を行い、その検証結果を発表した。「ITパスポート試験」の正答率を6種類のLLMで比較し、最も高かったのはELYZA(72.3%)だった。一般的な日本語理解能力を測るベンチマーク「JGLUE」ではGPT-4とGPT-3.5 Turboが他を圧倒した。
GMOインターネットグループのデジタルメディア事業会社であるGMOメディアは、「日本語言語モデルの実践的評価」研究の過程で、IT分野の言語処理能力を測る目的で大規模言語モデル(LLM)の性能比較を行った。
ITに関する基本的な知識や応用能力を証明する国家試験「ITパスポート試験」において、各LLMに正解を導き出す能力がどのくらいあるのかを検証すべく、以下の6種類のLLMに同試験の過去問題を解かせている。
- GPT-3.5(gpt-3.5-turbo-1106 / OpenAI)
- GPT-4(gpt-4-11-6-preview / OpenAI)
- Japanese StableLM Alpha(Japanese Stable LM Instruct Alpha 7B v2 / Stability AI)
- Swallow(Swallow-7B-instruct-hf / 東京工業大学情報理工学院・国立研究開発法人産業技術総合研究所 研究チーム)
- Nekomata(nekomata-7b-instruction / rinna)
- ELYZA-japanese-Llama-2-7b (ELYZA-japanese-Llama-2-7b-instruct / ELYZA)
入力する情報が特定分野に特化していることがLLMの解答精度にどのような影響を与えるかを検証するため、一般的な日本語理解能力を測るベンチマーク「JGLUE」のスコアとITパスポート試験の正答率を各LLMが獲得した点数割合として評価対象にしている。
加えて、解答を導くのに役立つヒントをプロンプトに追加し、ヒントを提供した場合に正答率がどの程度向上するかを検証した。ヒントを含まないプロンプトで問題を解かせたケースと、ヒントを含むプロンプトで解かせたケースの正答率を比較している。
検証の結果、ITパスポート試験(ヒントなし)では、「ELYZA-japanese-Llama-2-7b-instruct」が正答率72.3%でトップ。「gpt-4-11-6-preview」「gpt-3.5-turbo-1106」が70.53%、69.9%で続いた。JGLUEベンチマークでは、GPT-4とGPT-3.5 Turboが他を圧倒し、ELYZAは最下位だった(表1)。
| LLMモデル名 | JGLUE | ITパスポート試験 (ヒントなし) |
ITパスポート試験 (ヒントあり) |
|---|---|---|---|
| gpt-3.5-turbo-1106 | 89.311 | 69.9 | 93.832 |
| gpt-4-11-6-preview | 95.42 | 70.53 | 82.99 |
| Japanese Stable LM Instruct Alpha 7B v2 | 67.53 | 24.1 | 67.53 |
| Swallow-7B-instruct-hf | 46.91 | 31.1 | 62.5 |
| nekomata-7b-instruction | 81.68 | 58.8 | 86.16 |
| ELYZA-japanese-Llama-2-7b-instruct | 38.42 | 72.3 | 64.33 |
一方、「Japanese Stable LM Instruct Alpha 7B v2」と「nekomata-7b-instruction」は、一般的な日本語理解能力を測るJGLUEでELYZAを大きく上回ったにもかかわらず、ITパスポート試験ではふるわなかった。「ただし、IT分野を苦手としたLLMでも、プロンプトにヒントを与えることで、ほとんどのLLMで解答精度が向上することが分かった」(GMOメディア)としている。
「IT分野での正答を導き出す力はLLM間で差異がある。一方で、専門分野に特化したチューニングを施していない汎用的なLLMでも、一定の精度でIT分野での活用が期待できる」と同社は分析。そのうえで、ITパスポート試験の学習においては、誤りがある可能性を踏まえて、「分からない単語や概念について質問する」「練習問題を作成する」ことが一定程度有効だとしている。
GMOメディアは、今回の結果をまとめた研究論文を「2024年人工知能学会全国大会」(2024年5月28日~31日、主催:一般社団法人人工知能学会)に提出している。
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



