[調査・レポート]
6つのLLMでITパスポート試験の正答率を比較、ELYZAが72.3%でGPT-4を上回る─GMOメディア調査
2024年3月13日(水)IT Leaders編集部
GMOメディアは2024年3月12日、IT分野の言語処理能力を測る目的で大規模言語モデル(LLM)の性能比較を行い、その検証結果を発表した。「ITパスポート試験」の正答率を6種類のLLMで比較し、最も高かったのはELYZA(72.3%)だった。一般的な日本語理解能力を測るベンチマーク「JGLUE」ではGPT-4とGPT-3.5 Turboが他を圧倒した。
GMOインターネットグループのデジタルメディア事業会社であるGMOメディアは、「日本語言語モデルの実践的評価」研究の過程で、IT分野の言語処理能力を測る目的で大規模言語モデル(LLM)の性能比較を行った。
ITに関する基本的な知識や応用能力を証明する国家試験「ITパスポート試験」において、各LLMに正解を導き出す能力がどのくらいあるのかを検証すべく、以下の6種類のLLMに同試験の過去問題を解かせている。
- GPT-3.5(gpt-3.5-turbo-1106 / OpenAI)
- GPT-4(gpt-4-11-6-preview / OpenAI)
- Japanese StableLM Alpha(Japanese Stable LM Instruct Alpha 7B v2 / Stability AI)
- Swallow(Swallow-7B-instruct-hf / 東京工業大学情報理工学院・国立研究開発法人産業技術総合研究所 研究チーム)
- Nekomata(nekomata-7b-instruction / rinna)
- ELYZA-japanese-Llama-2-7b (ELYZA-japanese-Llama-2-7b-instruct / ELYZA)
入力する情報が特定分野に特化していることがLLMの解答精度にどのような影響を与えるかを検証するため、一般的な日本語理解能力を測るベンチマーク「JGLUE」のスコアとITパスポート試験の正答率を各LLMが獲得した点数割合として評価対象にしている。
加えて、解答を導くのに役立つヒントをプロンプトに追加し、ヒントを提供した場合に正答率がどの程度向上するかを検証した。ヒントを含まないプロンプトで問題を解かせたケースと、ヒントを含むプロンプトで解かせたケースの正答率を比較している。
検証の結果、ITパスポート試験(ヒントなし)では、「ELYZA-japanese-Llama-2-7b-instruct」が正答率72.3%でトップ。「gpt-4-11-6-preview」「gpt-3.5-turbo-1106」が70.53%、69.9%で続いた。JGLUEベンチマークでは、GPT-4とGPT-3.5 Turboが他を圧倒し、ELYZAは最下位だった(表1)。
LLMモデル名 | JGLUE | ITパスポート試験 (ヒントなし) |
ITパスポート試験 (ヒントあり) |
---|---|---|---|
gpt-3.5-turbo-1106 | 89.311 | 69.9 | 93.832 |
gpt-4-11-6-preview | 95.42 | 70.53 | 82.99 |
Japanese Stable LM Instruct Alpha 7B v2 | 67.53 | 24.1 | 67.53 |
Swallow-7B-instruct-hf | 46.91 | 31.1 | 62.5 |
nekomata-7b-instruction | 81.68 | 58.8 | 86.16 |
ELYZA-japanese-Llama-2-7b-instruct | 38.42 | 72.3 | 64.33 |
一方、「Japanese Stable LM Instruct Alpha 7B v2」と「nekomata-7b-instruction」は、一般的な日本語理解能力を測るJGLUEでELYZAを大きく上回ったにもかかわらず、ITパスポート試験ではふるわなかった。「ただし、IT分野を苦手としたLLMでも、プロンプトにヒントを与えることで、ほとんどのLLMで解答精度が向上することが分かった」(GMOメディア)としている。
「IT分野での正答を導き出す力はLLM間で差異がある。一方で、専門分野に特化したチューニングを施していない汎用的なLLMでも、一定の精度でIT分野での活用が期待できる」と同社は分析。そのうえで、ITパスポート試験の学習においては、誤りがある可能性を踏まえて、「分からない単語や概念について質問する」「練習問題を作成する」ことが一定程度有効だとしている。
GMOメディアは、今回の結果をまとめた研究論文を「2024年人工知能学会全国大会」(2024年5月28日~31日、主催:一般社団法人人工知能学会)に提出している。