東京大学発AIスタートアップのLightblueは2025年2月3日、中国製LLM「DeepSeek-R1」に日本語で追加学習を施したLLMを公開したと発表した。DeepSeek-R1の出力結果を用いる蒸留モデルの1つで中国AlibabaのLLM「Qwen」軽量版(70億パラメータ)に対し、日本語での追加学習を行った。「Lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese」の名称でHugging Faceで公開している。
Lightblueの「Lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese」は、中国製の大規模言語モデル(LLM)「DeepSeek-R1」の蒸留(Distillation)モデルをベースに、日本語の処理能力強化を施したLLMである。70億パラメータと軽量で、ローカルPCでも動作する。Hugging Faceで公開している(画面1)。
画面1:Hugging Faceで公開している「Lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese」ページ拡大画像表示
DeepSeek-R1は、中国DeepSeekが開発したLLMで、前モデルのDeepSeek-V3をベースに強化学習を適用して推論性能を高めている。リリースは2025年1月で、推論、数学、コーディングなど各タスクで米OpenAIの「OpenAI o1」と同等の性能をうたう。
DeepSeekは、DeepSeek-R1の蒸留モデルを、LLMの規模(パラメータサイズ)やベースモデル(中国Alibabaの「Qwen」や米Metaの「Llama」)に応じて複数用意している。DeepSeek-R1の出力結果を教師データにしてその動作を模倣する、より小規模なモデルを構築・配布している。
DeepSeek-R1の蒸留モデルの1つが「DeepSeek-R1-Distill-Qwen-7B」で、ベースモデルにQwenを用いた70億パラメータの軽量版である。「DeepSeek-R1は、英語と中国語の処理能力が高い一方、日本語入力時の出力に英語や中国語が混在するケースがある」(Lightblue)ことを受けて、日本語を追加学習を施すことで、日本語のプロンプト入力に対しても安定した出力が可能なLLMを開発した。
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-


