「国内最大級のAIをタダで配ります」——何が起きたのか
2026年3月17日、楽天グループが衝撃的な発表をしました。
日本語に最適化した大規模言語モデル「Rakuten AI 3.0」を、Apache 2.0ライセンスで無償公開したのです。
「パラメータ数は約7,000億」「国内最大級」「完全無償でダウンロード可能」——この3点が重なると、AIエンジニアなら思わず「え、本当に?」と目を疑います。
本記事では、Rakuten AI 3.0の技術的な中身、なぜ企業が最先端LLMを無償で公開するのか、そしてこのモデルが日本のAIシーンに何をもたらすのかを解説します。
この記事でわかること
- 「7,000億パラメータ」「MoE」とは何か(数字の意味を理解する)
- GENIACとは何か——国がなぜAI開発にお金を出すのか
- Apache 2.0で無償公開する理由——ビジネス的な狙い
- エンジニアが実際にどう活用できるか
- 日本製LLMの現在地と課題
1. 「7,000億パラメータ」って何がすごいのか——数字の意味を理解する
ニュースを見て「7,000億パラメータ」と言われても、ピンとこない方も多いでしょう。まず、この数字が何を意味するのかを整理します。
パラメータとは何か
AIモデルの「パラメータ」とは、モデルが学習を通じて獲得した数値の集合体です。
人間で例えると「脳の神経回路のつながりの強さを表す数値」に近いイメージです。多いほど複雑なパターンを学習できますが、そのぶん動かすのに大きなメモリと計算力が必要になります。
主要モデルのパラメータ数の目安(推定含む):
| モデル | パラメータ数(推定) | 備考 |
|---|---|---|
| GPT-3 | 1,750億 | 公式発表 |
| Llama 3 70B | 700億 | 公式発表 |
| DeepSeek-V3 | 6,710億 | MoE、公式発表 |
| Rakuten AI 3.0 | 約7,000億 | MoE、公式発表 |
| GPT-4 | 非公開 | 数兆規模と推定 |
| Gemini 1.0 Ultra | 約15,600億(推定) | Googleは非公開 |
7,000億という数字は、DeepSeek-V3と近い規模感です。ただし注意が必要なのは「パラメータ数が多い=必ずしも賢い」ではないという点——アーキテクチャや学習データの質が性能を左右します。
「国内最大級」の意味
主な国産LLMのパラメータ規模を並べると、スケールの違いが一目でわかります。
| モデル名 | 開発元 | パラメータ数 |
|---|---|---|
| CyberAgentLM2 | サイバーエージェント | 約70億 |
| PLaMo-13B | Preferred Networks | 約130億 |
| Stockmark-13B | ストックマーク | 約130億 |
| ELYZA-japanese-Llama-2-70b | ELYZA | 約700億(Llama 2ベース) |
| tsuzumi | NTT | 非公開(小〜中規模) |
| LLM-jp-172B | 国立情報学研究所(NII)ら | 約1,720億 |
| HyperCLOVA X | LINE/Naver | 非公開(約820億相当と推定) |
| Rakuten AI 3.0 | 楽天 | 約7,000億(MoE) |
これまでの国産モデルは数十億〜170億パラメータが中心で、LLM-jpの172Bが国産最大級とされていました。7,000億はその約4倍、7Bクラスのモデルと比べれば100倍のスケールです。国内企業が単独でこの規模のモデルを公開するのは前例がありません。
2. MoEアーキテクチャとは何か——「分業制」で賢くなる仕組み
Rakuten AI 3.0が採用している「MoE(Mixture of Experts)」は、近年の大規模モデルで急速に普及しているアーキテクチャです。
従来モデル vs MoEモデル
従来モデル(Dense Model) すべての質問に対して、モデル全体のニューロンをフル稼働させて処理します。均一な品質を保てる反面、推論のたびに計算コストが重くかかります。
MoEモデル(Mixture of Experts) モデルの内部に複数の「専門家(Expert)」を持ち、入力内容に応じて担当する専門家だけを呼び出して処理します。全体のパラメータ数は多くても、1回の推論で動く部分は絞られるため、速くて効率的です。
具体例で考えてみましょう。
質問:「Pythonのコードを書いて」
→ コーディング専門のExpertが担当
質問:「江戸時代の文化を教えて」
→ 日本史・日本語専門のExpertが担当
質問:「微分方程式を解いて」
→ 数学専門のExpertが担当
全員が全部の仕事をするのではなく、得意な専門家が対応する分業制——これがMoEの発想です。
ハードウェア開発との類似点
組み込みシステムでの割り込み処理に近い発想です。全タスクを1つのループで処理するポーリング方式(Dense)よりも、適切なハンドラに処理を振り分ける割り込み駆動方式(MoE)の方が、リソースを効率よく使えます。
MoEの最大のメリットは、総パラメータ数は多くても、1回の推論で実際に使われるパラメータ数は少なくて済む点です。7,000億あっても全部動くわけではなく、必要な専門家だけが起動します。
参考として、同じくMoEを採用するDeepSeek-V3は総パラメータ6,710億のうち、1トークン生成あたりに活性化するのは約370億と公表しています。総量の約5%しか動かない計算です。Rakuten AI 3.0の詳細は非公開ですが、同様の構造であれば推論時の実効コストはフルサイズより大幅に小さくなります。
3. GENIACとは何か——国が計算資源を出す理由
Rakuten AI 3.0の開発には、GENIAC(Generative AI Accelerator Challenge) という国家プロジェクトの支援が使われています。
GENIACの概要
GENIACは経済産業省とNEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)が推進するプロジェクトです。正式名称は「Generative AI Accelerator Challenge」、2024年度から始まりました。
なぜこのプロジェクトが生まれたのか——背景には、生成AIの覇権が米中の一部企業に集中しつつあるという危機感があります。
現在の生成AI開発には、クラウド上で数百〜数千枚のGPUを何ヶ月も動かし続ける膨大な計算コストが必要です。OpenAIやGoogleはその資本力で先行していますが、国内スタートアップや大学・研究機関が単独でこのコストを負担するのは現実的ではありません。
GENIACは、この「計算資源の壁」を取り除くことが最大の目的です。具体的には、採択企業・機関に対してNEDOが管理するスーパーコンピュータのGPU計算時間を提供します。お金ではなく「計算能力そのもの」を支援する点が特徴です。
また単なる計算支援にとどまらず、日本語・日本文化に強いモデルを国内に育てるという産業政策的な目的もあります。ChatGPTやClaudeが日本市場を席巻する中で、医療・行政・教育など日本語固有のニュアンスが重要な領域で使える国産モデルを確保しておく——これはAIの利便性だけでなく、データ主権・安全保障にも関わる問題です。
楽天は2025年7月にGENIAC第3期に採択されており、今回のモデル学習にその支援を活用しています。
エンジニア視点での見方
組み込みの世界で言えば、「高額な評価ボードや計測器材を、補助金で共同購入する」感覚に近いです。個社ではペイしにくい先行投資を、国が一部肩代わりすることで、産業全体の底上げを図る——合理的な産業政策です。
ただし本音を言えば、 「国産GPUが育たない限り、計算インフラの根本的な自立は難しい」 という課題も残っています。
4. なぜタダで配るのか——Apache 2.0オープンリリースの戦略的な意味
「最先端のモデルを無償公開したら、競合に使われるだけでは?」と思う方も多いでしょう。
実はここに、現代のAI産業における重要な競争戦略があります。
オープンソース化する理由
① コミュニティの力を取り込む
Apache 2.0で公開すれば、世界中のエンジニアがモデルを使い、改良し、フィードバックを返してくれます。
自社だけで開発を続けると数十人のチームの力が限界ですが、オープン公開すれば世界中の開発者がバグ発見・精度改善・多言語対応のフィードバックを返してくれます。
② エコシステムの中心になる
「このモデルを使って開発したら、楽天のサービスと相性がいい」という状況を作れれば、楽天のクラウドサービスや企業向けAIソリューションの利用者が増えます。
Googleが検索エンジンを無料で提供しながら広告収益を得るように、モデルを無償公開して周辺ビジネスで稼ぐ構造です。
③ 日本語AIの標準になりたい
日本語に強いモデルが国内に広がれば、楽天の存在感が高まります。日本語LLMの「デファクトスタンダード」を取りにいく戦略とも読めます。
④ GENIACの条件
国の支援を受けて開発したモデルには、オープンな形での公開が求められる場合があります。「国民の税金を使って作ったのだから、広く使えるようにすべき」という考え方です。
Apache 2.0ライセンスとは
そもそも「Apache 2.0」とは何でしょうか。
ソフトウェアには必ずライセンス(使用条件)があります。「このコードをどう使っていいか、何が禁止か」を定めた契約のようなものです。AIモデルも同様で、どのライセンスで公開されるかが実用性を大きく左右します。
主要なライセンスを比較すると、その違いがわかります。
| ライセンス | 商用利用 | 改変・再配布 | 代表例 |
|---|---|---|---|
| 完全独自(非公開) | ✕ | ✕ | GPT-4, Claude |
| CC BY-NC(非商用のみ) | ✕ | △(非商用のみ可) | 一部の研究モデル |
| Llama Community License | △(条件付き) | △(条件付き) | Meta Llama 2 |
| Apache 2.0 | ✓ | ✓ | Rakuten AI 3.0, Gemma |
| MIT | ✓ | ✓ | 各種OSSライブラリ |
Apache 2.0は、もともとApache HTTPサーバーのために整備されたライセンスで、商用利用・改変・再配布をほぼ無制限に許可する自由度の高いライセンスです。課せられる義務はほぼ「ライセンス表記を残すこと」だけ。
つまり今回のRakuten AI 3.0は、GPT-4やClaudeとは異なり、モデルをダウンロードして自社サーバーで動かす、自社データで追加学習(Fine-tuning)する、改変版を製品に組み込んで販売する——これらすべてが合法で無償です。
企業の法務担当者や調達担当者にとって「Apache 2.0」の一言は、ライセンスリスクがほぼゼロという意味を持ちます。採用のハードルが一気に下がります。
5. 性能はどうなのか——ベンチマークの読み方
楽天は複数の日本語ベンチマークで高スコアを記録したと発表しています。
評価されている主な領域:
- 日本固有の文化・歴史知識: 日本語コーパスの量と質が反映される
- 大学院レベルの推論能力: 高度な論理的推論
- 競技数学: 数学的思考力
- 指示追従能力: ユーザーの意図に沿った回答生成
トークナイザーの効率——日本語モデルの命
ベンチマークと同じくらい重要なのに、あまり語られないのがトークナイザーの効率です。
LLMは文字をそのまま処理するのではなく、「トークン」という単位に分割してから処理します。英語圏向けに設計されたトークナイザーで日本語を処理すると、1文字に複数トークンが割り当たってしまい、同じ内容を処理するコストが2〜3倍に膨らむことがあります。
楽天が「日本語最適化」を謳う以上、日本語に効率的なトークナイザーを採用しているはずです。1トークンあたりに含まれる情報量が多いほど、推論コストが下がり、最大コンテキスト長を日本語でフルに活用できます。実際の日本語テキストでのトークン効率は、ベンチマークスコアと並んで注目したい指標です。
ベンチマークを鵜呑みにしない
スペックシートを鵜呑みにしない習慣は、ハードウェア開発でも同じです。
- ベンチマークに最適化したチューニングが施されている場合がある
- 実際のユースケースとベンチマーク問題は異なる
- 推論速度・コスト・ファインチューニングのしやすさも重要な指標
「日本語ベンチマークで高スコア」は確かに評価できますが、実際に使ってみないとわからない部分も多い——というのが正直な感想です。
6. エンジニアはどう活用できるか
まず「動かす」ための現実的な選択肢
「タダで配られてもサーバー代がエグい」——これが正直なところです。
FP16でフルモデルをロードするだけで約1.4TBのVRAMが必要で、H100(80GB)でも18枚以上のマルチノード構成が必要な計算です。MoEにより推論時の活性化パラメータは絞られますが、モデルウェイト全体をメモリに載せる必要があるためVRAMの壁は変わりません。
現実的な落としどころは用途によって3パターンです。
① クラウドAPIとして使う(最も手軽) 楽天や第三者がAPIサービスとして提供する形で利用する。インフラ不要・従量課金で試せます。外部にデータを送ることになるため、機密情報の扱いには注意が必要です。
② 量子化してオンプレミス運用する(セキュリティ重視) INT4量子化でおよそ350GBまで圧縮できるため、H100を5〜6枚で自社サーバーに載せられる可能性があります。データを外に出せない金融・医療・製造業向けです。GPUサーバーの調達・運用コストは数千万〜億単位になります。
③ 軽量派生モデルを使う(開発・検証向け) コミュニティが公開する蒸留・量子化済みの小型版(7B〜70Bクラス)を使う選択肢。性能は落ちますが、一般的なGPUサーバー1台やVRAM 24GB級のワークステーションでも動かせます。
すぐに使える活用例
① 日本語特化のRAGシステム
RAG(Retrieval-Augmented Generation)は、社内ドキュメントや製品マニュアルを検索しながら回答を生成する仕組みです。日本語に強いRakuten AI 3.0との組み合わせは、製造業・医療・法律など専門領域での活用に向いています。
② カスタムFine-tuning
Apache 2.0なので、自社データでFine-tuningして専用モデルを作ることができます。顧客対応チャットボット、コードレビューアシスタント、仕様書生成ツールなど、業務特化型モデルの構築に活用できます。
③ ローカル環境での推論
クラウドに頼らず、自社サーバー上でモデルを動かすことができます。機密情報を外部に送らずに済むため、金融・医療・製造業など、セキュリティ要件の厳しい現場に向いています。
エッジデバイスとの接点
7,000億パラメータのモデルをそのままエッジデバイスで動かすのは現実的ではありません。ただ、蒸留や量子化を経て軽量化した派生モデルがコミュニティから登場することが期待されます。
- 量子化(INT4/INT8): 精度を少し落として、メモリ・演算量を大幅削減
- プルーニング: 不要なパラメータを削って軽量化
- 蒸留: 小さなモデルに知識を移す
これらの技術でコンパクトにした「Rakuten AI 3.0の子モデル」が、将来的にはNPU搭載マイコンやエッジサーバーで動く可能性もあります。
7. 日本製LLMの現在地と課題——率直な見方
楽天の取り組みは素直に評価できます。一方で、課題も正直に見ておきたいと思います。
ポジティブな点
- 7,000億パラメータという本格的な規模感
- Apache 2.0という制限のないライセンス
- GENIACとの連携による国産AI育成への貢献
- 日本語特化という明確な差別化軸
残る課題
① 計算インフラの依存
モデルを公開できても、学習に必要なGPUクラスターは依然として海外製(NVIDIA等)に依存しています。「計算基盤の国産化」なしに、真の意味でのAI自立は難しい。
② 継続的なアップデートの持続性
モデルの公開はスタートラインにすぎません。GPT-4oやClaudeが頻繁にアップデートされる中、国産モデルが競争力を維持し続けるには継続投資が必要です。
③ 英語モデルとの性能差
日本語特化は強みですが、グローバルな汎用性ではGPT-4やClaudeに及ばない可能性があります。用途を絞って使う割り切りが必要です。
まとめ:「国産LLM元年」から「国産LLM実用化元年」へ
楽天のRakuten AI 3.0の公開は、日本のAI業界にとって重要な一歩です。
- 7,000億パラメータ × MoEアーキテクチャ → 国内最大規模の本格的なLLM
- Apache 2.0 × 無償公開 → 企業・研究者が制限なく活用できる
- GENIAC支援 → 国産AI育成という国家戦略との連動
ただし、これは「日本語AIが完成した」というニュースではありません。「本格的なスタートラインに立った」というニュースです。
このモデルがコミュニティに広がり、Fine-tuningや量子化で多様な派生モデルが生まれ、実際の業務で使われ始めたとき——それが「国産LLM実用化元年」になるかどうかの正念場です。
「クラウドで学習して、エッジで推論する」というパイプラインの完成に向けて、日本産の選択肢が増えることは純粋に歓迎します。実際に使ってみて、性能を自分の目で確かめることが最初の一歩でしょう。
よくある質問(FAQ)
Q. Rakuten AI 3.0とは何ですか?
楽天グループが2026年3月に公開した日本語特化の大規模言語モデル(LLM)です。約7,000億パラメータのMoEアーキテクチャを採用し、Apache 2.0ライセンスで無償公開されています。経産省・NEDOのGENIACプロジェクトの支援を受けて開発されました。
Q. Rakuten AI 3.0は無料で商用利用できますか?
Apache 2.0ライセンスで公開されているため、商用利用・改変・再配布が無償で可能です。楽天の商標は使用できませんが、モデル自体の利用に制限はほとんどありません。
Q. MoE(Mixture of Experts)とは何ですか?
複数の「専門家(Expert)」モジュールを持ち、入力内容に応じて適切な専門家だけが動くアーキテクチャです。総パラメータ数は多くても推論時の計算量を抑えられます。
Q. GENIACとは何ですか?
経済産業省とNEDOが推進する「Generative AI Accelerator Challenge」の略称。日本語特化の国産大規模AIモデル開発を支援するため、採択企業に計算資源(GPU時間)を提供するプロジェクトです。
Q. 7,000億パラメータのモデルを動かすには何が必要ですか?
FP16フルモデルで約1.4TBのVRAM、H100換算で18枚以上が必要です。現実的な選択肢は「①クラウドAPI利用」「②INT4量子化してオンプレ運用(H100×5〜6枚)」「③コミュニティ公開の軽量派生モデルを使う」の3パターンです。詳細は本文セクション6を参照してください。
Q. エッジデバイス・マイコン開発者がこのモデルを活用する方法はありますか?
現時点でフルモデルをエッジで動かすのは困難ですが、蒸留・量子化・プルーニングを経た軽量派生モデルの登場が期待されます。また、クラウド側でRakuten AI 3.0を動かし、エッジデバイスとAPI連携する構成は現実的な選択肢です。