「データ不足」の壁を越える:合成ペルソナが日本のAI開発を加速
この課題は、日本語と日本文化を理解する AI システムを構築する開発者にとって特に深刻です。英語の学習データは豊富にある一方で、日本の開発者は慢性的なデータ不足という問題に直面しています。高性能なモデルを初期段階から立ち上げるための、タスクに特化し、かつ日本の文化に根ざしたデータが圧倒的に不足しているのです。新しいサンプルの収集、クリーニング、ラベル付けには時間と費用がかかり、目まぐるしいAIの開発サイクルに追いつくことは困難です。
その結果、イノベーションが始まる前にそれを阻むデータの壁が生まれます。
新たな前進への道
大手 IT 企業 NTT DATA による新たな研究は、合成データによってこの壁がいかに取り払われるかを実証しています。手元にある最小限の独自データから、プライバシーやモデルの性能を損なうことなく、実運用レベルの大規模な学習データセットを生成できるのです。
NTT DATA は、NVIDIA Nemotron-Personas-Japan (NeMo Data Designer を使用して生成された、日本の人口動態、地理、文化に基づいた 600 万のペルソナから構成されるNVIDIA の初のオープン合成データセット) を使用することで、法務Q&Aタスクにおいてモデルの精度を 15.3% から 79.3% へと飛躍的に向上させ、回答の一貫性においても同様の大幅な改善を達成しました。
これは、機密データを学習パイプラインに公開することなく、60 ポイントもの向上を実現したことになります。
実験の全体的な手法や評価フレームワークに関心のある読者に向けて、NTT DATA の詳細な技術レポート(日本語)では、本研究の設計や結果についてさらに深く掘り下げて解説しています。
ここから得られる重要なポイントは、企業は完全にオープンソースのインフラストラクチャを使用し、手元にある最小限の独自データからでも、特定のドメイン(業務領域)に特化したAIを構築できるということです。オープンなペルソナデータを活用することで、より高品質なモデルの構築と、より機敏なデータ運用の両立が可能になります。
実証実験
このアプローチを厳密に検証するため、NTT DATA は架空の法律文書を用いた対照評価を実施し、モデルが真に新しい知識を獲得できるようにしました。学習には以下の構成を活用しました:
ベースモデル: tsuzumi 2 (NTT の独自 LLM)
データ拡張モデル: GPT-OSS-120b
シードデータ: Nemotron-Personas-Japan
判定モデル: GPT-5 (LLM-as-a-judge メソッド)
Nemotron-Personas-Japan から抽出した500のペルソナを活用し、わずか 450 件の未加工のシードサンプルを拡張することで、13 万 8000 件以上の学習用データ (人手による同等のサンプルの 300 倍に相当する合成データセット) を生成し、モデルの精度を 15.3% から 79.3% に向上させました。
この結果は、企業が直面するデータ不足という課題を如実に物語っています。
| 構成 | シードデータ | 合成拡張 | 精度 |
|---|---|---|---|
| ベースライン (トレーニングなし) | — | — | 15.3% |
| 合成データを使用したSFT | 450件 | 138,000 件 | 79.3% |
合成データによる学習は、単なる精度の向上にとどまらず、ベースラインモデルを悩ませていたハルシネーションも排除しました。学習前のモデルがもっともらしいものの誤った法的分類を生成したのに対し、ファインチューニングされたモデルはノイズを加えることなく正確な用語を抽出できるようになりました。
エンタープライズ環境への展開においておそらく最も価値のある発見は、十分な量のファインチューニング用合成データが確保できれば、知識追加が必要な場合でもユースケースによっては「継続事前学習(CPT)」は必須ではなくなるとNTT DATAが見出したことです。これはつまり、開発者は計算リソースを大量に消費する CPT の工程を完全に省略し、教師ありファインチューニング (SFT) のためのより反復的な合成データ生成に注力するという、より費用対効果の高い学習パイプラインを活用できることを意味しています。
この効率性の向上は、コンピューティングコストの削減と開発サイクルの高速化に直接つながります。
NTT DATA 技術革新統括本部 AI 技術部 部長の樋口晋也氏は次のように話しています。「Nemotron Personas を用いて少量の独自データセットを拡張することで、利用可能なデータが限られている場合でも、タスクに特化したモデルを効果的に構築できます。このアプローチは、独自データが不足しがちな事前調査、カスタマーサポート、マーケティングなどの領域において、成果を向上させる大きな可能性を示しています」
設計段階からのプライバシー保護
ここでの精度向上は魅力的ですが、同時により深い疑問も生じます。そもそも学習パイプラインにすら入らない(使えない)データはどうなるのでしょうか?
価値ある企業データの 90% 以上が、プライバシー規制、セキュリティリスク、ライセンス制約のために未活用のままです。日本では、個人情報保護法 (PIPA) やイノベーション重視の AI ガバナンスガイドライン (2025 年 9 月公表) などの枠組みがこの現実を裏付けています。AI の進歩が加速する中でも、責任あるデータ取り扱いは必須です。
合成データは、この相反する課題を解決する道筋を提供します。個人を特定できる情報 (PII) を含まず、実際のデータの傾向(パターン)を正確に反映した学習用データを生成することで、企業はデータの最小化とモデルの性能向上を同時に実現できます。初期の立ち上げには最小限の独自データのみを使用し、その後は合成データによって実運用レベルの規模まで拡張すればよいのです。
つまり、合成データは単なる「学習プロセスを最適化する手法」ではありません。データコンプライアンスと AI の性能が共存する理想的なバランス(ゴルディロックスゾーン) を実現するプライバシー強化技術 (PET) なのです。さらに、データの合成パイプラインは再現性と監査性を備えているため、ガバナンスチームや規制当局がますます求める信頼性と透明性の要件にも対応できます。
ソブリンデータ空間
ソブリン AI を構築する日本企業にとって、データ主権は必須条件です。しかし、主権だけでは十分ではありません。モデルには、欧米中心のコーパスに統計的に偏ったものではなく、地域固有の規範やドメインの制約によって形成される、根拠のあるインテリジェンスも必要です。Nemotron-Personas-Japan は、この現実に根ざした AI を作るための基盤データとして機能します。600 万のペルソナは日本の公式人口動態および労働統計に基づいており、1,500 以上の職業分類と地域分布をカバーしています。
しかし、その影響は個々の組織にとどまりません。NTT DATA をはじめとするリーダー企業は、「データスペース」の開発に積極的に取り組んでいます。これは、政府と企業が共通のガバナンスとプライバシー保証の下で、AI学習用に合成されたデータを交換し合える協調的な環境です。連合学習(フェデレーテッド ラーニング)などのエンドツーエンドの暗号化技術は、この分散型アプローチを可能にします。合成データはこれをさらに強力に推進する役割を果たし、組織は元となる機密情報を公開することなく、自社データの傾向(パターン)を合成データとして安全に提供できるようになります。
これにより、データリスク管理は守りの姿勢から、日本の掲げる『イノベーション主導のAIガバナンス』というビジョンに沿った「協調的な姿勢」へとシフトします。また、このアプローチは、「AIの進化は、グローバルで学習された少数の巨大モデルからもたらされるべきだ」という固定観念にも一石を投じます。むしろ、オープンでプライバシー保護された基盤の上に、主権を持ち、相互運用可能な AI システムがそれぞれの地域で構築される未来を指し示しています。
構築を開始
「データの壁」は確かに存在します。しかし、NTT DATA の調査が示すように、それを克服するためのツールは今やオープンで誰でもアクセスできるようになっています。合成データは、もはや「未来の技術」ではありません 。プライバシーや性能を犠牲にすることなく、データ主権を持ち、日本の文化に根ざしたAIシステムを構築するために、開発者が「今すぐ」現場に導入できる現実のソリューションなのです。
さっそく始めてみませんか?オープンソースのNeMo Data Designer ライブラリを活用するか、Hugging Face で公開されている Nemotron-Personas-Japan データセットをご覧ください。より詳細な技術的情報については、手法と実験設計を網羅したNTT データによる詳細なレポート (日本語) をご覧ください。
- NeMo Data Designer: https://docs.nvidia.com/nemo/microservices/latest/design-synthetic-data-from-scratch-or-seeds/index.html
- Nemotron-Personas-Japan (Hugging Face): https://huggingface.co/blog/nvidia/nemotron-personas-japan
- NTT データ レポート(日本語): https://www.nttdata.com/jp/ja/trends/data-insight/2026/0219/
Nemotron-Personas-Japan は、CC BY 4.0 ライセンスに基づき、商用・非商用を問わずご利用いただけます。
