Nemotron-Personas-Japan: ソブリン AI のための合成データセット
About this article
A Blog post by NVIDIA on Hugging Face
Back to Articles Nemotron-Personas-Japan: ソブリン AI のための合成データセット Enterprise + Article Published September 26, 2025 Upvote 9 +3 Atsunori Fujita Atsunori Follow nvidia Masaya Ogushi SnowMasaya Follow nvidia Vincent Gong vg1024 Follow nvidia Kotaro Yamamoto kyamamoto-nv Follow nvidia Yoshi Suhara suhara Follow nvidia Dane Corneil dcorneil Follow nvidia Yev Meyer nv-3mei Follow nvidia 実世界分布に基づいた日本人ペルソナのための複合AIアプローチ 日本の AI の未来に向けたオープンデータ 高品質で多様なトレーニングデータなしに、日本文化を真に理解するAIを構築することはこれまでほぼ不可能でした。これを変えるため、NVIDIAは、日本の人口統計、地理的分布、文化的特性に沿ったペルソナを含む初のオープン合成データセット、Nemotron-Personas-Japan を公開しました。CC BY 4.0 ライセンスのもと提供される本データセットは、機微な個人データに依存することなく日本社会を反映した AI システム構築のための、プライバシー保護と規制対応を両立した基盤を提供します。 NVIDIA のエンタープライズ向け合成データ生成システム、NeMo Data Designer を用いて作成されたNemotron-Personas-Japan は、すでに広く利用されている US Personas データセットの成功を機に日本版として開発されました。本リリースは、各国・地域におけるソブリン AI 開発を支援する合成ペルソナデータセットとデータ構築方法のグローバルコレクションの第一弾です。 本データセットは、Nemotron モデルをはじめとするオープンソースの 大規模言語モデル(LLM) とシームレスに連携するよう設計されており、企業向けチャットボットから各種ドメインの AI エージェントに至るまで、日本語 AI アプリケーション向けのファインチューンを容易に行えるようになっています。 データセットの内容 合計600万件(各レコードにつき6ペルソナ、100万レコード)の自然な日本語で記述されたペルソナ 1レコードあたり22項目:6つのペルソナ関連項目と、公式の人口統計・労働統計に基づいた16のコンテキスト項目 総トークン数約14億:そのうち約8億5000万がペルソナ関連トークン 約95万件の固有の名前:合成データ生成で前例のない多様性 日本の労働力を反映した 1500 以上の職種カテゴリー 人口・地域・性格特性軸を網羅的にカバー 多様なペルソナタイプ:職業、スポーツ、芸術、旅行、料理 自然言語によるペルソナ属性:文化的背景、スキルと専門性、キャリア目標・志向、趣味や関心 CC BY 4.0 ライセンスに基づき、商用・非商用を問わず利用可能 Nemotron-Personas-Japanの構築方法 データ生成パイプライン NVIDIAの合成データ生成用マイクロサービスである NeMo Data Designer を用いて構築されています。この複合AIシステムは、複雑な Jinj...