Nemotron-Personas-Japan: ソブリン AI のための合成データセット

Back to Articles Nemotron-Personas-Japan: ソブリン AI のための合成データセット Enterprise + Article Published September 26, 2025 Upvote 9 +3 Atsunori Fujita Atsunori Follow nvidia Masaya Ogushi SnowMasaya Follow nvidia Vincent Gong vg1024 Follow nvidia Kotaro Yamamoto kyamamoto-nv Follow nvidia Yoshi Suhara suhara Follow nvidia Dane Corneil dcorneil Follow nvidia Yev Meyer nv-3mei Follow nvidia 実世界分布に基づいた日本人ペルソナのための複合AIアプローチ日本の AI の未来に向けたオープンデータ高品質で多様なトレーニングデータなしに、日本文化を真に理解するAIを構築することはこれまでほぼ不可能でした。これを変えるため、NVIDIAは、日本の人口統計、地理的分布、文化的特性に沿ったペルソナを含む初のオープン合成データセット、Nemotron-Personas-Japan を公開しました。CC BY 4.0 ライセンスのもと提供される本データセットは、機微な個人データに依存することなく日本社会を反映した AI システム構築のための、プライバシー保護と規制対応を両立した基盤を提供します。 NVIDIA のエンタープライズ向け合成データ生成システム、NeMo Data Designer を用いて作成されたNemotron-Personas-Japan は、すでに広く利用されている US Personas データセットの成功を機に日本版として開発されました。本リリースは、各国・地域におけるソブリン AI 開発を支援する合成ペルソナデータセットとデータ構築方法のグローバルコレクションの第一弾です。本データセットは、Nemotron モデルをはじめとするオープンソースの大規模言語モデル(LLM) とシームレスに連携するよう設計されており、企業向けチャットボットから各種ドメインの AI エージェントに至るまで、日本語 AI アプリケーション向けのファインチューンを容易に行えるようになっています。データセットの内容合計600万件（各レコードにつき6ペルソナ、100万レコード）の自然な日本語で記述されたペルソナ 1レコードあたり22項目：6つのペルソナ関連項目と、公式の人口統計・労働統計に基づいた16のコンテキスト項目総トークン数約14億：そのうち約8億5000万がペルソナ関連トークン約95万件の固有の名前：合成データ生成で前例のない多様性日本の労働力を反映した 1500 以上の職種カテゴリー人口・地域・性格特性軸を網羅的にカバー多様なペルソナタイプ：職業、スポーツ、芸術、旅行、料理自然言語によるペルソナ属性：文化的背景、スキルと専門性、キャリア目標・志向、趣味や関心 CC BY 4.0 ライセンスに基づき、商用・非商用を問わず利用可能　 Nemotron-Personas-Japanの構築方法データ生成パイプライン NVIDIAの合成データ生成用マイクロサービスである NeMo Data Designer を用いて構築されています。この複合AIシステムは、複雑な Jinj...

Nemotron-Personas-Japan: ソブリン AI のための合成データセット

About this article

Related Articles

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

My AI spent last night modifying its own codebase

Depth-first pruning seems to transfer from GPT-2 to Llama (unexpectedly well)

[2603.16430] EngGPT2: Sovereign, Efficient and Open Intelligence

No comments

Stay updated with AI News