Nemotron-Personas-Japan: ソブリン AI のための合成データセット

Nemotron-Personas-Japan: ソブリン AI のための合成データセット

Hugging Face Blog 2 min read

About this article

A Blog post by NVIDIA on Hugging Face

Back to Articles Nemotron-Personas-Japan: ソブリン AI のための合成データセット Enterprise + Article Published September 26, 2025 Upvote 9 +3 Atsunori Fujita Atsunori Follow nvidia Masaya Ogushi SnowMasaya Follow nvidia Vincent Gong vg1024 Follow nvidia Kotaro Yamamoto kyamamoto-nv Follow nvidia Yoshi Suhara suhara Follow nvidia Dane Corneil dcorneil Follow nvidia Yev Meyer nv-3mei Follow nvidia 実世界分布に基づいた日本人ペルソナのための複合AIアプローチ 日本の AI の未来に向けたオープンデータ 高品質で多様なトレーニングデータなしに、日本文化を真に理解するAIを構築することはこれまでほぼ不可能でした。これを変えるため、NVIDIAは、日本の人口統計、地理的分布、文化的特性に沿ったペルソナを含む初のオープン合成データセット、Nemotron-Personas-Japan を公開しました。CC BY 4.0 ライセンスのもと提供される本データセットは、機微な個人データに依存することなく日本社会を反映した AI システム構築のための、プライバシー保護と規制対応を両立した基盤を提供します。 NVIDIA のエンタープライズ向け合成データ生成システム、NeMo Data Designer を用いて作成されたNemotron-Personas-Japan は、すでに広く利用されている US Personas データセットの成功を機に日本版として開発されました。本リリースは、各国・地域におけるソブリン AI 開発を支援する合成ペルソナデータセットとデータ構築方法のグローバルコレクションの第一弾です。 本データセットは、Nemotron モデルをはじめとするオープンソースの 大規模言語モデル(LLM) とシームレスに連携するよう設計されており、企業向けチャットボットから各種ドメインの AI エージェントに至るまで、日本語 AI アプリケーション向けのファインチューンを容易に行えるようになっています。 データセットの内容 合計600万件(各レコードにつき6ペルソナ、100万レコード)の自然な日本語で記述されたペルソナ 1レコードあたり22項目:6つのペルソナ関連項目と、公式の人口統計・労働統計に基づいた16のコンテキスト項目 総トークン数約14億:そのうち約8億5000万がペルソナ関連トークン 約95万件の固有の名前:合成データ生成で前例のない多様性 日本の労働力を反映した 1500 以上の職種カテゴリー 人口・地域・性格特性軸を網羅的にカバー 多様なペルソナタイプ:職業、スポーツ、芸術、旅行、料理 自然言語によるペルソナ属性:文化的背景、スキルと専門性、キャリア目標・志向、趣味や関心 CC BY 4.0 ライセンスに基づき、商用・非商用を問わず利用可能   Nemotron-Personas-Japanの構築方法 データ生成パイプライン NVIDIAの合成データ生成用マイクロサービスである NeMo Data Designer を用いて構築されています。この複合AIシステムは、複雑な Jinj...

Originally published on February 15, 2026. Curated by AI News.

Related Articles

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents
Open Source Ai

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

A Blog post by IBM Granite on Hugging Face

Hugging Face Blog · 7 min ·
Llms

My AI spent last night modifying its own codebase

I've been working on a local AI system called Apis that runs completely offline through Ollama. During a background run, Apis identified ...

Reddit - Artificial Intelligence · 1 min ·
Llms

Depth-first pruning seems to transfer from GPT-2 to Llama (unexpectedly well)

TL;DR: Removing the right transformer layers (instead of shrinking all layers) gives smaller, faster models with minimal quality loss — a...

Reddit - Artificial Intelligence · 1 min ·
[2603.16430] EngGPT2: Sovereign, Efficient and Open Intelligence
Llms

[2603.16430] EngGPT2: Sovereign, Efficient and Open Intelligence

Abstract page for arXiv paper 2603.16430: EngGPT2: Sovereign, Efficient and Open Intelligence

arXiv - AI · 4 min ·
More in Open Source Ai: This Week Guide Trending

No comments

No comments yet. Be the first to comment!

Stay updated with AI News

Get the latest news, tools, and insights delivered to your inbox.

Daily or weekly digest • Unsubscribe anytime