nemo-curator

Installation

SKILL.md

NeMo Curator - GPU-Accelerated Data Curation

NVIDIA's toolkit for preparing high-quality training data for LLMs.

When to use NeMo Curator

Use NeMo Curator when:

Preparing LLM training data from web scrapes (Common Crawl)
Need fast deduplication (16× faster than CPU)
Curating multi-modal datasets (text, images, video, audio)
Filtering low-quality or toxic content
Scaling data processing across GPU cluster

Performance:

16× faster fuzzy deduplication (8TB RedPajama v2)
40% lower TCO vs CPU alternatives
Near-linear scaling across GPU nodes

Installs

7

Repository

firecrawl/ai-re…h-skills

GitHub Stars

10

First Seen

Mar 28, 2026

Security Audits

Gen Agent Trust HubPass

nemo-curator — firecrawl/ai-research-skills