mindspeed-llm-data-prep

Installation
SKILL.md

MindSpeed-LLM 数据预处理

本 Skill 指导用户为 MindSpeed-LLM 训练准备数据,覆盖预训练、指令微调和偏好对齐三种数据格式。

快速开始

指令微调数据(Alpaca 格式)

python preprocess_data.py \
    --input ./dataset/alpaca.parquet \
    --tokenizer-name-or-path ./model_from_hf/Qwen2.5-7B-Instruct/ \
    --output-prefix ./finetune_dataset/alpaca \
    --handler-name AlpacaStyleInstructionHandler \
    --tokenizer-type PretrainedFromHF \
    --workers 4 \
    --prompt-type qwen
Installs
17
GitHub Stars
93
First Seen
Mar 17, 2026
mindspeed-llm-data-prep — ascend-ai-coding/awesome-ascend-skills