mindspeed-llm-data-prep
Installation
SKILL.md
MindSpeed-LLM 数据预处理
本 Skill 指导用户为 MindSpeed-LLM 训练准备数据,覆盖预训练、指令微调和偏好对齐三种数据格式。
快速开始
指令微调数据(Alpaca 格式)
python preprocess_data.py \
--input ./dataset/alpaca.parquet \
--tokenizer-name-or-path ./model_from_hf/Qwen2.5-7B-Instruct/ \
--output-prefix ./finetune_dataset/alpaca \
--handler-name AlpacaStyleInstructionHandler \
--tokenizer-type PretrainedFromHF \
--workers 4 \
--prompt-type qwen