「大模型」2小时完全从0训练26M的小参数GPT

02-18 19:51

MiniMind 是个超赞的开源项目，目标是用最低成本——3 块钱加 2 小时，从零打造一个只有 25.8M 的超小语言模型。它的亮点是超轻量，普通个人 GPU 都能轻松跑起来，还能快速训练。项目里啥都有：简化的模型结构、混合专家 (MoE)、数据清洗、预训练、监督微调 (SFT)、LoRA 微调、直接偏好强化学习 (DPO)、模型蒸馏，甚至还有视觉多模态的 MiniMind-V。全程代码都用 PyTorch 从头写，不靠第三方库，花样多又接地气。它不只是个大模型的全套复现，还像个 LLM 入门教程。

CODE_OF_CONDUCT.md

README.md

README_en.md

images

model

scripts

点赞回复