MiniMind 是个超赞的开源项目,目标是用最低成本——3 块钱加 2 小时,从零打造一个只有 25.8M 的超小语言模型。它的亮点是超轻量,普通个人 GPU 都能轻松跑起来,还能快速训练。项目里啥都有:简化的模型结构、混合专家 (MoE)、数据清洗、预训练、监督微调 (SFT)、LoRA 微调、直接偏好强化学习 (DPO)、模型蒸馏,甚至还有视觉多模态的 MiniMind-V。全程代码都用 PyTorch 从头写,不靠第三方库,花样多又接地气。它不只是个大模型的全套复现,还像个 LLM 入门教程。
点赞
回复