Skip to content

datawhalechina/Post-training-of-LLMs

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

项目简介

本项目是一个围绕 DeepLearning.AI 出品的 Post-Training for LLMs 系列课程,为国内学习者量身打造的中文翻译与知识整理教程。项目提供课程内容翻译、知识点梳理和示例代码等内容,旨在降低语言门槛,让更多学生、研究人员和开发者系统掌握大语言模型(LLM)后训练阶段的核心技术与实践方法。

立项理由

项目的核心目标是帮助国内学习者系统学习国际前沿的 LLM 后训练技术,缩小信息差距,并推动 LLM 技术在更多实际场景中落地应用。当前 LLM 技术快速发展,但高质量的中文学习资料仍较少,尤其是在 后训练阶段 的系统化内容方面。本项目旨在将 DeepLearning.AI 的高质量课程引入中文世界,让更多开发者与学生能直接接触到国际一线的 LLM 后训练知识,并在自己的项目中加以实践。

项目受众

  • 对 LLM 优化与应用感兴趣。
  • 希望深入理解并掌握模型后训练方法的。
  • 希望结合后训练技术打造领域专用模型的 。
  • 以及最广大、最普通的学生群体

项目亮点

1、权威课程,本土化翻译 精准翻译DeepLearning.AI官方前沿课程,打破语言壁垒,为国内学习者提供原汁原味且易于理解的LLM后训练核心知识。 2、系统梳理后训练核心技术 聚焦SFT、DPO、OnlineRL等关键环节,将碎片知识系统化,帮助学习者构建从理论到实践的完整知识体系。 3、理论与实践并重 提供配套可运行的代码示例,强化动手能力,确保学习者不仅能“看懂”,更能“上手”,为开发领域专用模型打下基础。

项目规划

1、目录

2、各章节负责人以及预估完成时间

章节 负责人 预估完成时间
1.1 课程介绍 李柯辰 10.7
1.2 后训练技术介绍 李柯辰 10.7
2.1 监督微调基础理论 朱广恩 10.7
2.2 监督微调实践 王泽宇 10.7
3.1 直接偏好优化基础理论 王海洪 10.7
3.2 直接偏好优化实践 张宏历 10.7
4.1 在线强化学习基础理论 朱伯湘 10.7
4.2 在线强化学习实践 蔡煊琪,朱伯湘 10.7
5.1 总结 张宏历 10.7

3、可预见的困难

  • 技术理解与翻译准确性的平衡 LLM后训练领域涉及大量前沿、晦涩的专业术语(如DPO、OnlineRL等)。在翻译和解释时,如何在保持原意准确的前提下,使其在中文语境中易于理解,是一大挑战。理解偏差或翻译生硬都会影响学习效果。
  • 代码实践与环境的复现难题 示例代码的成功运行严重依赖于特定的软件库版本、硬件环境(如GPU)和数据集。环境配置的微小差异都可能导致代码报错,极大增加学习者的实践门槛和挫败感。
  • 课程迭代与更新压力 LLM领域技术迭代速度极快,原版课程内容可能会更新,新的算法和工具也会不断涌现。项目面临着需要持续跟进、同步更新翻译与代码的巨大压力,否则内容将迅速过时。

已完成的部分

章节 负责人 预估完成时间 状态
1.1 课程介绍 李柯辰 10.7 🚧
1.2 后训练技术介绍 李柯辰 10.7 🚧
2.1 监督微调基础理论 朱广恩 10.7
2.2 监督微调实践 王泽宇 10.7 🚧
3.1 直接偏好优化基础理论 王海洪 10.7
3.2 直接偏好优化实践 张宏历 10.7
4.1 在线强化学习基础理论 朱伯湘 10.7 🚧
4.2 在线强化学习实践 蔡煊琪,朱伯湘 10.7 🚧
5.1 总结 张宏历 10.7

关注我们

扫描下方二维码关注公众号:Datawhale

LICENSE

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •