suncitygroup太阳新城(中国)集团官方网站

大语言模型原理简介及高效训练实践

发布时间： 2024-01-12

主题：大语言模型原理简介及高效训练实践

主讲人：上海财经大学崔万云副教授

主持人：suncitygroup太阳新城赵琳教授

时间：2024年1月15日（周一）10:00—11:30

直播平台及会议ID：腾讯会议，会议ID：625-693-729

主讲人简介：

崔万云，上海财经大学信息学院常任副教授，ACM中国优博提名奖、ACM上海优博奖得主，2012-2021、2013-2022 AI2000最具影响力学者提名。在NeurIPS、ICLR、ACL、EMNLP、SIGMOD、PVLDB、IJCAI、AAAI等会议上，第一作者发表论文十余篇。近日，崔万云博士课题组发布了具有高质量中文对话能力的大语言模型FinChat，已在金融、教育等多个场景应用。

内容提要：

本报告介绍大型语言模型（LLMs）的原理和高效训练实践。首先，报告详细介绍了大型语言模型的基本原理，包括其训练架构、训练数据以及训练目标等。接着，报告转向训练这些模型的高效实践。为了提高训练效率和减少所需的计算资源，详细讨论大模型训练环境搭建、微调方法、超参选择等。

学术讲座