主题:大语言模型原理简介及高效训练实践
主讲人:上海财经大学 崔万云副教授
主持人:suncitygroup太阳新城 赵琳教授
时间:2024年1月15日(周一)10:00—11:30
直播平台及会议ID:腾讯会议,会议ID:625-693-729
主讲人简介:
崔万云,上海财经大学信息学院常任副教授,ACM中国优博提名奖、ACM上海优博奖得主,2012-2021、2013-2022 AI2000最具影响力学者提名。在NeurIPS、ICLR、ACL、EMNLP、SIGMOD、PVLDB、IJCAI、AAAI等会议上,第一作者发表论文十余篇。近日,崔万云博士课题组发布了具有高质量中文对话能力的大语言模型FinChat,已在金融、教育等多个场景应用。
内容提要:
本报告介绍大型语言模型(LLMs)的原理和高效训练实践。首先,报告详细介绍了大型语言模型的基本原理,包括其训练架构、训练数据以及训练目标等。接着,报告转向训练这些模型的高效实践。为了提高训练效率和减少所需的计算资源,详细讨论大模型训练环境搭建、微调方法、超参选择等。