当前位置:首页 > 杂谈 > 正文内容

微软开源“傻瓜式”类ChatGPT模型训练工具,15倍速,低成本

2023-06-08 08:26:52TONY杂谈237

当地时间4 月12日,微软宣布开源 DeepSpeed-Chat,帮助用户轻松训练类 ChatGPT 等大语言模型。

据悉,Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成,具备训练、强化推理等功能,还使用了 RLHF(基于人类反馈的强化学习)技术,可将训练速度提升15倍以上,而成本却大大降低。

如下图,一个130亿参数的类 ChatGPT 模型,训练时间只需要1.25小时。

简单来说,用户只需要通过 Deep Speed Chat 提供的“傻瓜式”操作,就能以最短的时间、最高效的成本训练类 ChatGPT 大语言模型。

使 RLHF 训练真正在 AI 社区普及

近来,ChatGPT 及类似模型引发了 AI 行业的一场风潮。ChatGPT 类模型能够执行归纳、编程、翻译等任务,其结果与人类专家相当甚至更优。为了能够使普通数据科学家和研究者能够更加轻松地训练和部署 ChatGPT 等模型,AI 开源社区进行了各种尝试,如 ChatLLaMa、ChatGLM-6B、Alpaca、Vicuna、Databricks-Dolly 等。

然而,目前业内依然缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类 ChatGPT 模型十分困难。

例如,使用现有的开源系统训练一个具有67亿参数的类 ChatGPT 模型,通常需要昂贵的多卡至多节点的 GPU 集群,但这些资源对大多数数据科学家或研究者而言难以获取。同时,即使有了这样的计算资源,现有的开源系统的训练效率通常也达不到这些机器最大效率的5%。

简而言之,即使有了昂贵的多 GPU 集群,现有解决方案也无法轻松、快速、经济的训练具有数千亿参数的最先进的类 ChatGPT 模型。

与常见的大语言模型的预训练和微调不同,ChatGPT 模型的训练基于 RLHF 技术,这使得现有深度学习系统在训练类 ChatGPT 模型时存在种种局限。

微软在 Deep Speed Chat 介绍文档中表示,“为了让 ChatGPT 类型的模型更容易被普通数据科学家和研究者使用,并使 RLHF 训练真正在 AI 社区普及,我们发布了 DeepSpeed-Chat。”

据介绍,为了实现无缝的训练体验,微软在 DeepSpeed-Chat 中整合了一个端到端的训练流程,包括以下三个主要步骤:

图|DeepSpeed-Chat 的具有可选功能的 RLHF 训练流程图(来源:GitHub)

监督微调(SFT),使用精选的人类回答来微调预训练的语言模型以应对各种查询;奖励模型微调,使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的(通常比 SFT 小的)奖励模型(RW);RLHF 训练,利用 Proximal Policy Optimization(PPO)算法,根据 RW 模型的奖励反馈进一步微调 SFT 模型。

在步骤3 中,微软提供了指数移动平均(EMA)和混合训练两个额外的功能,以帮助提高模型质量。根据 InstructGPT,EMA 通常比传统的最终训练模型提供更好的响应质量,而混合训练可以帮助模型保持预训练基准解决能力。

总体来说,DeepSpeed-Chat 具有以下三大核心功能:

1.简化 ChatGPT 类型模型的训练和强化推理体验:只需一个脚本即可实现多个训练步骤,包括使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤、甚至生成你自己的类 ChatGPT 模型。此外,微软还提供了一个易于使用的推理API,用于用户在模型训练后测试对话式交互。

2.DeepSpeed-RLHF 模块:DeepSpeed-RLHF 复刻了 InstructGPT 论文中的训练模式,并确保包括 SFT、奖励模型微调和 RLHF 在内的三个步骤与其一一对应。此外,微软还提供了数据抽象和混合功能,以支持用户使用多个不同来源的数据源进行训练。

3.DeepSpeed-RLHF 系统:微软将 DeepSpeed 的训练(training engine)和推理能力(inference engine)整合到一个统一的混合引擎(DeepSpeed-HE)中用于 RLHF 训练。DeepSpeed-HE 能够在 RLHF 中无缝地在推理和训练模式之间切换,使其能够利用来自 DeepSpeed-Inference 的各种优化,如张量并行计算和高性能 CUDA 算子进行语言生成,同时对训练部分还能从 ZeRO-和 LoRA-based 内存优化策略中受益。此外,DeepSpeed-HE 还能自动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。

高效、经济、扩展性强

据介绍,DeepSpeed-RLHF 系统在大规模训练中具有出色的效率,使复杂的 RLHF 训练变得快速、经济并且易于大规模推广。

具体而言,DeepSpeed-HE 比现有系统快15倍以上,使 RLHF 训练快速且经济实惠。例如,DeepSpeed-HE 在 Azure 云上只需9 小时即可训练一个 OPT-13B 模型,只需18小时即可训练一个 OPT-30B 模型。这两种训练分别花费不到300美元和600美元。

此外,DeepSpeed-HE 也具有卓越的扩展性,其能够支持训练拥有数千亿参数的模型,并在多节点多 GPU 系统上展现出卓越的扩展性。因此,即使是一个拥有130亿参数的模型,也只需1.25小时就能完成训练。而对于参数规模为1750亿的更大模型,使用 DeepSpeed-HE 进行训练也只需不到一天的时间。

另外,此次开源有望实现 RLHF 训练的普及化。微软表示,仅凭单个 GPU,DeepSpeed-HE 就能支持训练超过130亿参数的模型。这使得那些无法使用多 GPU 系统的数据科学家和研究者不仅能够轻松创建轻量级的 RLHF 模型,还能创建大型且功能强大的模型,以应对不同的使用场景。

那么,人手一个专属 ChatGPT 的时代,还有多远?

“微软开源“傻瓜式”类ChatGPT模型训练工具,15倍速,低成本” 的相关文章

难顶沙尘滚滚,木村拓哉同款挂脖空气净化器走红网络

难顶沙尘滚滚,木村拓哉同款挂脖空气净化器走红网络

“办公室的空气净化器突然响了,一看外面天都变黄了,沙尘暴抵达了。” 近日,沙尘暴陆续侵袭全国十余个省份,随着冷空气的东移南下,江浙沪地区也未能幸免,持续的沙尘暴天气也引发了网友的热烈讨论。“这下是真吃土了”、“每一口呼吸都...

讲真,同方全球传世尊享终身寿险回本速度超快,要不要买?

讲真,同方全球传世尊享终身寿险回本速度超快,要不要买?

最近,同方全球传世尊享上线了,这款产品跟平时的增额寿不同,它有一个特点,回本速度超快,几乎比同类产品的回本速度都快。 具体什么情况?同方全球传世尊享值不值得买?大家跟着奶爸一起来看看。同方全球传世尊享怎么样?同方全球传世尊享值不值得购买?奶爸总结一、同方全球传世尊享怎么样?...

昆明云内动力股份有限公司关于自主可控轻型移动源电控发动机关键技术及应用项目通过科技成果评价的公告

昆明云内动力股份有限公司关于自主可控轻型移动源电控发动机关键技术及应用项目通过科技成果评价的公告

  本公司及董事会全体成员保证信息披露内容的真实、准确、完整,没有虚假记载、误导性陈述或重大遗漏。   昆明云内动力股份有限公司(以下简称“公司”)与同济大学、常州易控汽车电子股份有限公司、无锡恒和环保科技有限公司、钧风动力系统(上海)有限公司、昆明理工大学等单位共同完成的“自主...

抖音小店登录入口在哪儿?如何登录?新手开店登录教程

抖音小店登录入口在哪儿?如何登录?新手开店登录教程

大家好,我是电商糖果 很多人看上了抖音电商的强大变现能力,都想入驻这个平台,但是有不少新手朋友却找不到抖音小店登录入口在哪儿,也不知道如何登录。 今天,糖果就来给大家详细的讲解一下,想开店或者准备开店的朋友,记得收藏。 抖音小店登录入口在哪儿? 我...

雪榕生物:公司子公司雪榕源通过抖音平台有开展直播营销活动,您可以通过抖音“雪榕膳食旗舰店”详细了解

雪榕生物:公司子公司雪榕源通过抖音平台有开展直播营销活动,您可以通过抖音“雪榕膳食旗舰店”详细了解

雪榕生物(300511)03月24日在投资者关系平台上答复了投资者关心的问题。 投资者:话说食补同源,问一下公司有考虑中药材和菌菇混种提高菌菇高端品质吗? 雪榕生物董秘:尊敬的投资者,您好。感谢您对公司的关注。 投资者:请问近期在抖音官网推出的雪榕源产品是公司的产品...

精神科 | 最新发表的万篇论文大数据分析:40本SCI期刊投稿指南、研究热点等

精神科 | 最新发表的万篇论文大数据分析:40本SCI期刊投稿指南、研究热点等

原标题:精神科 | 最新发表的万篇论文大数据分析:40本SCI期刊投稿指南、研究热点等 在pubmed上进行检索,我们可以看到自2000年以来,精神科领域相关研究共发表564,084篇。从2011年起,年发表量超过2万篇,其中2021年达历史高峰58601篇,2022年发表570...