Scaling Instruction-Finetuned Language Models 论文发布了 FLAN-T5 模型,它是 T5 模型的增强版。FLAN-T5 由很多各种各样的任务微调而得,因此,简单来讲,它就是个方方面面都更优的 T5 模型。相同参数量的条件下,FLAN-T5 的性能相比 T5 而言有两位数的提高。Google 在 Hugging Face 上开源了 5 个 FLAN-T5 的 checkpoints,参数量范围从 8000 万 到 110 亿。
Scaling Instruction-Finetuned Language Models 论文地址:https://arxiv.org/pdf/2210.11416.pdf
关于 FLAN-T5 的模型筛选结果:https://hf.co/models?other=arxiv:2210.11416
(资料图片)
在之前的一篇博文中,我们已经学习了如何 针对聊天对话数据摘要生成任务微调 FLAN-T5,那时我们使用的是 Base (250M 参数) 模型。本文,我们将研究如何将训练从 Base 扩展到 XL (30 亿参数) 或 XXL (110 亿参数)。
针对聊天对话数据摘要生成任务微调 FLAN-T5 指南:https://www.philschmid.de/fine-tune-flan-t5
Base (250M 参数) 模型:https://hf.co/google/flan-t5-base
XL (30 亿参数) 模型:https://hf.co/google/flan-t5-xl
XXL (110 亿参数) 模型:https://hf.co/google/flan-t5-xxl
这意味着我们将学习如何利用模型并行、多 GPU 以及 DeepSpeed ZeRO 来微调 FLAN-T5 XL 和 XXL。
DeepSpeed ZeRO 链接:https://www.deepspeed.ai/tutorials/zero/
除了作为教程的部分之外,我们还跑了一系列实验,这些实验数据可以帮助你选择正确的硬件设置。你可以在 结果和实验 部分找到详细信息。
处理数据集
与 针对聊天对话的摘要生成任务微调 FLAN-T5 一文中类似,我们需要先准备一个用于微调的数据集。本文,我们将在 CNN Dailymail 数据集 上微调 FLAN-T5-XXL。我们不会赘述如何生成数据集,如果你想了解数据集生成的详细步骤,请参阅前文提到的 Fine Tune FLAN-T5。
CNN Dailymail 数据集:https://hf.co/datasets/cnn_dailymail
FLAN-T5-XXL:https://hf.co/google/flan-t5-xxl
我们定义了一些参数,本文的示例都会基于这些参数,但你可以根据实际需要进行调整。
与 Fine Tune FLAN-T5 不同,这次我们把预处理和训练分开。这样我们就可以在非 GPU 实例上运行预处理。我们先对数据集进行预处理 (即分词) 并将其保存到磁盘,然后训练脚本再从磁盘中加载预处理后的数据集。
我们在配置文件中定义了一个 prompt_template
,其可用于来构建指令提示,以提高我们模型的性能。prompt_template
有“固定”的开始词和结束词,文档放在中间。这意味着我们需要确保 “固定”模板词 + 文档 总长不超过模型支持的最大序列长度。因此我们需要计算模型支持的最大文档长度,稍后我们会根据它来填充或截断模板中的文档。
现在我们知道,模型支持的最大输入文档长度为 500。除了输入之外,我们还需要知道最大“目标”序列长度,我们可以通过遍历数据集中的摘要长度来得到。(代码需要运行几分钟)
使用 deepspeed
微调模型
准备完毕!我们现在可以开始训练模型了!如前所述,我们将使用集成了 DeepSpeed 的 Hugging Face Trainer。因此我们需要创建一个 deespeed_config.json
。DeepSpeed 配置 定义了要使用的 ZeRO 策略以及是否要使用混合精度训练等配置项。Hugging Face Trainer 允许我们从 deepspeed_config.json
中的 TrainingArguments
继承相关配置以避免重复设置,查看 文档了解更多信息。
DeepSpeed 配置:https://www.deepspeed.ai/docs/config-json/
DeepSpeed 文档链接:https://hf.co/docs/transformers/v4.26.1/en/main_classes/deepspeed
我们创建了 4 组 deepspeed 配置文件用于实验,包括 CPU 卸载
和 混合精度
:
以下文件来自:https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/configs/
ds_flan_t5_z3_config.json
ds_flan_t5_z3_config_bf16.json
ds_flan_t5_z3_offload.json
ds_flan_t5_z3_offload_bf16.json
你可以根据你的运行环境选择,例如如果在 NVIDIA V100s 上运行,你就不能使用带 bf16
的配置,因为 V100 不支持 bfloat16
数据类型。
在微调T5
模型时,不能使用fp16
,因为它会导致精度溢出问题,参见问题 #4586,#10830,和拉取请求 #10956仓库地址:https://github.com/huggingface/transformers/
如开头所述,我们使用的是 p4dn.24xlarge AWS EC2 实例,该实例包含 8 张显存为 40GB 的 NVIDIA A100。这意味着我们可以使用 bf16
,它将减少近一半的模型显存占用,使我们能够在不卸载的情况下高效训练。
我们将使用 ds_flan_t5_z3_config_bf16.json。如果你不想用 auto
值,可以查看 文档。
文档地址:https://hf.co/docs/transformers/v4.26.1/en/main_classes/deepspeed
现在,该训练脚本上场了。我们根据 Fine Tune FLAN-T5 准备了一个 run_seq2seq_deepspeed.py 训练脚本,它支持我们配置 deepspeed 和其他超参数,包括 google/flan-t5-xxl
的模型 ID。
run_seq2seq_deepspeed.py 链接:https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/scripts/run_seq2seq_deepspeed.py
我们使用 deepspeed
启动器触发训练,输入给启动器的参数包括 GPU 数量、deepspeed 配置及其它超参数 (如 google/flan-t5-xxl
的模型 ID)。
DeepSpeed 先将模型加载到 CPU 上,然后将其拆分到 8 张 A100 上然后开始训练。使用 CNN Dailymail 数据集 进行训练大约需要 10 个小时,费用约为 322 美元
。
CNN Dailymail 数据集:https://hf.co/datasets/cnn_dailymail
结果与实验
为了更好地了解硬件要求,我们对 FLAN-T5 XL 和 XXL 进行了一系列实验,以帮助我们评估和了解硬件需求以及训练这些模型的成本。
下表列出了实验和相关设置的详细信息。
数据集: "cnn_dailymail"
训练样本数: 287113
验证样本数: 13368
超参:
epochs: 3
学习率: 1e-4
运行环境设置:
4x V100 16GB: p3.8xlarge
4x A10G 24GB: g5.24xlarge
8x V100 16GB: p3.16xlarge
8x A100 40GB: p4dn.24xlarge
模型DeepSpeed 卸载硬件GPU每卡batch size精度时长费用
我们可以看到 bf16
与 fp32
相比具有显著优势。FLAN-T5-XXL 能放进 4 张 A10G (24GB),但放不进 8 张 V100 16GB。
我们的实验还表明,如果模型可以无需卸载同时以 batch size 大于 4 的配置跑在 GPU 上,其速度将比卸载模型和减小 batch size 的配置快约 2 倍且更具成本效益。
英文原文: https://www.philschmid.de/fine-tune-flan-t5-deepspeed
原文作者: Philipp Schmid
译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。
审校、排版: zhongdongy (阿东)
-
每日焦点!使用 DeepSpeed 和 Hugging Face Transformer 微调 FLAN-T5 XL/XXL
ScalingInstruction-FinetunedLanguageModels论文发布了FLAN-T5模型,它是T5模型的增强版。FLAN-T5由很...
2023-03-21 阅读全文 -
-
-
全球今头条!中科院系板块3月20日跌0.29%,中科创达领跌,主力资金净流出3.21亿元
3月20日中科院系板块较上一交易日下跌0 29%,中科创达领跌。当日上证指数报收于3234 91,下跌0 48%。...
2023-03-21 阅读全文 -
世界新动态:人力资源管理的主要内容是什么_人力资源管理的主要内容
1、人力资源管理目标是指企业人力资源管理需要完成的职责和需要达到的绩效。2、人力资源管理既要考虑组...
2023-03-20 阅读全文 -
世界视讯!上海艾录(301062):关于公司持股5%以上股东减持股份时间过半的进展公告
上海艾录(301062):关于公司持股5%以上股东减持股份时间过半的进展公告3月20日,上海艾录公告显示,上海...
2023-03-20 阅读全文 -
-
-
NBA比赛34胜37负的湖人在主场迎战29胜42负的魔术
今日NBA比赛,34胜37负的湖人在主场迎战29胜42负的魔术,此战湖人必须赢球,因为鹈鹕今日击败火箭后战绩...
2023-03-20 阅读全文 -
-
-
全球速看:福建省市场监督管理局公布2023年第10期食品安全监督抽检信息
中国质量新闻网讯2023年3月17日,福建省市场监督管理局发布2023年第10期食品安全监督抽检信息通告。本期...
2023-03-20 阅读全文 -
-
今日讯!中央纪委印发意见 进一步加强和规范案件质量评查工作
新华社北京3月19日电(记者孙少龙)中央纪委国家监委网站19日消息,中央纪委日前印发《关于进一步加强和...
2023-03-19 阅读全文 -
-
-
环球观速讯丨一小船在静水中的速度为三米_一小船在静水中的速度
1、试题答案:A、D、因为船在静水中的速度小于河水的流速,由平行四边形法则求合速度不可能垂直河岸,小...
2023-03-19 阅读全文 -
同时感染奥密克戎两种毒株!如何看待这个“首次发现”?
中新网北京3月18日电(韦香惠)中国疾控中心网站最新发布的周报显示,我国首次发现奥密克戎BA 5 2 48和BF 7 1
2023-03-19 阅读全文 -
-
天天热门:活动预告 | 夕阳共享人人乐 计算机应用E课堂
培训通知培训题目“夕阳共享人人乐”系列——计算机应用E课堂培训时间2023 03 1713:30-15:00主讲人原...
2023-03-18 阅读全文 -
环球观点:荷马史诗在结构上有什么特点简述_荷马史诗 在结构上有什么特点
1、荷马史诗在结构安排上有以下特点:整体上“以人物为中心”和局部上“以事件为中心”相结合。2、2、直...
2023-03-18 阅读全文 -
动态焦点:“增配降价”,比亚迪两大重磅新车来袭,车市又卷起来了?
比亚迪作为国内率先明确转型新能源的车企,凭借着深厚的研发功底和先发优势,成为了国内新能源的领军品...
2023-03-18 阅读全文 -
-
-
世界讯息:中国中铁(00390.HK):3月17日南向资金增持927.5万股
3月17日北向资金增持927 5万股中国中铁(00390 HK)。近5个交易日中,获南向资金增持的有5天,累计净...
2023-03-18 阅读全文
- 每日焦点!使用 DeepSpeed 和 Hugging Face Transformer 微调 FLAN-T5 XL/XXL03-21
- 天天快讯:少女感不能硬凹,宋佳的“打脸式”演绎,让多少女星自愧不如03-21
- 沽源县气象台发布雷电黄色预警【Ⅲ级/较重】【2023-03-21】03-21
- 全球今头条!中科院系板块3月20日跌0.29%,中科创达领跌,主力资金净流出3.21亿元03-21
- 世界新动态:人力资源管理的主要内容是什么_人力资源管理的主要内容03-20
- 世界视讯!上海艾录(301062):关于公司持股5%以上股东减持股份时间过半的进展公告03-20
- 公司倒闭老板跑路不发工资怎么办03-20
- 焦点热议:什么借款平台百分之百能借到款03-20
- NBA比赛34胜37负的湖人在主场迎战29胜42负的魔术03-20
- 【全球新视野】泌尿系彩超都能检查什么_泌尿系彩超能查出什么03-20
- 天天快播:离婚协议的相关问题(二)03-20
- 全球速看:福建省市场监督管理局公布2023年第10期食品安全监督抽检信息03-20
- 西安机场到市区地铁_西安机场到市区03-20
- 今日讯!中央纪委印发意见 进一步加强和规范案件质量评查工作03-19
- 环球快讯:拉开战幕!300余名小剑客青春“亮剑”03-19
- 焦点关注:贵州岑巩:教学进田间 拓宽就业渠道03-19
- 环球观速讯丨一小船在静水中的速度为三米_一小船在静水中的速度03-19
- 同时感染奥密克戎两种毒株!如何看待这个“首次发现”?03-19
- 怀孕了脸上长斑咋办_怀孕后脸上长斑怎么办03-19
- 天天热门:活动预告 | 夕阳共享人人乐 计算机应用E课堂03-18
广告
X 关闭
广告
X 关闭
- 每日焦点!使用 DeepSpeed 和 Hugging Face Transformer 微调 FLAN-T5 XL/XXL03-21
- 天天快讯:少女感不能硬凹,宋佳的“打脸式”演绎,让多少女星自愧不如03-21
- 沽源县气象台发布雷电黄色预警【Ⅲ级/较重】【2023-03-21】03-21
- 全球今头条!中科院系板块3月20日跌0.29%,中科创达领跌,主力资金净流出3.21亿元03-21
- 世界新动态:人力资源管理的主要内容是什么_人力资源管理的主要内容03-20
- 世界视讯!上海艾录(301062):关于公司持股5%以上股东减持股份时间过半的进展公告03-20
- 公司倒闭老板跑路不发工资怎么办03-20
- 焦点热议:什么借款平台百分之百能借到款03-20
- NBA比赛34胜37负的湖人在主场迎战29胜42负的魔术03-20
- 【全球新视野】泌尿系彩超都能检查什么_泌尿系彩超能查出什么03-20
- 10万存定期还是买国债好?国债逆回购有什么购买技巧吗?01-10
- 邮政银行月月升赎回何时到账?月月升理财产品怎么样?01-10
- 手机上医保电子凭证怎么激活?医保断缴多久后不能用?01-10
- 终身寿险是人死了后才领钱吗?年金险和终身寿险区别是什么?01-10
- 买房组合贷款需要满足哪些条件?现在买房可以组合贷款吗?01-10
- 二手房贷款有什么风险?买二手房担保公司有什么风险?01-10
- 公积金离职后不提取会怎样?离职6个月才可以提取公积金吗?01-10
- 帮别人担保被起诉了会拍卖房子吗?丈夫帮人担保被起诉影响妻子吗?01-10
- 新股第一天不封板是什么原因?新股上市第一天没有封板是怎么回事?01-10
- 信用卡大额消费被限制交易怎么办?信用卡受限制能恢复吗?01-10