Yandex推出开源大语言模型训练工具

来源:东方网
2024-06-14 15:39:28
分享

6月14日,Yandex宣布推出了开源大语言模型训练工具YaFSDP,可缩短大型语言模型的训练时间,节省高达20%的图形处理器资源。

image.png

据Yandex方面介绍,在涉及一个具有700亿参数的模型的预训练场景中,使用YaFSDP可以节省大约150个图形处理器的资源,相当于每月节省大约360万至1080万元人民币(取决于虚拟图形处理器提供商或平台)。

Yandex方面还称,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。

具体来看,YaFSDP在Llama 2 和 Llama 3 上显示的最终加速结果表明,其训练速度有了显著提高,在 Llama 2 70B和Llama 3 70B上分别达到21%和26%。当与Yandex的其他性能增强解决方案结合使用时,该方法可将某些模型的训练过程加速高达45%。

“YaFSDP 在13至700亿个参数的模型上显示了令人印象深刻的结果,在30至700亿个参数范围内的表现尤为强劲,”Yandex公司高级开发人员、YaFSDP开发团队成员米哈伊尔·赫鲁晓夫(Mikhail Khruschev)表示,“目前,YaFSDP最适合基于LLaMA架构的广泛使用的开源模型。”

米哈伊尔·赫鲁晓夫表示:“目前,我们正在积极试验各种模型架构和参数大小,以扩展YaFSDP的多功能性。我们很高兴能与全球机器学习社区分享我们在大型语言模型方面的成果,为提高全球研究人员和开发人员的可访问性和效率做出贡献。”

目前,用户可以在Github上免费获取YaFSDP并使用它来提高大语言模型训练效率。

分享