Meta发布405B参数模型:Llama 3.1 405B

Meta最近发布了迄今为止最先进的AI语言模型——Llama 3.1 405B。该模型拥有4050亿参数,其功能足以与领先的专有模型相媲美甚至超越。这一发布标志着开源AI发展中的一个重要里程碑,Meta声称其在多项基准测试中的表现可与OpenAI和Anthropic的模型相媲美,甚至超越。

Meta Logo

Llama 3.1 405B概述

image 123

作为Meta迄今为止最雄心勃勃的AI项目,Llama 3.1 405B模型在开源语言模型能力方面迈出了重要一步。这个庞大的模型在超过15万亿个token上进行训练,使用了16,000个NVIDIA H100 GPU,其上下文窗口达到了128K token,是前代模型的16倍。该模型旨在与专有模型竞争,在多语言支持方面表现出色,支持包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语在内的八种语言。此次发布还包括8B和70B参数模型的更新版本,这些版本都具有增强的推理能力和扩展的多语言支持。

先进功能和规格

Llama 3.1 405B Human Evaluation

Llama 3.1 405B模型具有最先进的功能,在常识知识、长文本生成、多语言翻译、编码、数学和高级推理方面表现出色。与前代模型相比,它在工具使用和上下文理解方面表现出更好的性能。基准测试显示,Llama 3.1 405B在多个领域(如GSM8K和Hellaswag测试)中优于GPT-4o,而在人类评估(HumanEval)和MMLU社会科学测试中略有逊色。这些进步使该模型成为合成数据生成和模型蒸馏的强大工具,为AI研究和开发开辟了新的途径。

训练与可用性

Llama 3.1 405B

训练这个庞大的405B参数模型需要巨大的计算资源,使用了超过16,000个NVIDIA H100 GPU来处理超过15万亿个token。该模型及其较小的8B和70B变体现已可在Hugging Face上下载,并通过AWS、Azure和Google Cloud等云合作伙伴获取。开发人员还可以通过Meta的AI聊天机器人或直接访问这些平台来实验这些模型。

许可和开源争论

image 120

尽管Meta声称Llama 3.1 405B是“开源”的,但其许可条款在AI社区引发了争议。开源计划(Open Source Initiative, OSI)执行董事Stefano Maffulli指出,该模型的许可证仍包含限制,且在训练数据集和指令方面缺乏透明度,可能对开发人员使用构成风险。行业分析师Stephen O’Grady指出,该许可证禁止某些大型公司使用,这与真正的开源原则相矛盾。尽管存在这些担忧,Meta CEO马克·扎克伯格强调了开源AI开发的重要性,认为这是AI创新和竞争的未来之路。

结语

Llama 3.1 405B的发布无疑是AI领域的一大进步,特别是在开源社区中。这一模型的强大功能和广泛应用前景,将为研究人员和开发人员提供更多的创新机会。然而,其许可条款和真正的开源性质仍需进一步讨论和澄清。无论如何,Llama 3.1 405B的出现,标志着AI技术发展的新篇章,也为未来的AI研究和开发指明了方向。

滚动至顶部