3.1能扭转Meta的局面吗 Llama

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国

7月24日消息,Meta(原Facebook)宣布推出开源模型Llama 3.1,包括三个不同规模的版本:405B、70B和8B。其中, Llama 3.1 405B被认为是最强大的开源模型,在多项基准测试中超越了GPT-4o和Anthropic的Claude 3.5 Sonnet。

Meta首席执行官马克·扎克伯格预测,由Llama3支持的Meta AI(Meta 的人工智能助手)使用量将在未来几个月内超过ChatGPT。

在Meta针对AI模型的主页文档介绍中,重点展示了 数据分析、多语言代理、复杂推理和编码助手 几个功能。

在模型评估上,Meta根据涵盖多种语言和大量人工评估的 150 多个基准数据集进行了测量。 数据显示,Llama 3.1 405B 在常识、代码、数学、推理、工具使用和多语言翻译方面的最先进能力方面可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等顶级 AI 模型相媲美。

数据如下:

不仅如此, Meta还让Llama 3.1 405B参与了人工评估,比较看来,Llama 3.1 405B的总体表现优于GPT-4o和Claude 3.5 Sonnet。

除“最强大模型”Llama 3.1 405B 外, 最新推出的Llama 3.1 8B 和 70B 模型的升级版本,宣称能够支持相同的128K Tokens上下文窗口、多语言、改进的推理和最先进的工具使用 ,还支持高级应用,例如长篇文本摘要、多语言对话代理和编码助手, 因而在评估中也有不俗的成绩。

跑分如下:

Meta在公开文档中介绍,Llama 3.1将上下文长度扩展到 128K,增加了对八种语言的支持。其中, Llama 3.1 405B在基于15万亿个Tokens、超16000个H100 GPU上进行训练,这是Meta有史以来第一个以这种规模进行训练的Llama模型。

这是一笔不小的投资。

H100 GPU的建议零售价并未公开,由于GPU的价格会随着市场情况、供应商、购买渠道、促销活动、地区差异等因素变化,很难给出一个确切的购买价格。但我们粗略估算一下, 假设每个H100 GPU的平均价格为10000美元,那么购买16000个H100 GPU的总成本大约为160,000,000美元,即1.6亿美元。

AI 市场的投资狂热长久以来广为诟病,主要针对的是人工智能的变现能力。盖茨质疑过,认为AI 市场的狂热程度远超互联网泡沫。红杉资本合伙人在去年和今年分别发布了《人工智能的2000亿美元问题》和《人工智能的 6000 亿美元问题》,扎克伯格也面临着这个问题。

他也承认,对AI的炒作可能导致过多的投资。扎克伯格在一档播客中指出:为了确保Meta在AI领域保持领先地位,公司已经花费数十亿美元购买英伟达的GPU,以开发和训练先进的AI模型。 但落后的后果是,你在未来10到15年内,都会在最重要的技术上处于不利地位。

无独有偶,在周二谷歌的财报电话会议上,谷歌CEO桑达尔·皮查伊也被问及,谷歌每季度120亿美元的AI投资何时能见效。对此他承认,人工智能产品需要时间才能成熟并变得更加有用。 AI成本高,但投资不足的风险更大。

谷歌在AI基础设施上投资也主要包括购买英伟达的GPU。不过,“即使AI热潮放缓,公司购买的数据中心和计算机芯片也可以用于其他用途。”桑达尔说, “对我们来说,投资不足的风险远远大于投资过度的风险。”


迄今为止最大、性能最好的AI模型——CodeLlama70B

Meta最近推出了一款革命性的AI模型——Code Llama 70B,它被赞誉为当前规模最大、性能最为卓越的编程辅助工具。 这款人工智能的强大之处在于它的代码生成能力,它以Llama 2技术为基础,能够根据用户的指令自动生成高质量的代码字符串,甚至能辅助进行代码调试,极大地提升了编程效率。 Code Llama 70B的适用性广泛,已经与三个版本的编程软件实现了无缝集成,无论是初学者还是经验丰富的开发者都能从中受益。 令人惊喜的是,这款强大的模型对用户是完全免费开放的,这意味着任何人都可以无门槛地利用它的优势来提升编程技能。 总的来说,Code Llama 70B的出现标志着人工智能在编程领域的又一重大突破,为程序员们提供了强大且易于使用的辅助工具,让编程工作更加高效和精准。 无论你是寻找代码灵感,还是需要快速解决问题,Code Llama 70B都是一个值得尝试的利器。

Llama2技术细节&开源影响

MetaAI的Llama2技术揭秘与开源影响</

MetaAI最近推出了备受瞩目的Llama2模型系列,包括预训练模型Llama2-Chat,提供三种不同规模:7B、13B和70B。 与众不同的是,MetaAI注重的是数据质量而非数量,模型结构采用了Transformer架构,并融入了GQA和丰富的语料库。 值得注意的是,尽管预训练阶段的损失未完全收敛,但Llama2在实际效果上却超越了封闭源版本,显示出强大的性能潜力。

SFT(Selective Fine-Tuning)阶段的核心理念在于高质量数据的利用,它强调少量高质量数据胜过大量低质量数据。 微调阶段采用2e-5的学习率,配合余弦衰减策略,特别关注模型生成回复的实用性和安全性。 为了提升对话质量,MetaAI采用了两个独立的奖励模型进行训练,分别优化模型的有用性和安全性,每个模型的训练参数设置各异,结果表明奖励模型在处理优质数据时效果显著,且模型规模和数据量对其性能影响深远。

为了进一步优化模型,MetaAI通过迭代Fine-Tuning,逐步收集了更多符合人类偏好的数据,从而诞生了RLHF模型版本(v1-v5)。 在训练策略上,他们采用了PPO算法,辅以拒绝采样微调,并结合RLHF-v4技术。 模型训练过程中,强调有用性和安全性奖励,使用AdamW优化器和精心设置的PPO参数。 为了确保对话一致性,他们巧妙地运用了Ghost Attention技术。 对于Llama2的推理,MetaAI推荐使用揽睿星舟平台,新用户注册可享受优惠。 目前,Llama2的版本从7B到70B不等,34B版本暂时未对外开放,国内开源领域主要集中在6B至13B规模,而34B的需求正在逐渐升温。

MetaAI的开源举措对中小型企业无疑带来了福音,他们支持MetaAI沿袭OpenAI的开放路线。 然而,值得注意的是,本文并未涉及转发、点赞和关注等社交互动,而是聚焦于技术本身。 让我们一同探索生命不止,学习不停的理念,回顾过往,刘聪NLP在大模型系列中留下了深刻的足迹,包括评估LLMs、流水线并行技术、多模态模型VisualGLM-6B以及对时代动态的洞察,如微调经验、ChatGPT观察等。 AACL2022年的成果,如DCSR和NoisyTune,以及Prompt在命名实体识别中的应用,展示了刘聪NLP在领域的专业深度。

MediaTek如何通过MetaLlama 2模型推动终端设备的AI应用开发和体验提升?

MediaTek利用Meta的MetaLlama 2大语言模型,构建终端侧AI计算生态

MediaTek宣布,通过Meta最新开源的Llama2大语言模型,结合其先进的AI处理器和完整的开发平台,已经在智能手机、物联网、汽车、智能家居等领域构建了一个完整的终端AI计算生态系统。 这一举措旨在加速AI应用的开发,为终端用户提供更安全、可靠和个性化的体验,特别是在搭载新一代天玑旗舰移动芯片的设备上,用户将能够体验由Llama2模型驱动的生成式AI应用,这些应用将带来突破性的创新体验。

徐敬全博士,MediaTek资深副总经理及无线通信事业部总经理,强调生成式AI在数字化转型中的关键地位,MediaTek的目标是通过Meta的伙伴关系,为开发者和用户提供强大的硬件与软件整体解决方案,提升终端设备的功能和使用体验。 特别地,MetaLlama2的本地化运行允许终端设备直接运行生成式AI应用,显著增强了用户体验,包括无缝操作、用户信息安全、低延迟和离线能力,降低了运营成本。

为了最大化生成式AI的潜力,设备制造商需采用高能效的AI处理器,如MediaTek的5G智能手机SoC,已经成功支持AI降噪、超级分辨率和运动补偿等应用。 MediaTek计划在年底推出新一代旗舰芯片,特别优化的软件栈配合升级版AI处理器,将针对Transformer模型进行加速,进一步减少内存读写和带宽消耗,从而强化生成式AI的性能,推动终端设备上的AI应用快速落地和创新。

通过这些举措,MediaTek不仅推动了AI技术在终端设备的广泛应用,也为开发者和用户提供了一个强大且易于开发的平台,开启了终端设备生成式AI应用的新纪元。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/keji312/3249.html
士兵小子领衔 确认将拍摄前传剧集 黑袍纠察队
助教与高准翼出席赛前发布会 保平争胜 山东泰山做好苦战准备!