Mistral 3.1！1230亿参数性能直逼GPT AI新旗舰模型挑战Llama

作者： 2024年07月26日科技浏览

智东西（公众号： 编译孟强 编辑云鹏

智东西7月25日消息，继Meta昨日推出开源Llama3.1模型之后，法国初创AI公司Mistral AI也加入了竞争行列，推出新一代旗舰模型Mistral Large 2。

该模型拥有1230亿参数，128k上下文窗口，可以在单个节点上以高吞吐量运行，支持包括中文在内的数10种语言、80多种编程语言，在多项基准测试中接近GPT-4o和Claude 3.5 Sonnet，预训练版本的多任务语言理解准确率高达84%，击败Llama 3.1 70B。

除了性能上的提升，Mistral AI还投入大量成本增强该模型的推理能力，训练的重点放在减少模型产生“幻觉”的概率，通过微调模型，使其在响应时更加谨慎和敏锐，提升模型输出的精准度和可信度。

一、多任务语言理解超越Llama 3.1 70B

Mistral Large 2拥有128k的上下文窗口，在代码生成、数学和推理方面比Mistral Large功能更强大，并提供更强大的多语言支持和高级函数调用功能，支持包括中文在内的10余种语言及Python、Java在内的80多种编码语言。

该模型拥有1230亿参数，与刚发布的Llama 3.1 405B的4050亿参数相比，参数数量偏少，但性能却在能接近后者，甚至在多项基准测试中表现接近GPT4-o和Claude 3.5 Sonnet。

▲Mistral Large 2与Llama 3.1 70B和Llama 3.1 405B在MMLU测试中的准确率对比

在MMLU（Massive Multi-task Language Understanding）测试中，Mistral Large 2的准确率击败Llama 3.1 70B。MMLU为大规模多任务语言理解测试，是一项综合评估，涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等方面。在此测试中，Mistral Large 2准确率高达84%，意味着该模型在多种任务和语言环境中都有出色的性能和广泛适应性。

二、训练过程中着重减少“幻觉”

Mistral AI表示，团队在训练过程中花费大量成本来增强Mistral Large 2的代码生成和推理能力。

在使用海量代码进行训练后，该模型的代码生成能力远超其前身Mistral Large，并且接近GPT-4o、Claude3 Opus和Llama 3 405B。

▲代码生成基准测试中Mistral Large 2与其他模型的性能和准确率对比

▲Mistral Large 2与其他模型在GSM8K（8-shot）和MATH（0-shot，no CoT）生成基准测试中的性能和准确率对比

在推理能力训练方面，Mistral Large 2的训练重点之一还在于尽量降低模型产生“幻觉”的概率。“幻觉”是AI系统，尤其是生成模型（如大语言模型）在生成内容时出现的虚假、错误或不准确的信息。经过微调后，Mistral Large 2在响应时更加谨慎和敏锐，确保提供的信息是可靠、准确的。

Mistral AI称，经过训练后，该模型能在自己无法找到解决方案，或没有足够自信能提供准确答案时，会承认无法回答该问题，而不是继续编造答案。

此外，Mistral AI还大幅改进了Mistral Large 2的指令遵循和对话能力。该模型在遵循精确指令和处理长时间多轮对话方面表现尤为出色。

▲Mistral Large 2与其他模型在通用对齐基准测试中的性能对比

同时，Mistral Large 2在生成答案时尽量保持简洁明了，以加快交互速度，增加该模型的成本效益。

▲Mistral Large 2与其他模型生成回答的平均长度对比

目前，Mistral Large 2可通过Mistral平台（la Plateforme）访问，在Mistral研究许可下，该模型可供非商业使用。商业应用需要Mistral的商业许可。此外，用户可以在le Chat上测试该模型，亲身体验其功能。

结语：在高性能和成本效益间找到平衡

AI模型研发正以前所未有的速度推进，全球科技巨头以及新兴初创公司之间竞争激烈，模型研发方向已不是一味地追求神经网络的规模，Mistral Large 2的发布预示着一个潜在的趋势，即AI模型要在高性能和成本效益间找到平衡。

Mistral AI表示，Mistral Large 2是其在成本效益、生成速度和性能上的新尝试。在参数量1230亿的情况下，性能能接近4050亿的Llama 3.1405B，同时能快速提供简洁、准确的回答。几天前，三个小模型（Mistral Nemo、GPT-4omini、SmolLM）的陆续发布也表示，并不是参数量越大就越好。将来，我们期待更多更具成本效益的模型出现，提高AI生成模型生态的多元化。

2023 年十篇值得关注的人工智能研究论文

2023年人工智能研究亮点：探索前沿突破与微调技术

在2023年的科研版图上，人工智能领域涌现了一系列令人瞩目的论文，威斯康星大学麦迪逊分校的Sebastian Raschka筛选出的十篇论文，为我们揭示了未来AI技术的前沿趋势。其中，大型语言模型（LLMs）的研究尤为引人关注，如Pythia和Llama 2的相继登场。

Pythia：深度解析与洞察Pythia论文深入剖析了大规模训练的复杂性，揭示了重复数据预训练对模型性能的影响微乎其微，而训练顺序对记忆的影响并未显著。 Sebastian Raschka对Pythia的透明度和详细报告赞誉有加，让我们更深入理解了训练背后的逻辑和优化策略。

Llama 2：商业应用与人性化微调Llama 2作为Meta的后续之作，以70B到7B参数的迭代升级，不仅开放源码，还允许商业应用。通过强化学习人类反馈（RLHF-v5）进行微调，Llama 2在遵循人类行为的同时，展现了显著的无害性和有益性提升。尽管面临Bard、Q和Grok等竞争，Llama 2的独特开源努力仍备受瞩目。

QLoRA：量化与效率的平衡QLoRA作为一种量化微调技术，降低了LLMs对内存的需求，如LoRA一样，但可能牺牲了精度。 65B的Llama模型通过QLoRA适应48GB GPU，性能接近市场领先者ChatGPT，表明技术简化对于大规模部署的重要性。

金融领域的独特视角：BloombergGPT非突破性但实用的BloombergGPT，以其在金融领域的预训练案例展示，提供了训练过程的详尽解读，反映出企业对保密性策略的考量，预示着特定领域微调研究的未来发展方向。

尽管LLM微调依然是研究的核心，QLoRA等技术正在简化这个过程。 BloombergGPT的案例研究，结合了预训练和领域特定微调，为我们揭示了研究的广阔领域。

挑战与革新：DPO与Mistral 7BDPO直接偏好优化论文简化了微调过程，Zephyr-7B模型基于Mistral-7B，表现出超越大模型的性能，预示着更高效的人工智能微调方法的崛起。 Mistral 7B的简洁设计与高效性，影响了Zephyr和MoE模型的发展，展示了小型LLMs的创新趋势。

Mistral 7B在基准测试中的卓越表现，特别是通过8位专家结构的MoE设计，预示了MoE在模型提升中的潜力。 OpenCompass的结果展示了Mixtral的优势，而Mixtral-8x7B-Instruct模型的发布进一步推动了LLM领域的发展。

小型模型的微调策略也值得一提，如Orca 2，它通过高质量训练和数据选择，实现了小型LLM在推理能力上的显著提升，挑战了传统的合成数据问题。

图像处理领域同样活跃，ConvNets和Vision Transformers的竞争以及Meta的Segment Anything任务，展示了预训练模型在数据丰富的环境下的性能较量。而Meta的Emu Video研究则预示了文本到视频生成技术的革新，以Latent Diffusion Models推动了高分辨率视频的合成。

总结来说，2023年的AI研究论文集合了创新的技术、商业应用和对人工智能伦理的深入探索，展示了这个领域持续的活力和未来的发展方向。无论是LLMs的微调优化，还是视觉和视频生成技术的提升，都值得我们密切关注。

深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭杀手锏

AI领域的璀璨新星：Mistral AI的MoE模型强势崛起

在科技界，法国初创公司Mistral AI凭借其MoE（Mixture of Experts）模型引发了一场风暴。一款8x7B的小型模型，以惊人的表现击败了Llama 2的70B大模型，被赞誉为初创企业的科技英雄。没有繁冗的发布会，Mistral-MoE的开源特性直接吸引了全球开发者的眼球。

从6月份的种子轮融资开始，短短几个月内，Mistral的7B模型在9月发布，再到12月8x7B的类GPT-4版本开源，公司估值犹如火箭般窜升至20亿美元，增长速度创下了行业纪录。这款模型的8个7B专家层和门控网络设计，巧妙地将任务分解给各自擅长的专家处理，从而实现了整体性能的显著提升。尽管规模小于GPT-4，但Mistral 8x7B的性能表现却毫不逊色，引发了业界对于更大规模模型可能性的猜测。

然而，质疑声也不绝于耳。 Sebastian Raschka建议加入Zephyr 7B的对比测试，来全面评估Mistral的微调和MoE技术的实用性。有人指出，某些指标在聊天微调中的意义可能有限，但强调这是检测模型健壮性的重要手段。 Raschka进一步强调对话基准测试对于指令微调模型的重要性，并对Mistral的MoE是否真正超越Llama 2 7B提出了疑问。

关于Mistral 8x7B，有人担忧可能存在预训练数据集污染的问题。在大模型的较量中，Mistral AI以开源技术挑战OpenAI的ChatGPT，但OpenAI对开源带来的潜在风险保持警惕。 Meta巴黎AI实验室的创始人Timothée Lacroix、Guillaume Lample和Arthur Mensch，他们凭借开源精神创立了Mistral AI，目标是研发出高效且成本效益高的通用语言模型，以超越ChatGPT和Bard。

在AI领域的竞争中，开源和免费提供被认为是制胜的关键。 Mistral AI被视为法国科技界挑战科技巨头的一个重要机会，正如Perplexity AI获得7000万美元融资时所强调的，开放源代码不仅能够推动技术进步，也能确保AI的安全性。 Mistral首席执行官Mensch透露，公司有望在年底前实现盈利，并开放平台供第三方开发者和企业使用，这无疑将推动AI技术的共享与革新。

尽管竞争激烈，Mistral AI的MoE模型以其独特的技术实力和开放姿态，正在书写AI领域的崭新篇章。让我们拭目以待，看它如何在科技的舞台上绽放更璀璨的光芒。

老黄祭出全新RTX 500 GPU，AIGC性能狂飙14倍！AI应用的门槛彻底被打下来了

在科技的浪潮中，英伟达（NVIDIA）再次引领风骚，祭出了一款全新的RTX 500 GPU系列，即RTX 500 Ada和RTX 1000 Ada，它们的发布犹如一颗重磅炸弹，彻底颠覆了AI应用的入门门槛，让性能狂飙14倍，展现出前所未有的效率提升。

这款GPU在MWC 2024的聚光灯下惊艳亮相，旨在让AI的力量触手可及，不再局限于专业工作站。在轻薄本的舞台上，RTX 500和RTX 1000凭借其卓越的性能表现，搭载了第三代RT和Tensor核心，CUDA能力显著增强，内存规格也相当诱人——RTX 500拥有4GB的内存，而RTX 1000则升级到了6GB，足以满足日常和专业级别的需求。 DLSS 3和高效编码器的加入，更是如虎添翼，提升了图形处理和AI运算的效率。

与传统的CPU相比，这些新GPU在AI任务上展现出了前所未有的优势，性能提升明显，使得AI技术不再是专业人员的专利，普通人也能享受到技术带来的便利。面对市场的激烈竞争，英伟达的这一举动无疑将促使硬件厂商如AMD紧随其后，纷纷推出自家的AI产品，AI领域的竞争日益白热化。

AI Engine在新GPU中集成，内存和数据流的高效整合使得AI和信号任务的处理更加轻松，功耗更低。 Intel的Meteor Lake SoC更是集成了CPU、NPU和GPU的多功能特性，为不同类型的AI应用提供了全方位支持。这款SoC配备三个AI引擎和Arc Xe-LPG显卡，NPU持续负责重负荷的AI任务，显著提高能效，而CPU和特定内核则协同工作，有效降低AI工作的延迟。

微软也积极跟进，Windows 11系统支持Core Ultra NPU，与英特尔和AMD在AI硬件市场的竞争中携手共进。 NVIDIA推出的Chat with RTX技术，允许用户在本地运行大型模型，只需消费级的Nvidia GPU和内存即可，目前支持Mistral 7B和Llama2 13B，未来有望扩展到更大的模型，进一步释放AI的潜力。

总而言之，英伟达的RTX 500 GPU系列无疑为AI技术的普及打开了新的篇章，不仅提升了性能，还降低了技术门槛，预示着AI技术的广泛应用即将成为现实，未来科技的舞台将更加精彩纷呈。