开源AI终于有了“官方”定义。
长期致力于定义和“管理”所有开源事务的开放源代码倡议(OSI),周一发布了其开源AI定义(OSAID)1.0版。
OSAID还列出了开发者使用开源AI时应享有的使用权,例如可以为任何目的使用和修改模型,而无需获得他人许可。
OSI执行副总裁Stefano Maffulli表示,制定开源AI官方定义主要目的是,让政策制定者和AI开发者达成一致。
OSI并不强制施压开发者遵守OSAID定义,但打算对那些不符合该定义却被描述为“开源”的模型进行标记。“我们希望当有人试图滥用这个术语时,AI社区会说,‘我们不承认这是开源’,并加以纠正。”Maffulli说道。
Meta:我反对
目前,许多初创企业和大型科技公司,尤其是Meta,称其AI模型发布策略为“开源”,但很少符合OSAID的标准。研究人员发现,许多“开源”模型实际上只是名义上开源,但实际训练模型所需的数据是保密的,而且运行这些模型所需要的计算能力超出了许多开发者的能力范围。
例如,Meta要求月活跃用户超过7亿的平台获得特殊许可才能使用其Llama模型。Maffulli公开批评Meta将其模型称为“开源”的做法。而谷歌和微软在与OSI讨论后,已经同意不再将不完全开放的模型称为“开源”,但Meta并未这么做。
此外,长期宣传其模型为“开源”的Stability AI要求年收入超过100万美元的企业获得企业许可,而法国AI新创公司Mistral的许可证则禁止将某些模型和输出用于商业用途。
Meta自然不认同这一评估。尽管该公司参与了定义的起草过程,但对OSAID的措辞表示异议。Meta发言人称,Llama的许可条款和随附的可接受使用政策对有害应用提供了防护。Meta还表示,在加州AI相关法规正在演变之际,该公司对共享模型细节的做法是“谨慎的”。
分析认为,Meta不愿公开训练数据,很可能与其自身及大多数AI模型的开发方式有关。
AI公司从社交媒体和网站上收集大量图像、音频和视频等数据,并以这些“公开可用数据”训练模型。在如今竞争激烈的市场中,数据集的收集和优化方法被视为竞争优势,公司常以此为由拒绝披露。
但训练数据的细节也可能让开发者面临法律风险。作者和出版商声称,Meta使用了受版权保护的书籍进行训练。艺术家们也对Stability AI提起诉讼,指控其使用其作品而未给予认可,将其行为比作盗窃。
因此,OSAID的开源AI定义,可能会给那些试图顺利解决诉讼的公司带来问题,特别是如果原告和法官认为该定义足够合理而在法庭上引用。
Llama 3.1磁力链提前泄露!开源模型王座一夜易主,GPT-4o被超越
开源模型界迎来重大变革,Llama 3.1磁力链的405B版本提前泄露,预示着模型王座可能易主。 GPT-4o的领先地位受到挑战。 Meta的最新升级包括8B、70B和405B模型,所有版本的上下文长度提升至128K,标志着Llama 3.1的正式发布。 405B模型的磁力链数据显示其大小为763.48GiB,性能超越预期。 8B小模型表现出色,而70B模型甚至能与GPT-4o在多项基准测试中抗衡。 开发者们的反应热烈,Aidan McLau和Matt Schumer等CEO表示,如果405B的基准测试结果真实,它将打破多项记录,成为最优秀、可调用且价格亲民的模型。 HyperWriteAI的预测是,Llama 3.1将成为开源模型的最高性能代表,性价比极高,明天的发布将引发广泛关注。 尽管扎克伯格的暗示和网友的期待,新模型的发布时间尚未确定,但泄露的Model Card显示Llama 3.1将在23日发布,提供定制商业和社区许可。 这款模型支持多语言,包旦慧烂括英语和7种其他语言,旨在优化多语言对话并集成第三方工具。 基准测模漏试显示,Llama 3.1 405B在多项任务上刷新纪碧卜录,特别是在MMLU和SQuAD等细分领域。 微调后的模型在推理、代码等任务上表现出色,甚至在数学基准上超越GPT-4o。 然而,安全风险评估也在进行中,包括对网络攻击的能力评估。 随着Llama 3.1的泄露和即将发布,开源与闭源模型之间的性能差距正在逐渐缩小,引发业界热议。 对普通用户而言,820GB的模型大小可能是个挑战,但对技术爱好者而言,这将是一个见证历史时刻的激动时刻。
Llama 2:新一代开源LLM,可用于研究和商业用途
大型语言模型(LLMs)在复杂推理任务中展现出色能力,包括编程和创意写作等领域。 LLMs通过直观的聊天界面与人类交互,迅速在公众中普及。 然而,由于训练LLMs所需计算资源巨大,仅少数公司具备开发能力知尺。 已有的开源预训练LLMs,如BLOOM、LLaMa-1和Falcon,虽性能接近闭源产品,但无法完全替代像ChatGPT、BARD和Claude等经过微调以满足人类偏好的闭源模型。 为解决这一问题,Meta AI发布了Llama 2和Llama 2-Chat,这两个模型规模达到700亿参数,预训练数据量增加40%,上下文长度翻倍,并采用分组查询注意力快速推理。 Llama 2开源,适用于研究和商业用途,预训练模型训练了2万亿个标记,微调模型接受了100万+人类注释训练。 在基准测试中,Llama 2-Chat表现出色,优于大多数开源模型,并接近某些闭源模型。 安全性通过安全数据注释、调整和红队测试保障。 Llama 2被用于生成逼真对话和语言翻译,是强大的开源LLM选择。 微调后的Llama 2-Chat经过人类反馈强化学习优化,适用于对话应用,表现出色。 相较于GPT-4,Llama 2在有用性和安全性方面具有竞争力。 Meta AI与Hugging Face合作,将Llama 2集成至平台,提供访问。 开发者可在Hub上获取12个开放访问模型,包括基本模型和微调模型。 Llama 2通过Hugging Face生态系统易于使用,提搭坦高供加载、微调和应用的指南,包括使用PEFT进行微调。 Llama 2官网、论文、GitHub和Hugging Face页信郑面提供了详细资源。 Llama 2作为强大的开源LLM,为人工智能应用开辟新可能。
智通新风向 | Llama 3中文版开源大模型来了!
Llama 3虽然表现优异,但在中文应用上存在不足。 Meta推出的新一代开源大语言模型Llama 3在AI圈引起了广泛关注。 在测试基准中,Llama 3的表现与市面上的闭源模型不相上下,甚至在一些英文单项测试中与GPT-4并列第一。 然而,Llama 3在中文应用上表现不佳。 其训练数据中,只有5%为其他语言,中文数据更少。 测试显示,Llama 3虽然能理解中文问题,但输出内容通常是英文,使用中文回答的情况不稳定,有时会出现中英文结合的现象。 为了解决这一问题,智通云联推出了Llama 3中文版开源大模型。 智通云联在知识工程建设中积累了大量经过校验的语料,并精选了条语料对Llama 3模型进行精调,成功获得了中文版的Llama 3模型,并将其开源供大家使用。 该模型在通用磨汪型问答、油气专业、程序编写和敏感问题等方面表现出色。 模型下载地址一/ztyl-tec...模型下载地址二/models/zt...智通云联计划加大语料,训练油气行业大模型,并重点提升模型的阅读理解能力。 在训练过程中,智通云联使用了8块H800(80g)进行3轮训练,训练工具为llama-factory,数据为条多轮问答数据,训练参数包括stage、sftmax_len、finetuning_type、learning_rate等。 智通云联深耕石油石化行业多年,并拥有丰富的分层仔李多阶知识图谱自动构建技术,已建成石油石化行业亿级知识图谱。 针对大模型落地的挑战,智念游迟通云联提出了解决思路:知识图谱+大语言模型+智能体。 未来,智通云联将不断迭代大模型的训练与创新,提高微调数据质量,增加逻辑推理能力,并实现AI技术向商业价值的转化。