2028年互联网上所有高质量文本数据将被使用完毕

·研究公司Epoch AI预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

·研究人员指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会导致“模型崩溃”(model collapse)。AI大模型训练数据是否短缺这一话题再次成为近期众多媒体关注的热点。

近日,《经济学人》杂志发布题为《AI 公司很快将耗尽大部分互联网数据》(AI firms will soon exhaust most of the internet’s>该篇文章援引研究公司Epoch AI的预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这种现象在业内被称为“数据墙”。如何应对“数据墙”是当下AI公司面临的重大问题之一,可能也是最有可能减缓其训练进展的问题。文章指出,随着互联网上的预训练数据枯竭,后期训练变得更加重要。标签公司如Scale AI和Surge AI每年通过收集后期训练数据赚取数亿美元。

《经济学人》杂志援引Epoch AI图

事实上,业界早有关于“数据枯竭”的声音。澎湃科技注意到,2023年7月初,加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)曾发出警告,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。

但业内也有不同的声音。2024年5月,在接受彭博社科技记者艾米丽·张(Emily Chang)的采访时,著名计算机科学家 、斯坦福大学人工智能实验室联合主任、斯坦福大学教授李飞飞曾明确表示,她并不赞同“我们的人工智能模型正在耗尽用于训练的数据”这一较为悲观的看法。李飞飞认为,这一观点过于狭隘。仅从语言模型的角度来看,当下仍有大量的差异化数据等待挖掘,以构建更为定制化的模型。

当下,为了应对训练数据有限的问题,解决方案之一便是使用合成数据,这些数据是机器创建的,因此是无限的。但合成数据也有合成数据的风险,国际学术期刊《自然》于7月24日发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。由于模型是在被污染的数据上训练出来,最终会误解现实。

研究团队在研究中表明,在大语言模型学习任务中,底层分布的尾部很重要,大规模使用大语言模型在互联网上发布内容,将污染用于训练其后继者的数据收集工作,今后人类与大语言模型交互的真实数据将越来越有价值。不过,研究团队也提到,AI 生成数据并非完全不可取,但一定要对数据进行严格过滤。比如,在每一代模型的训练数据中,保持 10% 或 20% 的原始数据,还可以使用多样化数据,如人类产生的数据,或研究更鲁棒的训练算法。


百度文心一言宣布向全社会开放,同时还有全新重构的 AI 原生应用,哪些信息值得关注? 实际使用体验

关于网络文心一言向全社会开放以及全新重构的AI原生应用,有几个值得关注的信息:

1. 网络文心一言开放:网络文心一言是网络开发的语义理解模型,通过对用户输入进行理解和自动生成文本响应。 这个开放意味着网络将允许广大用户和开发者使用文心一言的功能,从而将语义理解技术应用于更多场景中。

2. 全新重构的AI原生应用:这意味着网络已经对其AI应用进行了全面的改进和升级,以提升用户体验和功能性能。 具体来说,应用程序可能会经历界面设计、功能扩展、性能优化等方面的改进,以更好地满足用户需求。

我说说实际使用的一些体验:

识图回答

刚打开文心一言,第一个吸引到我的功能就是聊天栏上有一个上传图片的图标,我立刻选择了一张照片上传。 之后就会弹出一些功能提示,包括:看图写诗、V50文案、朋友圈配文助手等等。 我选了个配文助手,风格输入了轻松幽默。

好家伙,这一通浮夸的文案把我给震惊了,这配文简直是放飞自我了。 不敢想象如果我把这篇文案发送到朋友圈,身边的人该怎么看我,吓得我只好告诉它请保持:高冷、简洁、少字。 它也读懂了我的难为情,回了我八个字:享受美食、感受美好。 妙哉妙哉!

发现:更多内置回答模板

移动端的发现功能应该说是文心一言最大的亮点,可以说是把AI使用的门槛降低了很多。 之前我把用接口搭建好的网站分享给朋友,最大的问题就是别人不知道能问些什么,该怎么问,而文心一言就很好的解决了这个问题,把很多模型的能力场景化了。

从模态能力来看的话,主要包括文生文、文生图和图生文三种。 先来一个小红书探店文案试试效果。

这个结果整体还是比较惊喜的,可以看得出来文心一言在Prompt工程上还是下了功夫的。 基本满足了小红书探店文案的基本要素:格式、表情、标签,对关键词提取分析的能力还算可以。 不过同时也尝试了下用这个Prompt去写其他类型的小红书文案,比如野餐,出来的效果就是完全没有效果。 说明这个Prompt是专门针对探店这个场景优化过的,不具备能力的迁移。 整体来讲Prompt的质量还不错,AI回答能力还算可以。

AI绘画

接下来测试一下AI绘画的能力,先来两个之前被吐槽过很久的绘画词语:车水马龙和红烧狮子头。 之前据说画出来是car、water、horse、dragon,以及真正的狮子头,看看现在能力长进了没有。

令人惊讶的是,居然两个都画对了,不知道是翻译功能升级了还是绘画能力升级了,还是说针对性优化了,总之现在的槽点是少了很多(怎么感觉乐趣也少了哈哈)。

从绘画的理解能力和绘图出来的效果,应该说能打个及格分了现在,也不会期望它能画的多好,如果有什么文章需要配图的话,用这个来画也算是一个简单易上手的选择。 但是,值得吐槽的是,每一张画作的右下角都会标注:AI作画,这个用起来有点难受,还得要自己P掉。

另外画作是不支持通过连续对话进行调整的,只能输入完整描述进行重新绘画。

代码能力

最后再来对比下文心一言的代码能力,这个属于是AI能力的重要体现,也是能作为生产力的重要一部分。

这里提了一个编写合并Excel文件的python代码需求,文心一言整体写得还算比较简洁优雅,回答质量和ChatGPT并没有太大的差距,属于还算是可以用的水平。(这里就不和GPT4进行比较了,肯定还是有些差距的)

总结

在我打算写这篇文章之前,我看过了很多关于文心一言使用的文章,其中不乏很多啼笑皆非的故事。 本以为使用下来,应该会有满满的槽点,但是并没有。 文心一言的能力固然和国外的大模型还存在着一些差距,但是这个移动端的App整体来讲做得还是比较有诚意的,整体使用非常顺滑,回答非常快速,拥有足够多高质量的Prompt模板,在问答之间会有很多贴心的提示,整体都带来了不错的体验。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/kuaibao/5284.html
免疫治疗及航天概念股多数走高 三大股指小幅高开
国际锐评丨所谓 延伸威慑 把日本推向更远的歧途