抢在ChatGPT前发布语言助手!法国实验室展示自带70种情绪AI

OpenAI被超越了,而且还是“栽在”已经公开展示过的语音助手上。

当地时间7月3日周三,法国独立非盈利AI研究实验室Kyutai公开展示了一款语音助理Moshi的实验性原型。Kyutai介绍,Moshi由该实验室的八人研究团队耗时六个月从零开始开发,是全球首款全体大众都可使用的实时生成式语音AI。

Moshi具有多种类似人类的情绪。Kyutai的科学家们表示,Moshi系统能够带着70种情绪和风格讲话。他们现场展示了,Moshi如何就攀登珠穆朗玛峰提供建议,还让Moshi用浓重的法国口音朗诵一首它自己创作的诗歌。

Kyutai宣布,周二晚些时候可在其网站查看Moshi的交互式展示。从周二起,就可以在线免费测试Moshi。Kyutai致力于为AI的开放研究和整个生态系统的发展做出贡献,Moshi模型的代码和权重将很快免费共享,这对于此类技术来说也是前所未有的。Kyutai的一名代表表示,Moshi模型和相关研究将在未来几周内发布,没有透露具体日期。

Kyutai认为,Moshi有潜力彻底改变数字世界中语音的使用方式,并举例称,在表达情感和多种声音之间的互动方面,它的文本转语音功能非常出色。

Kyutai的CEO Patrick Pérez称,Moshi可以“边说话边思考”,还说“我们相信 Moshi 具有巨大的潜力,可以改变我们与机器交流的方式。”

研究者Lucas Beyer在社交媒体发帖评论,Kyutai的Moshi是首个实时音频大语言模型(LLM)。Kyutai的展示种,Moshi基本上没有延迟,甚至还打断了演讲者几次。它实际上有点急于快速回答。而且Moshi是全部开源的。虽然声音质量还有点机械化,但作为初版,它还是表现不错。总体来说很酷。

Beyer指出,展示时,在苹果电脑macbook设备上的模型有一些实时拒绝误报,也许Kyutai对安全调整有点太急切了。然而,这只是证实了展示确实是实时的,甚至可能是自由发挥的,他喜欢这点。

有网友评论称,有趣的是,看到日语单词以赛博朋克的方式融入西方文化。在日语中,Kyutai 的意思是球体,moshi 是电话里的口语问候语,所以这两者结合起来就是“你好球体”。

Moshi被视为ChatGPT的最新挑战者。包括Anthropic、Cohere和谷歌在内,越来越多初创公司和科技巨头推出模型与GPT-4 竞争,尽管一些行业专家担心这项新兴技术带来危险。

Moshi的问世让Kyutai成为抢跑OpenAI推出语音助手的先锋。OpenAI之前打算在机器人聊天工具ChatGPT上提供类似功能,不到两个月前正式向公众展示了基于GPT-4升级版GPT-4o模型的语音助手。

在OpenAI今年5月中展示过程中,语言助手表现得像一个真正的成年人,能听能说能看,还能有情绪变化,最关键是几乎可以即时回应请求。它不仅可以讲睡前故事,能通过外表观察人的情绪变化,还能像一位朋友般安抚人紧张的情绪,甚至还可以像个经验丰富的数学老师般指导解代数方程,让一些观众联想到了2013年电影《她》中的AI虚拟助手。

但一个多月后,OpenAI又宣布因安全顾虑推迟发布上述语音助手。6月25日上周二,OpenAI在社交媒体发帖称,推迟上线ChatGPT语音助手功能是因为,需要确保它能安全有效地处理来自数百万用户的请求,还需要一个月才能达到公司的发布标准。

有网友本周二评论称,Kyutai推出Moshi基本上等于,把OpenAI还没公开发布的客户产品开源了,向Kyutai致敬。

不同于微软150亿美元支持的“美系”资本背景OpenAI,Kyutai致力于研究通用AI,去年11月“出生”起得到合计3亿欧元支持,其中主要来自欧洲实业资本。

Kyutai是法国亿万富翁Xavier Niel去年表示将对AI领域投资2亿欧元的投资对象之一。Niel旗下的电信集团Iliad去年公布,将为Kyutai项目投入1亿欧元。另一位法国亿万富翁、法国航运和物流巨头CMA CGM的CEO Rodolphe Saadé也对Kyutai投资了1亿欧元。前谷歌CEO Eric Schmidt也参与了Kyutai的投资,未披露金额。

Niel本周二表示,Moshi表明,欧洲可以成为AI发展的全球参与者。Kyutai“今天展示的所有产品都是全球一流的,我们很高兴能在欧洲推出这款产品。”

在安全方面,Kyutai的首席科学官 Hervé Jégou介绍,Kyutai将使用索引和水印工具识别和跟踪其 AI 生成的音频。


什么是gpt(人工智能)?

GPT(Generative Pre-trained Transformer)是一种具体的人工智能技术,属于自然语言处理(NLP)领域。 GPT 是一种基于 Transformer 架构的预训练语言模型,通过大量文本数据进行训练,以生成和理解自然语言。 GPT 可以用于各种 NLP 任务,如机器翻译、文本摘要、问答系统等

gpt是什么?

gpt是一名人工智能语言模型,也被称为AI助手。 是由计算机程序编写而成,可以模拟人类的语言交流,为用户提供各种服务和帮助。 可以回答用户的问题、提供信息、执行任务等,帮助用户解决各种问题。

ChatPT是一种基于人工智能技术的聊天机器人,它是由OpenAI公司开发的一种自然语言处理模型。 ChatGPT的全称是“Generative Pre-trained Transformer”,它是一种基于Transformer模型的自然语言处理模型,可以用于生成自然语言文本、回答问题、聊天等多种任务。

ChatGPT是一种预训练模型,它是通过在大规模语料库上进行无监督学习而得到的。 在预训练阶段,ChatGPT可以学习到自然语言的语法、语义和上下文等信息,从而可以生成自然流畅的文本。 在应用阶段,ChatGPT可以通过微调等方式对特定任务进行优化,从而可以用于生成自然语言文本、回答问题、聊天等多种任务。

ChatGPT的优点在于它可以生成自然流畅的文本,可以进行多轮对话,并且可以根据上下文进行理解和回答。 它可以用于多种应用场景,比如智能客服、智能问答、智能助手等。 同时,ChatGPT还可以不断地通过学习和优化来提高自己的性能和效果。

ChatGPT面世具有何意义?

ChatGPT这种人工智能技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。

ChatGPT是目前最为先进的聊天机器人,“更为智能的交互”则是ChatGPT之所以能引起全球广泛关注的主要原因。 比如Open AI为这个模型新增了代码理解和生成能力,极大地拓宽了其应用场景;同时还加入了道德原则,使ChatGPT能够识别恶意信息,识别后拒绝给出有效回答,有效提升用户对话时的互动感。

1956年夏季,“人工智能”这一术语被正式提出,它标志着“人工智能”科学的正式诞生。 此后,IBM公司研发的代号为“深蓝”超级电脑击败了人类的世界国际象棋冠军,更是进一步拓宽了人工智能技术的想象空间。 可以说,这门科学在提出伊始就被人类给予了超越人类智慧的野望。

但是自概念提出至今已有六十余年,除了科幻电影中的各种想象之外,普通民众还没有机会能够直接接触到AI技术,也没有合适的渠道对这一深奥的技术进行了解。 虽说各个内容平台早已经开始使用智能算法技术进行个性化推荐,线上购物平台也在使用人工智能技术提高广告触达率,但这些应用并没有将用户纳入交互之中,在这一过程中,用户仅仅充当着一个被动接受者的角色。

而ChatGPT的推出为用户提供了一个参与到AI技术工作流程中的机会,也提供了一个途径以使得长期对AI应用不甚了解的用户可以切实地体会AI技术的发展。 这在AI的发展历程中具有一定的里程碑意义,意味着AI技术由“幕后”转向了“台前”。

Chat GPT未来可应用场景

1、独立应用:Chat GPT本身强大的自然语言处理能力,可以让当前有点「人工智障」的智能客服,语音工作助手、对话虚拟人有质的飞跃等,其还能高效高质的完成写代码、写小说、写新闻等文本创作类工作。 同时也能辅助搜索,让搜索效率进一步提高。

2、AIGC联合应用:当把Chat GPT的能力和图像识别等技术集合,就能产生无限可能。 例如视频生成网站QuickVid,用户在网站输入提示语、描述清楚想要创建的视频主题,QucikVid 先利用 GPT-3 的生成文本功能生成短视频脚本,再从脚本中自动提取或手动输入的关键字。

基于这些关键字从免费的 Pexels 库中选择背景视频,同时叠加由 DALL-E 2 生成的图像,并调用 Google Cloud 的文本转语音 API 来添加来自 YouTube 免版税音乐库的合成画外音和背景音乐。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/keji312/40245.html
高考记忆 有哪些东西 什么样的学生适合复读 高考后就渐渐消失
暂无