在科幻电影《超能陆战队》中,“大白”(Baymax)作为一个友伴式疗愈机器人,展现了高度的适应性和情感理解能力。他不仅能够根据患者的身体状况提供个性化的治疗方案,还能通过识别患者的情感状态和身份调整语气和行为,给予人类足够情感支持。
图 1:受到观众喜爱的疗愈机器人——“大白”
“大白”代表了人类对未来AI的完美设想:智能、高效且富有同理心。这样的“梦中情 AI”究竟离我们有多远?7 月 31 日,SoundAI 声智 AI 媒体沟通会在声学未来馆举办,答案似乎正在变得更加清晰。
本次活动以“大模型·新交互”为主题,声智科技副总裁黄赟贺公布了AzeroGPT 的算法技术升级成果,并发布了两款新品——AI 交互新品“千面智语”和AI 硬件新品“声智珍珠耳夹式耳机”。
图 2: “大模型·新交互”声智科技 AI 媒体沟通会
中国人自己的GPT-4o,给 GPT 加上“耳朵”
目前的智能体虽然已经能够理解复杂的指令,能通过文字识别基本的情绪,并能以文字的形式进行自然对话,或者用合成语音进行播报,但对人类复杂情感的捕捉仍不够精准,看起来不够“智能”。
声智科技在此次媒体沟通会上展示了AzeroGPT搭载的语音模型的算法升级,在与AI进行交互时,它就像装上了“耳朵”一样,能迅速、准确地“听懂”用户的意图和需求,并且以语音对话的方式,进行更快地响应,还能够通过声音传递出不同的情绪和情感。对标 GPT-4o,让 AI 在对话中表现得像人类一样丝滑。
图 3:搭载 AzeroGPT 的小易能够迅速、准确地“听懂”用户的意图和需求
该模型已经通过国家网信办算法备案和北京市生成式人工智能服务备案,在数据处理、隐私保护、技术的安全性和稳定性等方面获得了认可。并已成功落地应用于三甲医院智能导诊系统、机关单位智能助理、国家 5A 级景区、科技展厅智能讲解、电信运营商智能客服、大型楼宇智能电梯、公安反诈智能外呼系统等,积累了丰富的技术和服务经验,得到了客户和用户的认 可。
图 4:声智已经顺利完成“声智壹元大模型算法”、“Azero高级语音识别算法”、“Azero高级语音合成算法”三项深度合成服务算法备案,以及一项“声智壹元大模型”生成式人工智能服务备案。
超低成本部署,打造 AI 硬件与 AI 交互产业生态
传统声学模型在嘈杂环境中的表现往往不尽如人意,尤其是在重叠语音、多人说话等场景下,语音识别的准确率和响应速度都会被限制住。
声智科技在本次媒体沟通会中展示了大模型在各种声学环境下无缝交流的流畅体验,通过对AI算法的升级以及Azero开发框架的优化,显著提升了声学模型云计算的速度和准确性。
此外,本次升级还将降噪算法、声纹识别等声学算法成功转移到云计算,这一转变打破了传统设备端部署的局限性,提升了计算效率和安全性,还有效降低了AI设备的成本。
云计算的部署方式可以让大模型接入各种硬件设备和交互软件,用户可以通过各种接入大模型的终端设备召唤属于自己的全能 AI 伙伴。声智面向不同的行业用户,已经开放了安全的私有化部署、可信的行业化训练,以及专业的生成式推理解决方案,打造人机交互产业生态升级,助力企业进行全域智能升级。
图 5:搭载 AzeroGPT 的智能可穿戴硬件——声智珍珠耳夹式耳机在百元级耳机上实现了同声听译、语音转写、智能写作等 AI 功能
此外,AzeroGPT 拥有超高级别的数据安全和隐私保护措施,通过了全球公认的信息安全管理标准——ISO27001 认证,还通过了多个行业内公认的技术安全认证,如CCRC 信息安全服务资质认证、信息技术服务管理体系认证、信息安全管理体系认证和信息技术服务标准认证等。声纹识别技术及设备也通过了通过公安部许可认证。这些认证不仅是对声智技术和管理能力的认可,更是证明了 AzeroGPT 已经具备了高水平的技术能力和管理体系,能够提供稳定可靠的服务,减少因系统问题导致的业务中断风险。
图 6: 声智壹元大模型 AzeroGPT 已经通过多项备案。
“千面智语”——更通人性的交互智能体
实现“千人千面”的个性化服务一直是AI发展的重要方向。声智科技的新产品“千面智语”数字人交互服务,基于大模型和语音交互框架,能够根据不同用户的偏好和需求调整回应方式。
图 7: 声智AI 交互智能体新品“千面智语”发布
媒体沟通会现场为观众展示了实时的拟人化交流效果。面对儿童的提问,Azero GPT 的回答会充满童趣和简单易懂的解释,就像一个童年玩伴一样满足少年儿童探索未知的好奇心;而与老年人交流时,会采用较慢的语速和更贴心的表达方式,辅助老年人进行理解,充分展示了老年人。此外,媒体沟通会上还展示了心理医生、反诈警官、税务客服等角色,可以看到AI 在不同身份下都能进行符合该角色风格的表达,风格迥异的回答内容和声音语气,可以绕让机器人拥有足够的专属感和陪伴感,AI从此不再是一个简单的工具,更是陪伴人类的好伙伴。
图 8: AzeroGPT 面对不同的用户需求,扮演多种角色
“AI 终极形态”——国内首次在耳夹上实现人机交互
本次媒体沟通会上,国内首款“AI 配饰”——“FairyClip 声智珍珠耳夹式耳机”证明了大模型在可穿戴设备上实现的可能。这款耳机采用开放聆听技术,搭载了新一代AirAudio定向空气传音技术,音质清晰无漏音。此外,慢回弹耳夹的设计不仅美观,而且戴起来丝毫没有异物感,还不挑耳型,适合各种大小和形状的耳朵。
图 9: AzeroGPT 面对不同的用户需求,扮演多种角色
耳机内置的专属AI助理,能够随时响应用户的指令,不仅可以实现转写、翻译、内容生成等针对办公学习场景的功能,还针对运动健康、日常生活的需求,提供健康数据检测、助眠音频以及生活事项提醒等功能。
此外,最新版本的声智APP-小易问问功能新增热点资讯问答能力,在 2024 巴黎奥运会期间还推出了奥运特别版,不仅能进行更加自然的实时对话,还能提供即时的赛事信息,用户可以和小易一起,随时随地观赛、追赛。
图 10: 通过耳机可以在 2024 巴黎奥运会期间实现 AI 追赛
至此,百元级别的耳机也能拥有与千元机同等的 AI 功能。AI 算法的升级将用户使用大模型的成本降到最低,真正做到技术普惠,人人都能享受到 AI 提供的专属服务。
AI硬件与AI交互:全球AI落地的共识
人工智能技术发展至今,AI 硬件和 AI 交互已经是全球AI技术落地的共识。未来人工智能与声学技术的结合,将会创造出更完美的交互智能体。它足够智能,可以无时无刻地陪伴在你的身边;它足够全能,让你的学习工作更高效;极具同理心的它,对你的了解甚至超过你身边的任何人,还能帮助你解决生活中遇到的各种问题……
就像声智 AI媒体沟通上播放的创意短剧《戴上耳机开启龙少宠溺新篇章》和《重生之我是耳机》那样,通过一枚小小耳机的视角,展示了声智团队对 AI 事业的热爱和追求,以及青年团队敢想敢做的态度,以当下最流行短剧形式,表达产品设计的初心。
图 11: 由声智发布的短剧《戴上耳机开启龙少宠溺新篇章》
图 12: 由声智发布的短剧《重生之我是耳机》
明确的战略规划与前瞻性的布局、长期持续的底层技术投入以及以用户为核心的产品能力,推动声智科技勇敢前行,让我们离梦想中的完美“大白”更近一步。