多模态+大模型如何构建人形机器人新交互？_应力检测消除案例_ror平台_(ror官方网)

服务区域

ror平台-镜面与改性应力检测消除案例

应力检测消除案例

多模态+大模型如何构建人形机器人新交互？

多模态+大模型如何构建人形机器人新交互？时间: 2024-04-16 05:36:43 | 作者: ror平台

在4月2日的「2024中国人形机器人生态大会」上，多名人形机器人产业链企业代表齐聚，就人形机器人产业前沿话题，市场风口与落地方向等维度作了精彩分享。

其中，科大讯飞开放平台研发总监刘可为围绕「多模态+大模型，构建人形机器人新交互」这一主题，展开了主题演讲。

在过去一年半时间里，伴随着大模型的横空出世，AI在全社会取得广泛关注。过去我们大家都认为AI是高高在上，不接地气，是某些高端应用锦上添花的功能模块。现在，人工智能开始真正走向大面积生产和实践，以大模型为代表的通用AI发展正在快速推动我们进入第四次人工智能浪潮。

人工智能的发展尤为瞩目，特别是以具身智能为代表的人形机器人，慢慢的变成了人形机器人发展的重要和头部力量。

其实，这种新的趋势正在推动着机器人走向更纵深的应用场景。这种更纵深的应用场景意味着用户对于机器人的要求慢慢的升高，特别是当整个机器人的形态从传统的机器人开始向人形机器人转变时，这就要求我们的人形机器人一定要具备一套很强大的人机交互系统。

人机交互说出来是比较泛的概念，它的使用门槛非常高。如果每一家机器人厂家都从0到1研发，超多研发资源的投入与获得的成效往往不成正比。所以，业内急需一套规范标准面向未来人形机器人的交互解决方案。

我今天带来的就是这样一套解决方案。它由三个部分构成，首先是视听融合的感知交互，然后是基于大模型的机器人大脑，以软硬件一体的形式进一步做了封装，使得机器人厂家集成我们这套产品时能够变得更便捷。

首先是感知，要想和机器人实现智能的交互，第一步就是让机器人能够听清我们的交互内容。现在整个机器人的交互依然是基于麦克风阵列，它通过我们的波束对内部声音进行做增强，外部声音做抑制。

但是，传统的算法波束形成角度太宽，它所带来的最直接影响就是主说话人两侧的噪声很容易录进去，导致机器人在稍微复杂的环境下几乎不可用。我们加上了神经网络，从而大幅限制了正向方的角度，从60度变成30度，两侧的噪声得到了抑制，能够在比较恶劣的场景下实现比较好的交互。

前面提到的窄波束，经过时间的验证能够比较好地抑制两侧的噪声。但是，在实际生产的全部过程当中，前后人声的噪声则是更为普遍和棘手的现象。一来，此现状广泛存在于生产当中，除了非常安静的家居环境下，鸡尾酒环境攻克难度非常难，依靠传统的声学比较难做到提升。

我们加上了摄像头，通过引入人脸，实时进行嘴巴检测和实时声音检测，录音信息加上物体跟踪，这三个系统来进行融合，画面中只听他的声音，其他人声音完全屏蔽掉。

如何让机器人听得更清？我们拿机器人做语音交互更多需要把音频转成文字，大模型对于语义体现业内都有目共睹，它的整套基于神经网络大模型的方案，为我们做语音相关的能力提供了非常好的技术路线和思路。

传统语音识别模型的参数和体量非常有限，我们现在能做到多语种的联合建模，实现多种语言的识别，而且通过多语种的联合建模，还得到了意外的呈现，因为大模型有充足大的视野和窗口，能清楚看到上下的信息，我们把语义识别带到语音识别当中，使语音识别内容更加提升。

现在我们的讯飞星火语音识别大模型，已经远超于了我们讯飞基线的效果。无论是音质、音色还是流畅度，几乎能媲美专业主播的声音。越是完美无瑕的声音越容易给顾客产生距离感，科大讯飞构建了超拟人口语化的合成，具备拟人化程度，能够模拟人对话情况下的思考停顿等。交互链路变长了，使得我们整个交互时间控制在200毫米以内，真正达到商用水平。

讯飞超拟人语音合成技术更加有人情味，如果我们的机器人都能够发出这样的声音，它传递给用户的就不再是冷冰冰的数据信息，而是情感和思想的共鸣。

前面讲到语音合成，下面我们讲一下发言人的定制。如果想定制自己特色的声音要多少的成本和多长的周期？针对这样的问题，我们现在的目标是只需要一句在30字以内的话，就可以生成专属于你的发言人，同时基于这样的音色复刻4种语音。

前面我们提到都是基于对话机器闲聊的场景，比如说陪伴型机器人需要给我们讲长故事，短文本我们更多关注它的口语化、亲近感，长文本我们更多需要有上下文的理解，基于上下文的理解将整一个故事说得绘声绘色。我们实现了整个长文本的合成在音质、音调和情感转折上都能达到拟人化程度非常高的水平，真正的完成声情并茂。

现在机器人众多，场景也很复杂，如何将这些能力整合起来？我们通过已有的AI传感能力形成的一套多模态交互下的指导规范，能够比较准确地按照每个客户的需求和场景快速地帮他定制出一套比较贴合的多模态的交互逻辑，让整个机器人的交互变得更自然，这是基于多种模态的技术应用，构建机器人内容的交互范式。

前面需要的是基于视频感知交互，那么怎么样将大模型超强的语义理解用到机器人上？一种原因是理性的部分，希望机器人帮我们完成特定的任务，包括信息查询、指令操作等；另外一方面，我们对机器人有感性的诉求，希望机器人可以有效的进行多轮的对话，并且感知我们的情绪，结合我们的情绪提供情感的呵护和陪伴。

基于整个人机对话领域，我们做了定向增强大模型。作为讯飞机器人大模型的底座，它的输出会更加的贴近人机交互产品的输出。这里需要强调的是我们的星火交互大模型。星火交互大模型深层次地融合到过去人机交互的链路，不同功能模块对应单点的大模型，最后形成人机交互体系。通过这样一套体系能轻松实现：既保留原有语音交互准确性，也大大放大了它的对话能力。

文档知识问答大家比较熟练了，我们这套文档问答体系比较核心的特点：针对人机交互的特点，定制了线下检索模型，大幅度提升了检索效率，并且有一些关键词和知识干预，后续也会促进升级。因为大模型本身具备的知识理解和对话能力，整个闲聊对话体验就会变得很自然。我们现在说的智能交互产品，风格化和情感化是核心很重要的点。

什么样的产品叫智能化产品？不同的定制化产品体验是智能化产品的重要点，星火交互大模型里内置了星火有伴，使得这一套大模型不仅和用户有风格和情感化的对话聊天，还可以形成用户短时和长时的记忆。同时，我们为这套记忆设定衰减参数，完全模拟人的交互体验，真正让机器人有了灵魂，这是在风格化和AI人设化做的一些工作。

最后我们再来看一下软硬件接入一体的解决方案，人机交互很复杂，为降低接入门槛，它的算力足够支撑人形机器人的应用。人机交互的算法全部集成到这一套模组上面，支持二次开发。整套的所有技术平台和能力，背后都是依托于讯飞的超脑平台，坚持面向机器人提供多模态的感知交互、开放式语义理解以及软硬件的交互方式。

我们深知机器人产业的发展离不开整个生态，因此，我们坚持共生共创共享的理念，包括工业设计大赛，开发者论坛，服务市场，创业孵化等等，通过一系列丰富多样的活动和大家形成紧密的关系。在未来，我们将通过讯飞倡导2030年计划慢慢地增加技术和产品创新，联合大家一同探索人机合作的无限可能。

上一篇: 【48812】iOS 18再曝：第一批AI功用将运转于设备端不包括自研谈天机器人

下一篇: 【48812】我国制作的送餐机器人批量进入商场