【中国科学报】新技术让虚拟主播“多才多艺”

xubin · 发表于 2023-10-1 09:08:31

　　在主持界，新员工刚一上岗就播报全国两会是一件可遇不可求的事，但新华社的“新小萌”做到了。在去年的全国两会上，“新小萌”向全世界报道中国两会盛况。其中，她播报的一条某人大代表的议案新闻，几小时内在新华社客户端的浏览量就超过百万。海角社区https://m.mmolucky.com/的具体问题可以到我们网站了解一下，也有业内领域专业的客服为您解答问题，值得您的信赖！

　　“新小萌”是谁？你可能已经猜到了，她并不是真人，而是模仿真人的虚拟主播。

　　这样的虚拟主播正陆续走进人们的视野，但在科学家看来，它们还不够完美。“随着应用场景的不断丰富，一个优秀的虚拟主播需要‘多才多艺’。”中科院自动化研究所模式识别国家重点实验室研究员赫然告诉《中国科学报》，“多才多艺”依赖于音视频生成技术的不断发展。

　　优秀虚拟主播的特质

　　赫然在接受《中国科学报》采访时表示，一位“多才多艺”的虚拟主播不仅可以语音播报，还要实现自然交互，以满足线上人工服务和线下智能终端产品需求，成为可视化客服产品。

　　一般而言，当虚拟主播播报时，我们都会关注它的口型是否准确，表情、动作等肢体表达是否自然。对于科学家来说，除了这些直观感受外，他们还非常关注视频的清晰度以及连贯程度等。

　　目前，国内常见的虚拟主播主要有卡通形象和“真人”形象两种。由于卡通形象的虚拟主播定制化程度较高，实现方式相对简单，所以比较常见。从2018年至今，国内部分电视台主推这种类型的虚拟主播。

　　显然，卡通形象在真实感上逊色于真人形象的虚拟主播。于是，新华社的“新小萌”、人民日报社的“果果”等虚拟主播出现了。

　　但到底怎样才算真实？目前并没有统一标准。在哈尔滨工业大学计算机科学与技术学院教授左旺孟看来，虚拟主播的真实性主要体现生成人脸的逼真度、人物的差异性、视频的帧间一致性、音视频的跨模态一致性等方面。

　　这些都依赖于音视频生成技术，即一种输入音频—输出相应视频时常使用的数据生成技术。

　　中科院自动化所模式识别国家重点实验室博士李祎向《中国科学报》介绍，2017年前后出现的早期音视频生成方法仅适用于特定的单一人物。例如，如果想得到某个真人形象的虚拟主播，那么首先需要采集大量数据，然后经过数据清洗、数据处理、网络训练、性能调优等一套流程，耗时、耗力。而目前视频生成技术主要运用三维模型渲染或者生成对抗网络，其基本程序是首先建立一个头部的三维模型，之后通过头部三维模型的控制器来控制虚拟主播的口型和动作，但这种方法一般需要较长时间进行模型渲染。

　　也就是说，当前的视频生成技术还无法实现任意人物协同生成，这也导致虚拟主播可能会出现嘴型不合理、逼真程度低等问题。

　　赫然也提出，目前真人形象的虚拟主播的发展仍面临着定制难度大、成本高等问题。如此，科研人员就有了新任务，即降低制作成本，为不同用户推出因人而异的真人虚拟主播形象。

　　任意人物协同生成是关键

　　近日，中科院自动化所智能感知与计算研究中心提出了一种新颖的音视频协同计算方法，并重点解决了此前难以实现的任意人物协同问题。据悉，该研究论文已被2020国际人工智能联合会议接收。

　　相比于以往大多数音视频生成方法将重点放在音频或视频模态内部，该方法则将注意力放在音视频模态之间最重要的问题上，即如何将音频信息高效充分嵌入视频信息，同时考虑如何突出不同人物的差异。

　　在赫然看来，如果希望基于一段音频与视频生成自然、连贯、准确的虚拟主播视频，那么音频在向视频转换的过程中的损耗应该尽可能小、转换的映射应该尽可能准确，模型对不同人物说话方式也应该具有一定的想象力。

　　为此，科研人员精心设计了非对称式互信息估计器，以构建音视频模态间的约束。

　　随着深度学习和生成模型的发展，图像合成方面的研究也开始逐渐转向视频合成和多模态协同计算。然而，以虚拟主播为例，音视频模态之间的差异性等问题已成为限制其走向应用的关键。

　　“因此，我们团队借助于非对称式互信息估计器，以最大化音视频之间的跨模态一致性，较好地克服了这一问题，不仅能够实现不同人脸的跨性别合成，而且使生成的口型更加准确、自然。”左旺孟告诉《中国科学报》。

　　广阔的市场前景

　　虚拟主播并不是新鲜事物。早在2001年，英国一家网络公司就推出世界上第一个电视节目虚拟女主播阿娜诺娃，她可以24小时持续播报。随后，日本、中国、美国等也出现虚拟主播。但由于技术不成熟和市场需求不强烈等，虚拟主播热并没有持续下去。

　　从2017年开始，我国再度出现虚拟主播的身影，近两年也呈现了较好的发展态势。如今，在国内部分网站上活跃的虚拟主播粉丝数量已达到几十万甚至百万。

　　在左旺孟看来，随着网络教育、日常工作和生活中对视频内容的需求提升，虚拟主播技术有望成为未来音视频生成领域的研究热点之一。

　　中科院自动化所模式识别国家重点实验室博士宋林森告诉《中国科学报》，除了应用较多的娱乐场景，虚拟主播技术也可以在其他领域实现应用，如电影配音、抖音对口型、虚拟客户服务、虚拟形象视频会议等。

　　相关论文信息：https://arxiv.org/abs/1812.06589v1

　　（原载于《中国科学报》 2020-05-14 第3版信息技术)