ECCV 2022 | 76小时动捕

发布日期：2022-12-22 22:14:03

2022年12月22日 78 查看

华为东京研究所 – Digital HumaÚn Lab&#25b3; 与东京大学等γ合作进行了研究，提出了目前为止最大规模的数字人多模态数据集：BEAT。

随着元宇宙的火爆以及数字人建模技术的商业化，AI 数字人驱动算法，作为数字人动画技术链的下一关键环节，获得了学界和工业界越来越广泛的兴趣和关注。其中谈话动作生成（由声音等控制信号生成肢体和手部动作）由于可以降低 VR Chat, 虚拟直播，游戏 NPC 等场景下的驱动成本，在近两年成为研究热点。然而，由于缺乏开源数据，现有的模型往往在由姿态¨检测算法提供的伪标签数据集或者单个说话人的小规模动捕数据集上进行测试。由于数据量，数据标注的缺乏和数据质量的▨限制，现有的算法很难生成个性化，高手部质量，情感相关，动作 – 语义相关的动作。઒

针对上述问题，华为东京研究所 – Digital Human Lab 与东京大学等合作进行了研究，提出了目前为止最大规模的数字人多模态数据集：BEAT （Body-Expression-Audio-Text），由 76 小时动捕设备采集的谈话数据和语义 – 情感标注组成。原始数据包含肢体和手部动捕数据，AR Kit 标准 52 维面部 blendshape 权重，音频与文本，标注数据包含 8 类情感分类标签，以及动作类型分类和语义相关度打分。在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构，由 BEAT 中其余三种模态和标注作为输入，在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文《BEAT: A La੖rge-Scale Semantic and Emotional Multi-Modal Daੋtaset for Conversational Gestures SynthesisΨ》已于 ECCV2022 上发表，数据集已经开源。

૜

作者: Haiyang Liu, Zihaਫ਼o Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li&#ffe0　;, You Zhou, Elif BozΖkurt, Bo Zheng.

单位：Digiਫ਼tal Human Lab – 华为东京研究所，东京大学，庆应大学ઢ，北陆先端૧科技大学.

论文地址：https://ww⋅w.ecva.net/papers/eccv_2022/papers_ECCV/papers/•13¤6670605.pdf

项目主页：https://pant૦omatrix▧.github.io/BEચAT/

数据集主页：hÜttps://ⓦpantomatrix.github.io/BEAT-Dataset/

视频结果：https://wwwદ.youtube.com/watch?vŅ=F6nXVTU∪Y0KQ

部分渲染后的数据如下（从上到下依次为&#266b;，生气 – ઱恐惧 – 惊讶 – લ伤心情感下人的动作）：

"ઽ⇔

þÐ

ਪ

渲染结∇੖果使用了 HumanG▥eneratorV3 产生的身体和脸部模型。

BΙEAT 数据集੝细节

动作 – 文本语义相×关¿度ੑ标注

谈话动作生成领域的关键问题是：如何生成和评估生成的动作和文本在语义上的关联程度。该关联程度很大程度上影响了人对生成动作质量的主观评价。由于缺乏标注，现有的研究往往挑选一系列主观结果用于评估，增加了不确定性。在ા BEAT 数据集中，对于动作给出了基于动作类别分类的相关度分数，共分为四类 10 档：beat（੩1），deictic （2-4）， icnoic（5-7），metaphoic（8-10）。该分类参考 McNeÝill 等人在 1992 年对谈话动作的分类，其中后三类各自存在低 – 中 – 高质量三档。

然而，实际谈话中，与当前文本语义对应的动作可能提前或滞后出现，为了解决这个问题，在标注过程&#263e;中，标注者判断ૢ当前☻动作所属类别之后：

1. ¤以动作的开始和结束确▤定标注范围，保证了动作的完整性Ä。

2. ૎输入与当前动作ઞ最相关的ⓜ关键字，获取动作和对应文本的准确出现时间。

基于情感的Κ对话Ω

BEAT 数据集要求每个演讲者必须µ录制 8 种不同情绪下的谈话动作，用于分析动作与情感之间的内在联系。在演讲环节中，自然情绪占比 51%，愤怒、快乐、恐惧、厌恶、悲伤、蔑视和惊讶这七类情绪分别占比 7%。对动作进行聚类ó的结果¼证明，动作和情感之间存在相关性，如下图所示。

数据੢规模憨及采集细ટ节

BEAT 采用了 ViCon，16 个摄像头的动作捕捉系统来记录演讲和对话数据，最终所有数据以 120FPS, 记载关节点旋转角的表示形式的 bvh 文件发布。对于面部数据，BEAT 采用 Iphone12Pro 录制谈话人的 52 维ÿ面部 blendsshape 权重，并不包括每个人的头部模型，推荐使用 Iphone 的中性脸做可视化。દBEAT 采用 16KHZ 音频数据，并通过语音识别算法生成文本伪标签，并依此ા生成具有时间标注的 TextGrid 数据。

BEAT 包含四种语言的数据：英语，中文，西班牙语，日语，数据量分别为 60，12，2，2 小时。由来自 10 个国家æ的 30 名演讲者进行录制。其中中文，西班牙语，日语的演讲者也同时录制了英语数据，用于分析不同语言下的动作差ધ੢异。

在演讲部分（数据集的 50%），30 个演讲者被要求读&#ffe1;相同的大量文本，每段文本长度约 1 分钟，总计 120 段文本。目的是控制文本内容相同来Α研究不同演讲者之间的风格差异，来实现个性化的动作生成。谈话部分（50%）演讲者将和导演在给定话题下进行 10 分钟左右的讨论，但为了去除噪声，只有演讲者的数据∉被记录。

下表还将 ☻BEAT 与现有的数据集进行了比较，绿色高光表示最佳值，可以看出，BEAT 是现阶段包含多模态数据和标注的ⓦ最大的运动捕捉数据集。∅

↵多模态੎驱动的动作生成基线模型

BEAT⁄ 提出了一个多模态驱动的动作એ生成基线模型，CaMN（Cascade Montion Network），将音频 – 文本 – 面部数据以及情感，语义标注作为输入，以生成更高质量的谈话动作。网络主干由多个级联编码器和两个级联 LSTM+MLP 解码器组成，生成躯体和手部动作，数据被降频到 15FPS，单词句子ઢ被插入填充标记以对应音频的沉默时间。具体的网络结构如下图所示。

文本、语音和 SpeakΙer-ID 编码器的网络选择是基于现有研究，并针对 BEAT 数据集在结构上进⊆行了修改。对于面部 blendshape Äweight 数据，采用了基于残差网络的一维 TCN 结构。最终网络的损失函数来自语义标注权重和动作重建损失的组合：

ધੑ

其中针对不同演讲者的数据，网络也采取了·不同Ú的对抗℘损失来辅助提升生成动作的多样性。

实验结果

研究者首先验证了一个新的评价指标♧ SRGR，然后基于主观实验验证了 BEAT ö的数ੜ据质量，并将提出的模型与现有的方法进行了比较。

SRGR Ï的¶৻有效性

为了验证 SRGR 的有效性，研究者将动作序列被随机切割成 40 秒左右的片段，要求参与者根据动作的正确性，多样性和吸引力对每&#25d3;个片段进行评分。最终共有 160 人参与评分੠，平均每个人对 15 个随机的手势片段打分。图表显示，与 L1 ૦多样性相比，SRGR 在评估手势多样性方面与人类感官更为相似。

数据质量ਮ

为了评估 BEAT 这一新Ô型数据集的质量，研究者使用了现有研究中广泛使用的动捕数据集 Trinit੢y 作为对比目标。每个数据集被分成 19:2:2 的比例，分别作为训练 / 验证 / 测试数据，并使用现有方法 S2G 和 audio2ge¤stures 进行比较。评估主要针对不同数据集训练结果的正确性（身体动作的准确性）、手部正确性（手部动作的准确性）、多样性（动作的多样性）和同步性（动作和语音的同步性）。结果见下表。

表中显示，BEAT 在各方面的主管评分都很高，表明这个数∋据集远远优于 Trinity。同时在数据质量上也超过了现有的视频Γ数据集 S2GÃ-3D。

对 ਖ਼Baseline 模型的评价Â

为了验证本文提出的模型 CaMN 的性能，在以下ⓑ条件下与现有方法 Seq2Seq,S2G,A2G 和 MultiContext 进行了比较验证。一些实验的细节ó如下：Þ

使用数☞据&#263a;集中四名演讲者的数据进行 15 小时的训练，选取不同∅模型在验证集上最优的权重在测试集上测试。

FGD 被采ઢ用为评价指标，因为已被证明 ◑L1 损Λ失不适合于评价生成动作的性能。

为了评估手势的多ι样þ性和与语音的同步性，研究者采用了本文提出的 SRGR 和舞蹈动作生成中常用的指数 BeaકtAlign。

验证结果如下表઻所示，CaMN 在所有评价指标上得ડ分最高。

૊

下面是一个由&#25d3; CaM≥N 生成μ的手势的例子。

&#266c;

઱

图中œ展示了一个真实数据样本（上）和一个 CaMN 生成¦的动作（下☞），生成的动作具备语义相关性。

Ÿ总结

本文研究者提出大规模的多模态数字人驱动数据集 BEAT，用ⓝ于生成更生动的谈话动作。该数据−集还⇑可应用于数字人驱动的其他领域，如 LipSync，表情识别，语音风格转换等等。

&#222e;Ņ

℘

转载请联ⓠ系本公众号ⓩ获得授权

બó

投稿或Ð寻求报道：content@jiqizhixin.com

Û“掌”૟握科&技鲜闻（微信搜索techsina或扫描左侧二维码关注）

&#25d0;新浪科技▣

&#256f;新浪科技为æ你带ü来最新鲜的科技资讯

૙

Β苹Œ果汇

苹果汇ਫ为你带来最新鲜的苹果产品新ઢ闻ⓛ

øৄ新浪Η众测

新酷产品第一બ时间免费试ϖ玩∇

&#266c;新浪੨探索

提供ª▒最新的科学家新闻，精彩的震撼图片

新浪科技意见Ã反馈留言ૡ板Α

财经news

ECCV 2022 | 76小时动捕

关于财经

相关文章

发表评论取消回复

ECCV 2022 | 76小时动捕

关于 财经

相关文章

芯华章发布高性能FPGA双模验证系统|高性能|硬件|资产_新浪科技_新浪网

是德科技助力联发科实现基于R17和RedCap的5G连接|5G|是德科技|联发科技_新浪科技_新浪网

快速崛起的精简指令集架构：全球百亿颗RISC-V芯片出货 中国公司占一半|RISC-V|芯片|指令集_新浪科技_新浪网

取代x86、ARM 第三大CPU架构RISC-V还不够格：至少高性能上不会|RISC-V|ARM|高性能_新浪科技_新浪网

发表评论 取消回复

关于财经

快速崛起的精简指令集架构：全球百亿颗RISC-V芯片出货中国公司占一半|RISC-V|芯片|指令集_新浪科技_新浪网

发表评论取消回复