# 《图学学报》网络首发论文
题目: 基于多模态 Beat-STMAN 网络模型的舞蹈动作识别方法
作者: 唐海英,李芳
收稿日期: 2025-06-24
网络首发日期: 2026-04-08
引用格式: 唐海英,李芳.基于多模态 Beat-STMAN 网络模型的舞蹈动作识别方法 [J/OL].图学学报. https://link.cnki.net/urlid/10.1034.t.20260407.1612.002


ni中国知網
www.cnki.net
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首发论文视为正式出版。
# 基于多模态 Beat-STMAN 网络模型的舞蹈动作识别方法
唐海英,李芳
(武汉体育学院艺术学院,湖北 武汉 430079)
摘 要:针对舞蹈动作识别领域出现的时空特征耦合性不足、多模态信息利用不充分等问题,为提高舞蹈动作识别的准确率,提出一种多模态融合的 Beat-STMAN 网络识别方法。首先,该方法以基于骨架的 ST-GCN(Spatial Temporal Graph Convolutional Network)模型为基础构建时空卷积骨架网络,针对舞蹈动作连续多变、部分动作受遮蔽的不利因素,采用动态邻接矩阵融入多头空间注意力机制以自动捕捉全局人体拓扑结构参数,其次提出一种音频流信息特征提取-对齐-融合方法以获取节拍时间戳脉冲序列,并采用 Transformer 多头注意力机制设计跨模态融合模块 AMAA-Net,通过对抗性博弈机制实现多模态特征融合,较好的改善模型特征融合不足的问题,最后使用 Beat-STMAN 网络在公开舞蹈数据集验证模型有效性。实验表明:在 Thomas旋转动作中,该模型较 ST-GCN 模型识别率提升 14.7%,证明其可显著提升遮蔽场景鲁棒性。且消融实验证明采取动态邻接矩阵、多头注意力以及跨模态注意力机制能够有效融合音频-动作关联特征,跨模态贡献率达5.3%,有效推动模型 Top-1 精度提升,从而提高模型的预测精度,为舞蹈教学评估和沉浸式交互提供了多模态技术实现路径。
关 键 词:舞蹈动作识别;Beat-STMAN;跨模态注意力;Transformer;多模态
中图分类号:J 705; TP 391.41 DOI:
文献标识码:A
# Multimodal Beat-STMAN network with beat alignment for dance motion reco tion
TANG Haiying, LI Fang
(Art College of Wuhan Institute of Physical Education, Wuhan Hubei 430079, China)
Abstract: To address the issues of insufficient spatiotemporal feature coupling and insufficient utilization of multimodal information in the field of dance action recognition, a multi-modal fusion Beat STMAN (Beat-guided Spatio-Temporal Multimodal AMAA-Net Network) network recognition method is proposed to improve the accuracy of dance action recognition. Firstly, this method is based on the skeleton based ST-GCN (Spatial Temporal Graph Convolutional Network) model to construct a spatiotemporal convolutional skeleton network. In response to the unfavorable factors of continuous and varied dance movements and partially obscured movements, a dynamic adjacency matrix is integrated into a multi head spatial attention mechanism to automatically capture global human body topology parameters. Secondly, an audio stream information feature extraction alignment fusion method is proposed to obtain beat timestamp pulse sequences, and a Transformer multi head attention mechanism is used to design a cross modal fusion module AMAA Net, which achieves multimodal feature fusion through resistance game mechanism, effectively improving the problem of insufficient model feature fusion. Finally, Beat STMAN is used The network validated the effectiveness of the model on a publicly available dance dataset. Experimental results show that in the Thomas spin movement, the recognition rate of the proposed model is 14.7% higher than that of the ST-GCN model, proving that it can significantly improve the robustness in occluded scenarios. Furthermo re, ablation experiments verify that the integration of the dynamic adjacency matrix, multi-head attention mechanism, and crossmodal attention mechanism can effectively fuse audio-action correlation features, with the cross-modal contribution rate reaching 5.3%. This effectively promotes the improvement of the model’s Top-1 accuracy, thereby enhancing the model’s prediction precision and providing a multimodal technical implementation path for dance teaching evaluation and immersive interaction.
Keywords: dance motion recognition; Beat-STMAN;multimodal attention; Transformer; multi-mode
随着近些年线上舞蹈教学、远程教学直播等行业的迅速发展,针对人体动作、姿态的智能识别技术开始逐步涌现,舞蹈动作识别作为舞蹈行业与人工智能技术的交叉领域研究,在当前行业市场展现出较高的应用潜力。舞蹈作为一种高度艺术化的肢体语言表达,其与多种环境信息存在强烈的耦合关系,其中最主要的包括信息源音频,如街舞动作中的“踩点”需严格对齐音频鼓点节拍,然而现有研究多聚焦于单一的视觉模态的骨骼关节建模,忽略了音频模态对舞蹈动作的引导作用,导致复杂舞蹈场景下的识别精度面临瓶颈。
近些年国内外动作识别技术有一定进展,主流方式多采用深度学习模型,雷建云等[1]提出一种改进的 ST-GCN 模型,融合时间和空间两个子注意力模块并嵌入 ST-GCN 序列模块中,在时空特征提取方面取得良好效果。张琼[2]通过添加边缘边和时空注意力模块改进双流自适应时空图神经网络,充分丰富骨骼特征信息,在公开数据集上取得较好的分数。魏欣然等[3]将多头注意力机制 MHA 与单头注意力 SHA 相结合,解决了Transformer 模型的全局特征深度不足的问题,提升了手部运动动作识别的准确性。LIU 等[4]使用多层级 LSTM 单元处理不同时间步长的骨骼信息,突破传统 LSTM 的单向时间建模,实现空间-时间双重循环。TRAN 等[5]系统性验证了 3D 卷积在视频特征学习中的优越性,解决了传统视频特征依赖双流网络(Two-Stream)的局限性。在多模态融合方面,部分研究工作[6-8]尝试将骨骼数信息与RGB 视频等模态结合,通过早期融合和晚期融合策略一定程度上提升模型的鲁棒性,模型普遍具有较好的泛化能力,但此类通过抽取视频部分关键帧的方式缺失了动作间的交互信息,在特定任务上辅助识别效果有限。顾瑞坤[9]利用卷积神经网络算法将 2D 和 3D 骨骼关键点数据作为改进双分支孪生监督学习模型的输入,通过骨骼信息融合得到最终骨骼关键点估计位置,在识别准确率上得到一定提升,但仅在 4 种差异较大动作上验证了有效性,不具有泛化性。许诚和金庆红[10]对输入视频进行预处理后,利用改进的 SimpleMKL算法分别提取光流方向直方图特征、方向梯度直方图特征和音频特征,并将 3 个特征进行融合,在特 定 数 据 集 识 别 率 上 表 现 出 一 定 优 势 。YANG[11]结合视觉与音频信息,通过多特征融合有效提升识别效果,尽管该方法在多模态融合方面取得了一定进展,但在处理复杂舞蹈动作时仍存在适应性不足、信息对齐困难等局限性。
尽管上述方法在动作识别领域取得了显著进展,但在舞蹈这一特定场景下仍存在亟待解决的
问题。首先,传统 GCN 模型依赖固定的拓扑结构,难以适应舞蹈中频繁出现的非刚性关节运动,节奏感较强的舞蹈动作中,动作变化幅度较大,而固定邻接矩阵无法捕捉此类空间关系的动态演化[12]。其次,在音频节拍特征提取和舞蹈动作骨骼关节特征融合方面主要是基于特征拼接的浅层融合和基于跨模态 DTW 对齐方法,但简单地在时间维度进行浅层特征拼接和线性插值不仅无法准确对齐舞蹈动作与节拍鼓点特征,也会导削弱音频节拍对舞蹈动作的强语义引导作用,降低了模型对节奏敏感动作的判别能力,无法精细表达二者存在的关联特征[13-16]。
针对上述问题,本文提出 Beat-STMAN(Beat-guided Spatio-Temporal Multimodal AMAA-NetNetwork)模型,首先在 ST-GCN 模型基础上引入可学习的动态关节关联矩阵,自适应捕捉舞蹈动作中的非刚性运动模式,其次采用 STFT 等方法获取音频节拍特征,最后利用 Transformer 编码器的多模态注意力机制融合非对称结构设计,提出 AMAA-Net 跨模态融合网络结构,利用 GAN网络博弈机制实现音频节拍脉冲特征与动作片段的特征对齐,强化模型对节奏敏感动作的识别能力。
# 1 相关工作
舞蹈动作识别作为动作识别领域的细分方向,现有研究多依托骨骼动作识别与多模态融合两大分支,且需针对舞蹈场景的非刚性运动与音频-动作强耦合特性进行优化。在骨骼动作识别方面,该类方法主要基于图卷积网络对人体关节拓扑结构进行建模,传统 ST-GCN 模型依赖固定拓扑结构 , 为 突 破 这 一 限 制 ,ZHOU 等[17] 提 出 的BlockGCN 通过重新定义拓扑感知机制,突破了固定邻接矩阵的限制,可自适应学习动态关节关联,为非刚性运动建模提供了新思路。LEE 等[18]的层次分解图卷积网络则通过分层处理骨骼结构,进一步提升了空间特征的表征能力。上述方法虽提升了模型灵活性,但仍未引入音频节拍的时序引导信息,难以处理节奏驱动型舞蹈动作。在多模态融合方面,现有研究旨在联合利用视觉、骨骼、音频等异构信息提升识别鲁棒性。SHI 等[19]的多模态多动作识别方法(MMAVR)虽尝试融合多种模态,但未针对舞蹈场景的节奏敏感性进行优化。SUN 等[20]的统一多模态无监督表示学习(UMURL)虽提升了泛化能力,但缺乏对音频节拍脉冲特征的精细对齐。综上所述,这些工作为舞蹈动作识别奠定了基础,但仍面临以下挑战:一
是如何实现非刚性运动的自适应空间建模,二是如何实现音频-动作的强耦合跨模态对齐。本文针对这两个关键问题,分别提出动态拓扑学习与对抗性跨模态对齐模块,为实现精准的舞蹈动作识别提供新的解决方案。
# 2 多模态 Beat-STMAN 网络设计
# 2.1 动态邻接矩阵构建
ST-GCN 模型是由 YAN[21]等于 2018 年提出,用以解决 GCN 网络无法有效捕捉人体连贯动作的时序特征问题,创造性提出静止、向心和离心运动的图划分策略,在空间无向图结构上引入时间边集,在视频帧的骨骼拓扑图的基础上添加连续帧中相同节点的时间变化轨迹,从空间和时间两个维度对视频帧数据进行建模,最后通过池化层、全连接层和 Softmax 分类器输出分类结果,其中 9 个 ST-GCN 基本单元主要包含 GCN 空间卷积模块和 TCN 时间卷积模块[22-23],其主要结构如图 1所示。

图 1 ST-GCN 网络结构图
Fig. 1 ST-GCN network model structure
邻接矩阵是描述骨骼拓扑结构的关键[24-25],传统 ST-GCN 通过构建人体骨骼的物理邻接矩阵描述人体静态关节静态拓扑关系,但在律动较强的舞蹈动作中,经常出现人物局部动作被遮挡,关节间的刚性连接关系在时间帧上往往出现断开或短暂与其他骨骼关节点相连情况,如手部动作与脚步动作存在节奏性的协同关系,基于冒鑫鑫等[26]提出的自适应邻接矩阵思想本文设计动态邻接矩阵 $A _ { \mathrm { { d y n a } } }$ ,融入多头空间注意力机制以自动捕捉全局人体拓扑结构参数,该矩阵参数在不同时间帧下不断学习变化,改进公式为
$$
A _ {d y n a} = \alpha \odot A _ {0} + (1 - \alpha) \odot A _ {a t t n} \tag {1}
$$
式中: $A _ { 0 } \in R ^ { B \times T \times N \times N }$ 是 ST-GCN 原邻接矩阵;是平衡因子,通过反向传播优化; $A _ { a t t e n }$ 是基于样本特征采用多头注意力机制驱动的动态连接矩阵,该连接矩阵能够学习舞蹈动作关节间全局拓扑信息,使邻接矩阵的语义信息更完整丰富,通过构
建查询矩阵 Q 和键矩阵 K 对关节特征 X 进行线性变换,即
$$
Q = X W _ {Q}, K = X W _ {K}, W _ {Q}, W _ {K} \in R ^ {C \times d _ {k}} \tag {2}
$$
$$
A _ {i, j} ^ {S} = \frac {e ^ {\frac {Q i K _ {j} ^ {T}}{\sqrt {d _ {k}}}}}{\sum_ {k = 1} ^ {N} e ^ {\frac {Q i K _ {k} ^ {T}}{\sqrt {d _ {k}}}}} \tag {3}
$$
$$
A _ {a t t n} = \operatorname {R e} l u \left(\frac {1}{h} \sum_ {k = 1} ^ {h} A ^ {s} [.;.;, k.;.; ]\right) \tag {4}
$$
式中: $W _ { Q }$ 和 $W _ { K }$ 为投影矩阵; $d _ { k }$ 为子空间维度,假设输入的关节特征矩阵 $X \in { \cal R } ^ { B \times T \times N \times C }$ ,通过投影矩 阵 生 成 查 询 矩 阵 $Q \in { \boldsymbol { R } } ^ { B \times T \times N \times d _ { \boldsymbol { k } } }$ 和 键 矩 阵$K \in R ^ { B \times T \times N \times d _ { k } }$ ,进一步按照多头 h 计算源节点 i 对目标节点 j 的注意力强度并使用 Softmax 进行归一化操作,最后按照头维度进行平均池化和激活操作。
# 2.2 音频模态特征提取与跨模态对齐
舞蹈动作与音乐节奏的强关联性要求模型具备跨模态时序对齐能力,传统方法仅利用视觉特征,忽略了音频节拍对舞蹈动作的语义引导作用(如踢踏舞步与鼓点同步),在针对音频流信息的处理中,如果仅仅将音频原始数据作为输入,会造成噪点过多,且特征无法对齐视频流数据输入维度要求,因此本节提出一种音频流信息特征提取-对齐-融合方法,首先采用短时傅里叶变换 STFT (Short TimeFourier Transform)提取音频特征[27-29],即
$$
S T F T (m, k) = \sum_ {n = 0} ^ {N - 1} x (n) w (n - m H) e ^ {- j 2 \pi k n / N} \tag {5}
$$
式中:音频流数据输入维度 1( ) Lx n R , $x ( n ) \in R ^ { 1 \times L }$ N 为窗口长度;H 为移帧长度,输出频谱图 STFT(m, k)E $R ^ { T _ { a } \times F }$ 表示在时间帧 m 和频率 k 的复数频域值。
为进一步获取音频中的鼓点节拍脉冲,基于DPW Ellis[30]等研究工作思想,结合信号处理和时序建模技术,采用以下方法获取时间戳脉冲序列,使用改进的动态规划算法进行节拍跟踪,首先使用 Oneset 强度包络检测音频频谱强度,对音频流数据 $x ( n )$ 计算对数梅尔频谱差异,并通过半波整流与高斯平滑计算得到包络强度,即
$$
\Delta S (m) = \sum_ {k = 1} ^ {K} \log \left(\left| S (m, k) \right| + \varepsilon\right) - \log \left(\left| S (m - 1, k) \right| + \varepsilon\right) \tag {6}
$$
$$
O (\mathrm {m}) = \max (0, \Delta S (m)) \times \mathrm {N} (0, \sigma^ {2}) \tag {7}
$$
式(6)中:K 为梅尔滤波器组数量,取 K=84,为防止数值下溢常数,取 =1e-4,S(m, k)表示在时
间帧 m 和梅尔频带 k 上的频谱值,式(7)中: 控制平滑程度,取 $\sigma { = } 3 , \mathrm { N } \Big ( 0 , \sigma ^ { 2 } \Big )$ 表示高斯函数。
其次,构建时谱图分析音频节奏周期,并通过自相关函数寻优最优周期,即
$$
T (m, \tau) = \sum_ {k = 0} ^ {N - 1} O (m - k) \cdot w (k; \tau) \tag {8}
$$
$$
\tau^ {*} = a g r \max _ {\tau} \sum_ {m = 1} ^ {M} T (m, \tau) \cdot T (m + \tau , \tau) \tag {9}
$$
式(8)中: $T \left( m , \tau \right)$ 为时谱图, 为候选节拍周期,$w \big ( k ; \tau \big )$ 为高斯函数窗口,中心频率对应窗口长度,式(9)中:M为时间帧总数。
最后定义状态转移函数与目标函数并获取最优节拍序列,其公式如式(10)、(11)所示:
$$
C (t) = \max _ {\Delta t} \left[ C (t - \Delta t) + \alpha O (t) - \beta | \Delta t - \tau^ {*} | \right] \tag {10}
$$
$$
B (t) = \left\{b _ {1}, b _ {2}, \dots , b _ {N} \right\} = \arg \max \sum_ {i = 1} ^ {N} \left[ \alpha O \left(b _ {i}\right) - \beta | b _ {i} - b _ {i - 1} - \tau^ {*} | \right] \tag {11}
$$
式中:C(t)是截至到当前时间帧的最优路径得分,为 Oneset 强度系数,取 =1,为节拍间隔惩罚系数,取 =0.1, $\Delta \ : \mathrm { t } \in \left[ \tau ^ { * } - \delta , \tau ^ { * } + \delta \right]$ 为候选节拍间隔,B(t)为提取的音频节拍序列特征。
为解决节拍脉冲序列的稀疏矩阵导致训练梯度不稳定和低维特征信息丢失,此处将检测到的节
拍特征从低维稀疏序列进一步提取高维特征,采用 1D 卷积核(kernel=3)通过卷积操作提取上下节拍特征并扩展为高维特征表示,保留节拍位置信息的同时,捕捉局部时序节拍能量变化,即
$$
X _ {\text {b e a t}} (t, i) = \sum_ {\tau = 0} ^ {k - 1} W (i, \tau) \cdot B \left(t - \tau + \left[ \frac {k}{2} \right]\right) + b (i) \tag {12}
$$
$$
X _ {\text {b e a t}} = \operatorname {R e} l u \left(X _ {\text {b e a t}}\right) \tag {13}
$$
式中: $\boldsymbol { W } \in \boldsymbol { R } ^ { d m \times k }$ 为可学习的权重矩阵,b 为偏置项, $X _ { b e a t } \in R ^ { T _ { a } \times d _ { m } }$ 为最终提取的音频高维节拍特征并经非线性激活。
在多模态特征对齐方面,音频流信息与动作流信息特征对齐主要采用基于特征拼接的浅层融合和基于跨模态 DTW 对齐方法,但简单的特征维度拼接或线性插值会导致语义精细表达程度不足问题,因此本节提出对抗性多头注意力网络 AMAA-Net (Adversarial Multi-head Attention AlignmentNet),用以跨模态音频与动作特征对齐,其结构设计主体采用 GAN 网络,其网络结构包含生成器和判别器,生成器和判别器通过对抗性博弈机制实现多模态特征融合,该博弈机制驱使生成器输出分布在判别器中获得更高的置信度,从而使得动作特征与音频节拍鼓点特征获得强耦合融合,其结构设计主体如图2所示。

图 2 跨模态融合网络 AMAA-Net 设计
Fig. 2 Design of cross modal fusion network AMAA Net
GAN 网络设计多将对抗过程从数据空间转移到潜空间[31-33],因此骨骼关节特征与节拍鼓点脉冲特征融合借鉴 Transformer 多头注意力机制编码器设计,生成器采用双路非对称多头注意力机制,利用双模态交叉投影避免生成器陷入模态内自循环,强制模态交互并融合音频信息和动作模态信息,音频节拍特征和动作特征分别采用Conv1D 卷积和 Conv3D 卷积分别提取,其中音频对动作交叉注意力捕捉节拍对动作的驱动,动作对音频交叉注意力捕捉动作对节拍的响应,其
计算过程为
$$
X _ {\text {b e a t}} ^ {\prime} = \operatorname {C o n v 1 D} \left(X _ {\text {b e a t}}\right) \tag {14}
$$
$$
X _ {v} ^ {\prime} = \operatorname {C o n v 3 D} \left(X _ {v}\right) \tag {15}
$$
式中:分别用卷积核为 1 的 1D 和 3D 卷积对音频节拍特征频谱强度和骨骼关节特征进行特征提取和线性变换。并采用拆分奇数头、偶数头的正逆向注意力机制设计,获取音频-骨骼特征的双向注意力计算结果,实现特征深度融合,其注意力结果为
$$
A t t n _ {o d d} ^ {(h)} = S o f t \max \left(\frac {Q _ {b} ^ {(h)} K _ {d} ^ {(h)}}{\sqrt {d ^ {(h)}}}\right) V _ {d} ^ {(h)} \tag {16}
$$
$$
A t t n _ {e v e n} ^ {(h)} = S o f t \max \left(\frac {Q _ {d} ^ {(h)} K _ {b} ^ {(h)}}{\sqrt {d ^ {(h)}}}\right) V _ {b} ^ {(h)} \tag {17}
$$
式中: $A t t n _ { o d d } ^ { ( h ) }$ 为奇数头注意力计算结果,Attmeven $A t t n _ { e \nu e n } ^ { ( h ) }$ 为偶数头注意力计算结果, ${ Q } _ { b } ^ { ( \mathrm { h } ) }$ ${ K _ { d } } ^ { \mathrm { ( h ) } }$ , ${ V _ { d } } ^ { ( \mathrm { h } ) }$ 为节拍对骨骼关节特征的投影矩阵,${ Q _ { d } } ^ { ( \mathrm { h } ) }$ ${ K _ { b } } ^ { ( \mathrm { h } ) }$ $V _ { b } ^ { \mathrm { ( h ) } }$ 是骨骼关节特征对节拍的投影矩阵,引入深度残差生成模块并进行多头聚合,其计算过程为
$$
Z _ {\text {a t t n}} = \operatorname {C o n c a t} \left(\left\{A t t n _ {\text {o d d}} ^ {(h)} \right\}, \left\{A t t n _ {\text {e v e n}} ^ {(h)} \right\}\right) W _ {o} ^ {\prime} \tag {18}
$$
$$
\Upsilon = \sigma \left(M L P \left(\left[ X _ {\text {b e a t}} ^ {\prime}; X _ {d} \right]\right)\right) \tag {19}
$$
$$
Z _ {o u t} = L N \left(\Upsilon \odot Z _ {a t t n} + (1 - \Upsilon) \odot X _ {d} ^ {\prime}\right) \tag {20}
$$
式中: $\boldsymbol { \Upsilon }$ 是动态门控系数; $W _ { o } ^ { ' }$ 实现维度还原;$Z _ { o u t }$ 为生成器融合特征矩阵。类似地在判别器输入特征方面采用双流 TCN 时序模块生成投影矩阵,侧重对输入数据的时序特征提取,其最终输出特征计算为
$$
Z _ {r e a l} = L N \left(\Upsilon^ {\prime} \odot A t t n ^ {\prime} + \left(1 - \Upsilon^ {\prime}\right) X _ {b e a t} ^ {\prime}\right) \tag {21}
$$
式中: $Z _ { r e a l }$ 为判别器最终输入矩阵,也同时采用残差连接和动态门控系数 $\mathrm { \Upsilon ^ { r } }$
在判别器设计中,基于赵杰[34]提出的平行注意力机制,结合跨模态对齐对抗任务,优化为双路径时空卷积判别器,通过在时间轴引入模态感知的动态卷积核生成机制,加入 Wasserstein 距离与梯度惩罚提升稳定性,简要动态卷积运算式为
$$
K _ {d} = \operatorname {R E L U} \left(\operatorname {C o n v 3 D} \left(Z; W _ {k}\right)\right) \tag {22}
$$
$$
F _ {d y n} = \sum_ {i = 1} ^ {k _ {t}} \sum_ {j = 1} ^ {k _ {v}} \delta_ {i, j} \cdot \left(Z * K _ {d} ^ {(i, j)}\right) \tag {23}
$$
式中: $\delta _ { i , j }$ 表示特征矩阵 $\mathrm { Z _ { r e a l } }$ 和 $\mathrm { { Z _ { o u t } } }$ 的点积元素;$F _ { d y n }$ 表示动态卷积运算结果。在动态卷积核运算后通过双路径平行注意力机制充分融合细粒度特
征,实现特征聚集,其计算流程为
$$
A _ {c} = \operatorname {S i g} \operatorname {m o i d} \left(F C \left(R E L U \left(A v g \left(F _ {c}\right)\right)\right)\right) \tag {24}
$$
$$
F _ {c - a t t} = A _ {c} \odot F _ {d y n} \tag {25}
$$
$$
A _ {s} = \text {S o f t} \max \left(\operatorname {C o n v} 2 D \left(F _ {\text {d y n}}\right)\right) \tag {26}
$$
$$
F _ {s - a t t} = A _ {s} \otimes F _ {d y n} \tag {27}
$$
式中:Fc-att 和 Fs-att 为双路平行注意力机制融合特征,将融合特征进行谱归一化并引入相对论梯度惩罚损失,其运算过程如式(28)、(29)所示,式(30)为模型整体损失函数。
$$
D (Z) = S N \left(C o n v 1 D \left(F _ {c - a t t} + F _ {s - a t t}\right)\right) \tag {28}
$$
$$
\xi_ {D} = \mathrm {E} [ D (Z _ {\text {r e a l}}) ] - \mathrm {E} [ D (Z _ {\text {o u t}}) ] + \lambda \mathrm {E} [ \| \nabla_ {\hat {Z}} D (\hat {Z}) \| _ {2} ^ {2} ] \tag {29}
$$
$$
\xi_ {t o t a l} = \gamma \cdot \xi_ {c l s} + (1 - \gamma) \cdot \xi_ {D} \tag {30}
$$
式中:D(Z)为谱归一化投影; $\xi _ { D }$ 为相对论梯度惩罚损失; $\lambda$ 为梯度惩罚系数; $\xi _ { c l s }$ 为交叉熵损失函数; 为平衡权重,初始为 0.8, $\xi _ { t o t a l }$ 为模型整体损失函数。该过程通过双路径平行注意力机制抑制无关特征通道,聚焦时间特征提取,最后对投影层施加谱范数约束,在保持生成对抗平衡性的同时增强判别器特征鉴定能力。
改进的模型整体结构设计如图 3 所示,在ST-GCN 骨 干 网 络 中 融 入 动 态 邻 接 矩 阵 和AMAA-Net 跨模态融合模块,舞蹈动作识别网络主要过程步骤如下:
步骤 1. 通过计算获取骨骼关节信息和音频节拍脉冲特征。通过 Openpose 算法提取骨骼关节信息,在 ST-GCN 骨干网络使用改进的动态邻接矩阵 $A _ { \mathrm { { d y n a } } }$ ,采用短时傅里叶变化等方法提取音频节拍脉冲特征。
步骤 2. 基于设计的 AMAA-Net 模块实现音频-动作多模态特征对齐。通过融入 Transformer网络多头注意力机制,实现音频节拍特征与动作姿态特征正逆向融合。
步骤 3. 采用平行注意力机制,结合跨模态对齐对抗任务,优化设计双路径时空卷积判别器,充分利用博弈机制实现音频-动作特征深度融合对齐,实现对舞蹈动作的识别。

图 3 Best-STMAN 网络结构设计
Fig. 3 Best-STMAN network structure design
# 3 实验与结果分析
# 3.1 数据来源
为有效评估模型,本文选取了公开的舞蹈数据集 AIST++为研究对象,AIST++舞蹈数据集包含 10 种舞蹈流派(Breaking、Popping、Locking、Waack、Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz、Ballet Jazz)数百个舞蹈动作编排[35-36],同时按 8∶2 的比例划分训练集和测试集,为适配本文舞蹈动作识别任务,考虑到每 5 秒中包含较完整一段舞蹈动作,将AIST++数据序列通过滑动窗口、插值法处理成300 帧,以能较完整覆盖每种舞蹈风格,相关数
据集的信息见表 1。独立音频轨道数据通过FFmpeg 获取,并使用 STFT 等方法逐步获取时间戳数据。
每种舞蹈风格包含其独有的动作表现形式,例如 Breaking 中经典的托马斯(Thomas)动作,因此本文选取涵盖多类舞蹈风格,涉及头部、胸部、腿部、腰部等关键部位动作姿态的经典动作(Thomas、Headspin、Robot、Lock Step、Shake、Bounce、Floating、Whacks)为分类标准,见表 2。
表 1 舞蹈视频数据信息
Table 1 Dance video data information
| 编号 | 来源 | 帧率 /fps | 序列数 |
| AIST_Part | AIST++数据集 | 60 | 554 |
表 2 舞蹈动作分类部分示例
Table 2 Classification standards for dance movements
| 序列标注(截取部分) | 类别 | 序列标注(截取部分) | 类别 |
| Lock Step | Thomas | Shake | Bounce |
| Robot | Floating | Whacks | |
# 3.2 评价指标
采用 Top-n 作为本文的评价标准,Top-n 代表在输出的预测标签前 n 类中,有符合人工标注结果的数目,并将结果转化成概率型,即预测标
签前 n 类中存在人工标注的结果,则概率为100%。本文选取 Top-1(预测结果与人工标注结果一致)和 Top-5(排名前五的预测结果包含人工标注结果)作为最终的模型评价标准。其中 Top-1 和 Top-5 的计算式为
$$
\operatorname {T o p} - 1 = \frac {\sum_ {i} ^ {N} \sigma \left(\text {c l a s s} _ {i} ^ {\text {t r u e}} = \operatorname {r a n k} _ {1} \left(\text {c l a s s} _ {i} ^ {\text {p r e}}\right)\right)}{N} \tag {31}
$$
$$
\text {T o p} - 5 = \frac {\sum_ {i} ^ {N} \sigma \left(\operatorname {c l a s s} _ {i} ^ {\text {t r u e}} = \operatorname {r a n k} _ {5} \left(\operatorname {c l a s s} _ {i} ^ {\text {p r e}}\right)\right)}{N} \tag {32}
$$
式中:N 代表样本总数; 代表第 i 个样本 的 人 工 标 注 结 果 ; 和( )prerank class 分别代表第 i 个样本排名第一和排名 前 五 的 预 测 结 果 ;
$$
\sigma \left(\text {c l a s s} _ {i} ^ {\text {t r u e}} = \operatorname {r a n k} _ {1} \left(\text {c l a s s} _ {i} ^ {\text {p r e}}\right)\right)
$$
$\sigma ( c l a s s _ { i } ^ { t r u e } = r a n k _ { s } ( c l a s s _ { i } ^ { p r e } ) )$ 分别判断人工标注结果是否在排名第一和排名前五的预测结果内,如果在则σ 1,否则
本 文 实 验 配 置 计 算 机 CPU 为 Intel(R)Core(TM) i7-11800H , 2.60GHz , GPU 为NVIDIA GeForce RTX 4090,使用 Pytorch 框架进行模型训练,加速环境 CUDA 版本为 11.0.2,Cudnn 版本为 8.0.5。
# 3.3 改进模型寻优
针对跨模态舞蹈动作识别模型的超参数优化问题,本研究采用遗传算法(Genetic Algorithm,GA)对 5 个关键参数进行系统性寻优:帧移∈[0.125,0.75]、窗口长度∈[512,4096]、注意力头数∈[1,16]、邻接矩阵因子 α∈[0.5,0.8],及梯度惩罚系数 λ∈[1,20],参数采用二进制编码,初始种群规模为 50、最大进化代数为 30、交叉概率 0.7、变异概率 0.1,适应度函数定义为验证集 Top-1准确率,适应度变化曲线如图 4 所示,前期上升
较快,后期探索缓慢趋于稳定,最终最优种群为:帧移=0.25,窗口长度=2048,注意力头数=8,邻接矩阵因子α=0.5,梯度惩罚系数 λ=12.2。

图 4 Best-STMAN 模型适应度值寻优
Fig. 4 Best-STMAN model fitness value optimization
# 3.4 消融实验
为严格验证各创新组件的有效性,本文以ST-GCN 为基础模型,通过分层增量式设计,系统评估动态邻接矩阵、多头注意力机制及跨模态对齐模块(AMAA-Net)的独立与协同贡献。在AIST_Part 数据集上,设置四组对照模型:基础ST-GCN 模型且使用静态邻接矩阵(模型 1)、使用动态邻接矩阵且保留单头机制的模型(模型 2)、使用动态邻接矩阵且线性拼接骨骼和音频特征的模型(模型 3)、完整包含 AMAA-Net 跨模态融合的模型(模型 4)和,不同模型对比分析结果见表3。
表 3 AIST_Part 数据集消融实验结果
Table 3 Experimental results of AIST_Part dataset ablation
| 模型 | 组件 | Top-1 准确率 | Top-5 准确率 | Δ Top-1 |
| 模型1 | 静态拓扑、AMAA-Net | 83.5±2.3 | 92.1±0.9 | -7.7 |
| 模型2 | 动态单头、AMAA-Net | 85.6±1.7 | 95.1±0.3 | -5.6 |
| 模型3 | 动态多头、线性拼接 | 85.9±1.5 | 94.2±1.1 | -5.3 |
| 模型4 | 动态多头、AMAA-Net | 91.2±0.8 | 98.5±0.3 | — |
从表 3 可以看出,模型 1、模型 2 和模型 3在模型 4 的基础上,性能均有所下降,在 Top-1准确率上分别降低 7.7%、5.6%和 5.3%。动态邻接矩阵增加后可以加强不同时间帧上各骨骼关节点的关联特征描述,一定程度上可以避免关节间刚性连接关系在时间帧上出现断开或短暂连接其他骨骼关节点相连情况。多头注意力机制贡献5.6%的 TOP-1 增益,其多尺度特征提取增强了时空特征的建模,跨模态对齐模块(AMAA-Net)贡献 5.3%的 TOP-1 增益,它能有效捕捉到音频
节拍对动作的驱动和动作对音频节拍的响应,其对抗博弈机制显著提升跨模态特征融合能力,提高了 ST-GCN 网络对骨架数据的信息特征提取和运用能力,能从多个维度对特征信息进行融合,更加充分的表达人体运动特征信息变化,从而提高模型的预测精度。
# 3.5 对比实验分析
为验证本文所提出模型的良好性能,选择了动作识别领域较为常用的基线模型进行对比实验分析,结果见表4。
表 4 整体分类结果
Table 4 Overall classification result
表 5 细分动作分类结果
| 模型 | AIST_Part 数据集 |
| Top-1准确率 | Top-5准确率 |
| ST-GCN | 83.4±7.3 | 93.1±0.3 |
| 2s-AGCN | 85.7±0.5 | 94.3±1.7 |
| MST-GCN | 88.6±2.1 | 96.5±1.3 |
| 2s-AGCN+TEM[37] | 89.5±1.9 | 97.4±2.2 |
| DGNN[38] | 87.7±2.3 | 95.6±1.5 |
| HD-GCN[18] | 89.0±2.0 | 96.3±1.4 |
| BlockGCN[17] | 90.6±1.8 | 97.2±1.2 |
| MMAVR[19] | 90.5±1.7 | 97.5±1.1 |
| Beat-STMAN | 91.2±2.8 | 98.5±0.3 |
Table 5 Comparison test results of segmented actions
| 模型 | TOP-1 准确率 |
| Shake | Thomas | Lock Step | Headspin | Robot | Bounce | Floating | Whacks |
| ST-GCN | 76.3 | 79.3 | 81.0 | 79.8 | 82.5 | 84.1 | 72.8 | 87.5 |
| 2s-AGCN | 80.1 | 84.3 | 84.5 | 80.5 | 86.7 | 79.5 | 78.5 | 88.1 |
| MST-GCN | 83.8 | 87.6 | 89.2 | 83.5 | 88.3 | 82.5 | 81.5 | 90.1 |
| 2s-AGCN+TEM[37] | 87.4 | 90.1 | 90.0 | 85.0 | 89.5 | 84.0 | 83.0 | 91.5 |
| DGNN[38] | 85.1 | 86.9 | 84.2 | 86.2 | 83.5 | 81.3 | 80.0 | 89.5 |
| HD-GCN[18] | 86.8 | 92.1 | 88.4 | 86.1 | 87.5 | 85.6 | 84.9 | 90.3 |
| BlockGCN[17] | 88.7 | 89.6 | 89.8 | 87.0 | 91.7 | 86.2 | 85.0 | 91.8 |
| MMAVR[19] | 89.9 | 92.7 | 90.4 | 88.3 | 89.5 | 87.2 | 86.7 | 92.3 |
| Beat-STMAN | 91.0 | 93.7 | 91.5 | 89.2 | 90.7 | 88.5 | 87.2 | 93.1 |
由表 4 可见,Beat-STMAN 在 AIST_Part 数据集上以 91.2%的 TOP-1 准确率和 98.5%的TOP-5 准确率取得最优性能。相较于单模态基准ST-GCN,其 TOP-1 指标提升 7.8%,验证了多模态融合的有效性。见表 5,在 Thomas 旋转动作 识 别 中 , Beat-STMAN(93.7%) 较 ST-GCN(79.3%)提升 14.4%,归因于节拍与腰部运动轨迹的精准对齐机制。针对 Shake 类高频抖动动作,Beat-STMAN(91.0%)不仅优于时序扩展模型 2s-AGCN+TEM(87.4%) 和 动 态 图 模 型DGNN(85.1%) , 亦 优 于 块 优 化 卷 积 模 型BlockGCN(88.7%)及多模态模型 MMAVR(89.9%),凸显其对瞬态节律特征的捕捉能力。HD-GCN 虽在 Thomas 动作中表现较优(92.1%),但其静态拓扑在高频抖动的 Shake 动作上识别率(86.8%)显著低于 Beat-STMAN(91.0%)。实验表明,现有
方法存在共性局限:BlockGCN 未建模节拍驱动的全局时空关联,MMAVR 的跨模态对齐未适配舞蹈节律特性,HD-GCN 的固定层级结构难以响应关节关联的动态变化。而 Beat-STMAN 通过多头空间注意力动态重构邻接矩阵,实现关节关联权重的实时优化,保留高频抖动细节,有效降低了该动作的误判率。上述结果证明,跨模态特征对齐机制与动态拓扑建模的协同作用,有效缓解了舞蹈动作中时空特征耦合不足与节拍-动作语义融合不足的问题,为节奏驱动型舞蹈的高精度识别提供了可靠方案。
# 4 结论
本文针对舞蹈动作识别中时空特征耦合性不足、多模态信息利用不充分等瓶颈问题,提出了一种基于跨模态节拍对齐的 Beat-STMAN 网络。
通过融合动态图卷积与对抗性注意力机制,提升了舞蹈动作的高精度识别,为沉浸式舞蹈教学与评估提供了可靠的技术路径,主要结论如下:
1) 在 ST-GCN 基础上引入动态邻接矩阵,通过多头空间注意力机制自适应捕捉人体关节关联,有效适应权重动态调整,在 Thomas 旋转动作中,较 ST-GCN 模型识别率提升 14.7%,显著提升遮蔽场景鲁棒性。
2) 提出 AMAA-Net 对抗性多头注意力跨模态对齐模块,通过 Transformer 多头注意力机制构建生成器-判别器博弈框架,有效融合动作-音频节拍特征,在高频动作 Shake 识别中较对比模型存在一定优势,有效降低误判率。
3) 在消融实验中,AMAA-Net 模块能有效捕捉到音频节拍对动作的驱动和动作对音频节拍的响应,该模块较明显提升动作特征判别性,跨模态贡献率达 5.3%,有效推动模型 Top-1 精度提升,从而提高模型的预测精度,对于舞蹈动作识别及教学评价领域运用具有实践意义。
本研究在 AIST_Part 数据集上验证了方法的有效性,但未来仍需进一步评估模型的泛化能力。下一步工作将集中于在更多元的舞蹈数据集上进行跨域验证,并探索其在实时交互、舞蹈教学质量评估等实际场景中的应用潜力,以推动技术的实用化进程。
# 参考文献 (References)
[1] 雷建云, 梁钧, 夏梦, 等. 融合时空注意力的改进 ST-GCN 人体动作识别方法研究[J]. 中南民族大学学报(自然科学版), 2025, 44(4):526-535.
LEI J Y, LIANG J, XIA M, et al. Research on the improved ST-GCN method for human action recognition by integrating spatiotemporal attention[J]. Journal of South-Central Minzu University (Natural Science Edition), 2025, 44(4): 526-535 (in Chinese).
[2] 张琼. 融合注意力机制的图神经网络运动动作识别研究[J]. 自动化与仪器仪表, 2025(3): 196-200.
ZHANG Q. Research on motor action recognition based on graph neural network integrating attention mechanism[J]. Automation & Instrumentation, 2025(3): 196-200 (in Chinese).
[3] 魏欣然, 何昕怡, 杨秀秀, 等. 基于改进 Transformer 模型的电工手部动作识别与分类方法[J]. 湖北民族大学学报(自然科学版),2025, 43(2): 253-258.
WEI X R, HE X Y, YANG X X, et al. Method for recognizing and classifying electricians’ hand movements based on improved transformer model[J]. Journal of Hubei Minzu University (Natural Science Edition), 2025, 43(2): 253-258 (in Chinese).
[4] LIU J, SHAHROUDY A, XU D, et al. Skeleton-based action recognition using spatio-temporal LSTM network with trust gates[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 3007-3021.
[5] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International
Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4489-4497.
[6] DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition and description[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 677-691.
[7] 蒋悦晗, 陈俊杰, 李洪均. 基于骨骼图神经网络的人体行为识别综述[J]. 计算机工程与应用, 2025, 61(3): 34-47.
JIANG Y H, CHEN J J, LI H J. Review of human action recognition based on skeletal graph neural networks[J]. Computer Engineering and Applications, 2025, 61(3): 34-47 (in Chinese).
[8] JI S W, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.
[9] 顾瑞坤. 融合 2D 与 3D 信息的特定舞蹈姿态识别算法设计[J]. 电子设计工程, 2025, 33(9): 144-148.
GU R K. Design of a specific dance posture recognition algorithm by integrating 2D and 3D information[J]. Electronic Design Engineering, 2025, 33(9): 144-148 (in Chinese).
[10] 许诚, 金庆红. 基于多特征融合的复杂舞蹈动作识别[J]. 安徽工程大学学报, 2022, 37(3): 64-69.
XU C, JIN Q H. Recognition of complex dance movements based on multi feature fusion[J]. Journal of Anhui Polytechnic University, 2022, 37(3): 64-69 (in Chinese).
[11] YANG X Q. Enhancing research on dance action recognition by integrating collaborative CAD through multimodal fusion[J]. Computer-Aided Design & Applications, 2025, 22(S5): 229-243.
[12] FANG Z, ZHANG X W, CAO T Y, et al. A new adjacency matrix configuration in GCN-based models for skeleton-based action recognition[EB/OL]. [2025-04-24]. https://arxiv.org/abs/2206.14344.
[13] 代金利, 曹江涛, 姬晓飞. 交互关系超图卷积模型的双人交互行为识别[J]. 智能系统学报, 2024, 19(2): 316-324.
DAI J L, CAO J T, JI X F. Two-person interaction recognition based on the interactive relationship hypergraph convolution network model[J]. CAAI Transactions on Intelligent Systems, 2024, 19(2): 316-324 (in Chinese).
[14] 刘钰, 铁有福, 江张军, 等. 基于图神经网络的人体动作识别方法[J]. 天津理工大学学报, 2025, 41(6): 73-79.
LIU Y, TIE Y F, JIANG Z J, at al. Human action recognition method based on graph neural network[J]. Journal of Tianjin University of Technology, 2025, 41(6): 73-79 (in Chinese).
[15] 杨红红, 王刘丽, 张玉梅, 等. 基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法[J]. 电子学报, 2021, 49(12): 2428-2436.
YANG H H, WANG L L, ZHANG Y M, at al. Hierarchical dance pose estimation algorithm based on sequential multi-scale feature fusion[J]. Acta Electronica Sinica, 2021, 49(12): 2428-2436 (in Chinese).
[16] 黄攀, 张宇. 基于动作捕捉传感器的民族舞蹈动作自动识别系统[J]. 自动化与仪器仪表, 2022(8): 267-271, 276.
HUANG P, ZHANG Y. Automatic recognition system of national dance movement based on motion capture sensor[J]. Automation & Instrumentation, 2022(8): 267-271, 276 (in Chinese).
[17] ZHOU Y X, YAN X D, CHENG Z Q, et al. BlockGCN: redefine topology awareness for skeleton-based action recognition[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2024: 2049-2058.
[18] LEE J, LEE M, LEE D, et al. Hierarchically decomposed graph convolutional networks for skeleton-based action recognition[C]//IEEE/CVF International Conference on Computer
Vision. New York: IEEE Press, 2023: 10410-10419.
[19] SHI Z S, LIANG J, LI Q Q, et al. Multi-modal multi-action video recognition[C]//IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2021: 13658-13667.
[20] SUN S K, LIU D Z, DONG J F, et al. Unified multi-modal unsupervised representation learning for skeleton-based action understanding[C]//The 31st ACM International Conference on Multimedia. New York: ACM, 2023: 2973-2984.
[21] YAN S J, XIONG Y J, LIN D H. Spatial temporal graph convolutional networks for skeleton-based action recognition[EB/OL]. [2025-04-24]. https://ojs.aaai.org/index.php/AAAI/article/view/12328.
[22] 李前, 杨文柱, 陈向阳, 等. 基于紧耦合时空双流卷积神经网络的 人体动作识别模型[J]. 计算机应用, 2020, 40(11): 3178-3183. LI Q, YANG W Z, CHEN X Y, et al. Human action recognition model based on tightly coupled spatiotemporal two-stream convolution neural network[J]. Journal of Computer Applications, 2020, 40(11): 3178-3183 (in Chinese).
[23] ZHONG Q B, ZHENG C M, ZHANG H X. Research on discriminative skeleton-based action recognition in spatiotemporal fusion and human-robot interaction[J]. Complexity, 2020, 2020(1): 8717942.
[24] HU K, JIN J L, ZHENG F, et al. Overview of behavior recognition based on deep learning[J]. Artificial Intelligence Review, 2022, 56(3): 1833-1865.
[25] 杨世强, 李卓, 王金华, 等. 基于新分区策略的 ST-GCN 人体动作 识别[J]. 计算机集成制造系统, 2023, 29(12): 4040-4050. YANG S Q, LI Z, WANG J H, et al. ST-GCN human action recognition based on new partition strategy[J]. Computer Integrated Manufacturing Systems, 2023, 29(12): 4040-4050 (in Chinese).
[26] 冒鑫鑫, 吴胜昔, 咸博龙, 等. 基于骨架的自适应图卷积和 LSTM 行为识别[J]. 华东理工大学学报(自然科学版), 2022, 48(6): 816- 825. MAO X X, WU S X, XIAN B L, et al. Adaptive graph convolution and LSTM action recognition based on skeleton[J]. Journal of East China University of Science and Technology, 2022, 48(6): 816-825 (in Chinese).
[27] WU F H F, LEE T C, JANG J S R, et al. A two-fold dynamic programming approach to beat tracking for audio music with timevarying tempo[EB/OL]. [2025-04-24]. https://dblp.unitrier.de/db/conf/ismir/ismir2011.html#conf/ismir/WuLJCLW11.
[28] 许铭, 王冬霞, 周城旭, 等. 改进的 Kullback-Leibler 复非负矩阵分解语音增强算法[J]. 声学技术, 2019, 38(5): 560-567.XU M, WANG D X, ZHOU C X, et al. Speech enhancement basedon improved Kullback-Leibler complex non-negative matrixfactorization[J]. Technical Acoustics, 2019, 38(5): 560-567 (inChinese).
[29] SHI Z F, WU Q B, MENG F M, et al. Cross-modal cognitive consensus guided audio–visual segmentation[J]. IEEE Transactions on Multimedia, 2025, 27: 209-223.
[30] HERSHEY S, CHAUDHURI S, ELLIS D P W, et al. CNN architectures for large-scale audio classification[C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE Press, 2017: 131-135.
[31] 田青, 虞静静, 张正. 结合自适应局部图卷积与多尺度时间建模的 骨架行为识别[J]. 计算机应用研究, 2025, 42(7): 2199-2205. TIAN Q, YU J J, ZHANG Z. Skeleton behavior recognition combining adaptive local graph convolution with multi-scale time modeling[J]. Application Research of Computers, 2025, 42(7): 2199- 2205 (in Chinese).
[32] KIM H, CHOI Y, KIM J, et al. Exploiting spatial dimensions of latent in GAN for real-time image editing[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 852-861.
[33] LI Z Q, TAO R T, WANG J, et al. Interpreting the latent space of GANs via measuring decoupling[J]. IEEE Transactions on Artificial Intelligence, 2021, 2(1): 58-70.
[34] 赵杰, 郭东. 基于平行注意力机制的对抗样本防御方法[J]. 吉林大 学学报(信息科学版), 2022, 40(5): 846-855. ZHAO J, GUO D. Adversarial examples defense method base on parallel attention mechanism[J]. Journal of Jilin University (Information Science Edition), 2022, 40(5): 846-855 (in Chinese).
[35] WANG T, JIN L, WANG Z, et al. SynSP: synergy of smoothness and precision in pose sequences refinement[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2024: 1824-1833.
[36] LI R L, YANG S, ROSS D A, et al. Learn to dance with AIST++: music conditioned 3D dance generation[EB/OL]. [2025-04-24]. https://arxiv.org/abs/2101.08779v1.
[37] OBINATA Y, YAMAMOTO T. Temporal extension module for skeleton-based action recognition[C]//2020 25th International Conference on Pattern Recognition (ICPR). New York: IEEE Press, 2021: 534-540.
[38] SHI L, ZHANG Y F, CHENG J, et al. Skeleton-based action recognition with multi-stream adaptive graph convolutional networks[J]. IEEE Transactions on Image Processing, 2020, 29: 9532- 9545.