Wav2vec2 论文阅读看到的一些问题
这里只是简单的思考一下论文的一些问题,不是论文解读。
Q1. 为什么wav2vec依旧需要Transformer来做推理,而不直接使用VQ生成的内容?
A1. Transformer在更长的序列上有更好的编码效果,例如论文也写Contextualized representations with Transformers。另一个因素在于对比学习本质上是区分相似性,让正样本之间更接近,让正负样本之间更远离,而不是类似CE的完全逼近。参考损失函数:
−
l
o
g
e
x
p
(
s
i
m
(
c
t
,
q
t
)
/
κ
)
∑
q
∼
Q
t
^
e
x
p
(
s
i
m
(
c
t
,
q
^
)
/
κ
)
-log \frac{exp(sim(\textbf{c}_t, \textbf{q}_t) / \kappa)}{\sum_{\hat{\textbf{q} \sim \textbf{Q}_t} exp(sim (\textbf{c}_t, \hat{\textbf{q}})/ \kappa)}}
−log∑q∼Qt^exp(sim(ct,q^)/κ)exp(sim(ct,qt)/κ)文章来源:https://www.toymoban.com/news/detail-638418.html
Q2. VQ是怎么训练的?
A2. 是联合训练的,在训练早期CodeBook是随机初始化。这个一点和HuBERT有一点不太一样,后者是提前预训练。文章来源地址https://www.toymoban.com/news/detail-638418.html
到了这里,关于Wav2vec2 论文阅读看到的一些问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!