以下对于Transformer的说法中,正确的是()。
A.Transformer中有三种不同的mask机制:inputspaddingmask、lookaheadmask和outputspaddingmask
B.layernormalization和batchnormalization都是样本归一化方法,他们在计算时都是用同一个均值和方差。
C.Self-Attention中,必须要做输入特征向量线性变换
D.位置编码可以通过自定义函数来转换,也可以通过lookup方式让模型自主学习位置编码