MAE可以准确反映实际预测误差的大小。 MAE用于评价真实值与拟合值的偏离程度,MAE值越接近于0,说明模型拟合越好,模型预测准确率越高(但是RMSE值还是使用最多的)。 ViT (Vision Transformers)是模型结构,而 MAE 是在 ViT 结构上自监督训练的 masked encoder。 我猜题主想问的是,为什么用的都是ImageNet 或者 JFT300 这种有监督的大数据集上训练的模型,而不是自监督预训练的模型? 这是 MAE体的架构图,预训练阶段一共分为四个部分,MASK,encoder,decoder。 MASK 可以看到一张图片进来,首先把你切块切成一个一个的小块,按格子切下来。 其中要被MASK住的这一块就是涂成一个灰色,然后没有MASK住的地方直接拎出来,这个地方75%的地方被MASK住了。
Mae Winters's feet
MSE 和 MAE 的计算方法完全不同,你可以去搜一下公式看一下。 直观理解的话,MSE是先平方,所以 放大 了 大 误差,比如,在平稳的序列点上,MAE误差为2,在波峰波谷上MAE误差为10,那么平方以后,MSE为4和100。
MAE编码器 编码器为原始ViT,且只应用未屏蔽的patch,并采用线性投影计算这些patch的patch embedding,并添加position embedding,然后通过一系列Transformer块处理结果集。 MAE解码器 如图1,解码器的输入是完整的patch集,包括编码器输出的未屏蔽patch的特征token和mask tokens。
总结 L1范数、L1损失和MAE损失在对异常值的鲁棒性方面优于L2范数、L2损失和MSE损失,但后者在数学上更光滑,更容易进行优化。 选择哪种损失函数取决于具体问题的需求和数据的特性。 旋转位置编码(Rotary Position Embedding,RoPE)是论文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型也是采用该位置编码方式。 和相对位置编码相比,RoPE 具有更好的 外推性. kaiming的论文mae中,使用的遮掩比例是75,并在此取得最好的成绩。 如下图 虽然从实验可以得知75是性价比最高的选择,但是为什么在遮掩75后,…