SimCSE（一）

论文研究生 SimCSE 知识图谱

论文

发布日期: 2021-04-26

更新日期: 2021-04-28

文章字数: 1.9k

阅读次数:

Simple Contrastive Learning of Sentence Embeddings（一）

SimCSE的全称为 Simple Contrastice Learning of Sentence Embeddings。Sim代表Simple，就是简单。

他简单的运用了 dropout 的方法替换了传统的数据增强方法，将同一个输入dropout两次作为对比学习的正例，而且效果甚好。

红色： 名词第一次出现

紫色： 解释专有名词

粉色： 原因以及解决方法

拟合： 拟合就是把平面上一系列的点，用一条光滑的曲线连接起来。因为这条曲线有无数种可能，从而有各种拟合方法。拟合的曲线一般可以用函数表示，根据这个函数的不同有不同的拟合名字。
泛化误差： 对于深度学习或机器学习模型而言，我们不仅要求它对训练数据集有很好的拟合（训练误差），同时也希望它可以对未知数据集（测试集）有很好的拟合结果（泛化能力），所产生的测试误差被称为泛化误差。

训练刚开始的时候，模型还在学习过程中，处于欠拟合区域。随着训练的进行，训练误差和测试误差都下降。在到达一个临界点之后，训练集的误差下降，测试集的误差上升了，这个时候就进入了过拟合区域——由于训练出来的网络过度拟合了训练集，对训练集以外的数据却不work。

欠拟合： 欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在训练集上就表现很差，没法学习到数据背后的规律。
- 如何解决欠拟合： 欠拟合基本上都会发生在训练刚开始的时候，经过不断训练之后欠拟合应该不怎么考虑了。但是如果真的还是存在的话，可以通过增加网络复杂度或者在模型中 增加特征 ，这些都是很好解决欠拟合的方法。
- 增加特征： 添加高次多项式，使模型泛化能力更强
过拟合： 过拟合是指训练误差和测试误差之间的差距太大。换句换说，就是模型复杂度高于实际问题，模型在训练集上表现很好，但在测试集上却表现很差。模型对训练集"死记硬背"（记住了不适用于测试集的训练集性质或特点），没有理解数据背后的规律，泛化能力差。
- 造成原因： 训练数据集样本单一，样本不足。所以训练样本要尽可能的全面，覆盖所有的数据类型。训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征，忽略了真实输入和输出之间的关系。**模型过于复杂。**模型太复杂，已经能够“死记硬背”记下了训练数据的信息，但是遇到没有见过的数据的时候不能够变通，泛化能力太差。我们希望模型对不同的模型都有稳定的输出。模型太复杂是过拟合的重要因素。
- 防止过拟合： 要想解决过拟合问题，就要显著减少测试误差而不过度增加训练误差，从而提高模型的泛化能力。我们可以使用正则化（Regularization）方法。正则化是指修改学习算法，使其降低泛化误差而非训练误差。
- 常用的正则化方法根据具体的使用策略不同可分为：（1）直接提供正则化约束的参数正则化方法，如L1/L2正则化；（2）通过工程上的技巧来实现更低泛化误差的方法，如提前终止(Early stopping)和 Dropout ；（3）不直接提供约束的隐式正则化方法，如数据增强等。 目前主要学习Dropout方法 。