2019 论文阅读笔记 <02>

【基本信息】

论文题目：Convolutional Neural Networks for Sentence Classification
作者：Yoon Kim
组织：New York University
出版：Association for Computational Linguistics
关联：Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)
日期：October 2014
简介：此论文在CNN上使用词向量处理自然语言的问题，将词向量与深度学习（NLP与卷积神经网络）结合，并构建了一个简单的CNN模型进行实验，指出了词向量是神经网络对于自然语言处理的一个重要部分（unsupervised pre-training of word vectors is an important ingredient in deep learning for NLP）。

$\circ$: the element-wise multiplication operator
- 数组对应元素相乘
Bernoulli random variables：伯努利随机变量
- 01分布：$P(X=1)=p,\ P(x=1)=1-p$
norm: 范数
- $l_2-norms(||w||_2)$: 第二范数，欧几里得范数
  - $||w||_2=\sqrt{x_1^2+x_2^2+…+x_n^2}$

深度学习（Deep Learning）：当时主要应用于计算机视觉、语音识别，在自然语言处理方面，则用于特征分类上。
词向量（Word Vectors）
卷积神经网络（Convolutional neural networks, CNN）
- 利用卷积过滤器层
- 最早用于计算机视觉
- 在语义分析上展现出能力

正则化用于防止过拟合，常见是在损失函数中加入正则项（L1、L2正则化），本文采用的是DropOut方法。
Dropout
- 训练中随机删掉隐藏层的一半节点进行学习，之后再对另一半节点进行一轮学习，最终将权重除以2。
- 减少了神经元间的依赖性，降低了过拟合，提高了准确率。

实验方法、结果不再重复，有兴趣可以自行阅读论文。
最重要的一点是，该论文指出词向量是神经网络对于自然语言处理的一个重要部分（Our results add to the well-established evidence that unsupervised pre-training of word vectors is an important ingredient in deep learning for NLP.）。