2019 论文阅读笔记 <02>
【基本信息】
- 论文题目:Convolutional Neural Networks for Sentence Classification
- 作者:Yoon Kim
- 组织:New York University
- 出版:Association for Computational Linguistics
- 关联:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)
- 日期:October 2014
- 简介:此论文在CNN上使用词向量处理自然语言的问题,将词向量与深度学习(NLP与卷积神经网络)结合,并构建了一个简单的CNN模型进行实验,指出了词向量是神经网络对于自然语言处理的一个重要部分(unsupervised pre-training of word vectors is an important ingredient in deep learning for NLP)。
【词汇术语】
专业词汇/术语
- tanh: hyperbolic tangent, 双曲正切函数
- pooling: 池化层,集中特征
- Regularization: 正则化
- 给损失函数加一个正则化项
- l2-norms
语言词汇
- utilize: 利用
- disentangle: 摆脱
模型/模式/算法
- $\circ$: the element-wise multiplication operator
- 数组对应元素相乘
- Bernoulli random variables:伯努利随机变量
- 01分布:$P(X=1)=p,\ P(x=1)=1-p$
- norm: 范数
- $l_2-norms(||w||_2)$: 第二范数,欧几里得范数
- $||w||_2=\sqrt{x_1^2+x_2^2+…+x_n^2}$
- $l_2-norms(||w||_2)$: 第二范数,欧几里得范数
【论文笔记】
「简介内容」
- 深度学习(Deep Learning):当时主要应用于计算机视觉、语音识别,在自然语言处理方面,则用于特征分类上。
- 词向量(Word Vectors)
- 卷积神经网络(Convolutional neural networks, CNN)
- 利用卷积过滤器层
- 最早用于计算机视觉
- 在语义分析上展现出能力
「模型」
模型结构图
变量信息
- $x_i$: $k$维词向量句子中的第$i$个词语
- $x_{1:n}$: 长度为n的句子
- $w$: 长度为$h$的窗口
- 特征: $c_i=f(w\cdot x_{i:i+h-1}+b)$
- $f$: 非线性函数
- $b$: 偏移
- $\hat{c}=\max{c}$
各层信息
- 池化层:max-pooling方法
- 全连接层:softmax
正则化
- 正则化用于防止过拟合,常见是在损失函数中加入正则项(L1、L2正则化),本文采用的是DropOut方法。
- Dropout
- 训练中随机删掉隐藏层的一半节点进行学习,之后再对另一半节点进行一轮学习,最终将权重除以2。
- 减少了神经元间的依赖性,降低了过拟合,提高了准确率。
「实验结论」
- 实验方法、结果不再重复,有兴趣可以自行阅读论文。
- 最重要的一点是,该论文指出词向量是神经网络对于自然语言处理的一个重要部分(Our results add to the well-established evidence that unsupervised pre-training of word vectors is an important ingredient in deep learning for NLP.)。
【小记总结】
- 此论文作为CNN与NLP结合的开山之作,虽然模型简单,但却极具价值和意义。创造性、拓展性的思维和能力,急需。