2019 论文阅读笔记 <02>
【基本信息】
- 论文题目:Convolutional Neural Networks for Sentence Classification
 - 作者:Yoon Kim
 - 组织:New York University
 - 出版:Association for Computational Linguistics
 - 关联:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)
 - 日期:October 2014
 - 简介:此论文在CNN上使用词向量处理自然语言的问题,将词向量与深度学习(NLP与卷积神经网络)结合,并构建了一个简单的CNN模型进行实验,指出了词向量是神经网络对于自然语言处理的一个重要部分(unsupervised pre-training of word vectors is an important ingredient in deep learning for NLP)。
 
【词汇术语】
专业词汇/术语
- tanh: hyperbolic tangent, 双曲正切函数
 - pooling: 池化层,集中特征
 - Regularization: 正则化
- 给损失函数加一个正则化项
 - l2-norms
 
 
语言词汇
- utilize: 利用
 - disentangle: 摆脱
 
模型/模式/算法
- $\circ$: the element-wise multiplication operator
- 数组对应元素相乘
 
 - Bernoulli random variables:伯努利随机变量
- 01分布:$P(X=1)=p,\ P(x=1)=1-p$
 
 - norm: 范数
- $l_2-norms(||w||_2)$: 第二范数,欧几里得范数
- $||w||_2=\sqrt{x_1^2+x_2^2+…+x_n^2}$
 
 
 - $l_2-norms(||w||_2)$: 第二范数,欧几里得范数
 
【论文笔记】
「简介内容」
- 深度学习(Deep Learning):当时主要应用于计算机视觉、语音识别,在自然语言处理方面,则用于特征分类上。
 - 词向量(Word Vectors)
 - 卷积神经网络(Convolutional neural networks, CNN)
- 利用卷积过滤器层
 - 最早用于计算机视觉
 - 在语义分析上展现出能力
 
 
「模型」
模型结构图    
变量信息
- $x_i$: $k$维词向量句子中的第$i$个词语
 - $x_{1:n}$: 长度为n的句子
 - $w$: 长度为$h$的窗口
 - 特征: $c_i=f(w\cdot x_{i:i+h-1}+b)$
- $f$: 非线性函数
 - $b$: 偏移
 
 - $\hat{c}=\max{c}$
 
各层信息
- 池化层:max-pooling方法
 - 全连接层:softmax
 
正则化
- 正则化用于防止过拟合,常见是在损失函数中加入正则项(L1、L2正则化),本文采用的是DropOut方法。
 - Dropout
- 训练中随机删掉隐藏层的一半节点进行学习,之后再对另一半节点进行一轮学习,最终将权重除以2。
 - 减少了神经元间的依赖性,降低了过拟合,提高了准确率。
 
 
「实验结论」
- 实验方法、结果不再重复,有兴趣可以自行阅读论文。
 - 最重要的一点是,该论文指出词向量是神经网络对于自然语言处理的一个重要部分(Our results add to the well-established evidence that unsupervised pre-training of word vectors is an important ingredient in deep learning for NLP.)。
 
【小记总结】
- 此论文作为CNN与NLP结合的开山之作,虽然模型简单,但却极具价值和意义。创造性、拓展性的思维和能力,急需。