2019论文阅读笔记<02>

2019 论文阅读笔记 <02>

【基本信息】

  • 论文题目:Convolutional Neural Networks for Sentence Classification
  • 作者:Yoon Kim
  • 组织:New York University
  • 出版:Association for Computational Linguistics
  • 关联:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)
  • 日期:October 2014
  • 简介:此论文在CNN上使用词向量处理自然语言的问题,将词向量与深度学习(NLP与卷积神经网络)结合,并构建了一个简单的CNN模型进行实验,指出了词向量是神经网络对于自然语言处理的一个重要部分(unsupervised pre-training of word vectors is an important ingredient in deep learning for NLP)

【词汇术语】

专业词汇/术语

  • tanh: hyperbolic tangent, 双曲正切函数
  • pooling: 池化层,集中特征
  • Regularization: 正则化
    • 给损失函数加一个正则化项
    • l2-norms

语言词汇

  • utilize: 利用
  • disentangle: 摆脱

模型/模式/算法

  • $\circ$: the element-wise multiplication operator
    • 数组对应元素相乘
  • Bernoulli random variables:伯努利随机变量
    • 01分布:$P(X=1)=p,\ P(x=1)=1-p$
  • norm: 范数
    • $l_2-norms(||w||_2)$: 第二范数,欧几里得范数
      • $||w||_2=\sqrt{x_1^2+x_2^2+…+x_n^2}$

【论文笔记】

「简介内容」

  • 深度学习(Deep Learning):当时主要应用于计算机视觉、语音识别,在自然语言处理方面,则用于特征分类上。
  • 词向量(Word Vectors)
  • 卷积神经网络(Convolutional neural networks, CNN)
    • 利用卷积过滤器层
    • 最早用于计算机视觉
    • 在语义分析上展现出能力

「模型」

模型结构图 CNN Model Architecture

变量信息

  • $x_i$: $k$维词向量句子中的第$i$个词语
  • $x_{1:n}$: 长度为n的句子
  • $w$: 长度为$h$的窗口
  • 特征: $c_i=f(w\cdot x_{i:i+h-1}+b)$
    • $f$: 非线性函数
    • $b$: 偏移
  • $\hat{c}=\max{c}$

各层信息

  • 池化层:max-pooling方法
  • 全连接层:softmax

正则化

  • 正则化用于防止过拟合,常见是在损失函数中加入正则项(L1、L2正则化),本文采用的是DropOut方法。
  • Dropout
    • 训练中随机删掉隐藏层的一半节点进行学习,之后再对另一半节点进行一轮学习,最终将权重除以2。
    • 减少了神经元间的依赖性,降低了过拟合,提高了准确率。

「实验结论」

  • 实验方法、结果不再重复,有兴趣可以自行阅读论文。
  • 最重要的一点是,该论文指出词向量是神经网络对于自然语言处理的一个重要部分(Our results add to the well-established evidence that unsupervised pre-training of word vectors is an important ingredient in deep learning for NLP.)。

【小记总结】

  • 此论文作为CNN与NLP结合的开山之作,虽然模型简单,但却极具价值和意义。创造性、拓展性的思维和能力,急需。

  Reprint please specify: Yi勒 2019论文阅读笔记<02>

  TOC