2019论文阅读笔记<01>

2019 论文阅读笔记 <01>

【基本信息】

【词汇术语】

专业词汇/术语

  • TC (Text Categorization):文本分类
  • VSM (Vector Space Model):向量空间模型
  • IR (Information Retrieval):信息检索
  • unsupervised & supervised:无监督、监督
  • Contingency Table 情形分析表
    • positive category (PC) :正类
    • negative category (NC):负类

语言词汇

  • state-of-the-art:当前最好的

模型/模式/算法

  • KNN (k-Nearest Neighbor):邻近算法
  • SVM (Support Vector Machine):支持向量机
  • $tf$:Term Frequency 词频
    • $词频(TF)=某个词在文章中的出现次数$
    • $词频(TF)=\frac{某个词在文章中的出现次数}{文章的总词数}$
    • $词频(TF)=\frac{某个词在文章中的出现次数}{该文出现次数最多的词的出现次数}$
    • Variants: $\log(tf),\log(tf+1),log(tf)+1,…$
  • $idf$: Inverse document frequency 逆文本频率指数
    • $逆文档频率(IDF)=\log(\frac{语料库的文档总数}{包含该词的文档数+1})$
    • $df$: document frequency
    • 包含词条的文档越小,$idf$越大
  • $dc$: distributional concentration
    • $dc(t)=1-\frac{H(t)}{\log(|C|)}=1+\frac{\sum^{|C|}_{i=1}\frac{f(t,c_i)}{f(t)}\log{\frac{f(t,c_i)}{f(t)}}}{\log{|C|}}$
  • $rf$: relevance frequency, $rf=\frac{a}{c}$
  • $cf$: category frequency, 出现的类别越少,值越大
  • $bdc$: balanced distributional concentration
    • $bdc(t)=1-\frac{BH(t)}{\log(|C|)}=1+\frac{\sum^{|C|}_{i=1}\frac{p(t|c_i)}{\sum^{|C|}_{i=1}p(t|c_i)}\log{\frac{p(t|c_i)}{sum^{|C|}_{i=1}p(t|c_i)}}}{\log{|C|}}$

【论文笔记】

「已有方法 —- 无监督学习方法」

无监督学习(unsupervised)

  • 含义:无先验知识(无标签)的学习
  • 常见模式:$tf,tf\cdot idf,BM25 $

缺点问题

  • 【由于】关注于词出现的次数,而忽略了训练文档(documents)类别标签(category labels)
  • 【导致】
    • 词语(term)能区别文档的差异,但不能区别类别的差异
    • 在文本分类任务中,不足以衡量词语对文档类别的辨别能力(discriminating power)

「已有方法 —- 监督学习方法」

监督学习(supervised)

  • 含义:利用已知类别的样本进行学习
  • 常见模式:$rf,iqf\cdot qf\cdot icf,tf\cdot gr$

缺点问题

  • 缘由:大部分监督学习用到了情形分析表中的正类(PC)和负类(NC)
  • 【由于】多类别的情况(multi-class case)中,正类只有一个类,而负类是多个类的集合
  • 【导致】负类中产生了信息损失(information loss)

已有优化仍然存在的问题

  • 正类和负类的分离问题 (PC/NC-split based schemes)仍然存在,使得无法有效区别类别。
  • 一种基于统计置信区间的模式(a scheme based on statistical confidence intervals)
    • 过于复杂难以实现

「基于熵的权重法」

基于熵的权重法(entropy- based term weighting schemes)

  • 观点
    • 利用负类中的具体类别帮助提升辨别力
    • 更高浓度(higher concentration)的词语具有更强的辨别能力
    • 在类别层面有更高浓度分布的词语的熵更小
  • 熵值越小,辨别能力越强

模式1: Distribution Concentration

  • 模式:$dc$, distribution concentration
  • 计算公式: $dc(t)=1-\frac{H(t)}{\log(|C|)}=1+\frac{\sum^{|C|}_{i=1}\frac{f(t,c_i)}{f(t)}\log{\frac{f(t,c_i)}{f(t)}}}{\log{|C|}}$
    • $|C|$: 类别数量
    • $f(t,c_i)$: 表示词语 $t$ 在类别 $c_i$ 中出现的频率,这里使用 $df(t,c_i)$
    • $f(t)$: 词语 $t$ 在所有类别出现的频数和
    • $H(t)$: 词语 $t$ 在语料库中类别的熵,$H(t)\in [0,\log|C|]$
  • 特征优势
    • 词语的权重基于在类别中词语的全局分布,而不是依赖于已有的类别正类。
    • 因此,不需要已有的正类标签就可以进行分类。
  • 缺陷
    • 缺少类别的优先级信息(不同种类文档的长度不同,会导致熵的计算产生偏差)
      • $bdc$模式解决此问题

模式2: Balanced Distributional Concentration

  • 模式:$bdc$, balanced distributional concentration
  • 计算公式: $bdc(t)=1-\frac{BH(t)}{\log(|C|)}=1+\frac{\sum^{|C|}_{i=1}\frac{p(t|c_i)}{\sum^{|C|}_{i=1}p(t|c_i)}\log{\frac{p(t|c_i)}{sum^{|C|}_{i=1}p(t|c_i)}}}{\log{|C|}}$
  • 特征优势
    • 解决了 $dc$ 模式存在的问题

「实验结果」

  • 此处对于实验的数据、内容、结论不做详细描述,有兴趣可以自行查看论文。

【小记总结】

  • 2019论文博客整理的第一篇,希望能坚持,不足之处还请谅解。许多的英文词汇转为中文总有些怪异的感觉,就保留在中文词后面了。
  • 此论文指出了过往文本分类任务中一些模式(scheme, 这个词翻译成模式也觉得读起来不太顺口,汗)的缺陷,无法很好地利用标签信息、区别类别差异,因而引入了熵的概念。一种角度来说,也是更充分地利用“压榨”已有信息(无监督学习模式忽略了类别标签,PC/NC的监督学习模式则忽略了NC中的类别差异),挖掘、压榨、充分利用全部信息,促进更好的分类。

  Reprint please specify: Yi勒 2019论文阅读笔记<01>

  TOC