2019 论文阅读笔记 <01>
【基本信息】
- 论文题目: Entropy-Based Term Weighting Schemes for Text Categorization in VSM
- 作者:Tao Wang ; Yi Cai ; Ho-fung Leung ; Zhiwei Cai ; Huaqing Min
- 出版: 2015 IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI)
- 日期:9-11 Nov. 2015 / 07 Jan 2016
- 标签:TC、VSM
- 简介:此论文分析了用于文本分类任务的一些权重法(如无监督学习中的$tf,tf\cdot idf,BM25$ 与监督学习中的$rf,iqf\cdot qf\cdot icf,tf\cdot gr$等),指出这些已有模式在文本分类中存在的问题,并提出了两种新的基于熵的权重法($tf\cdot dc$ 和 $tf\cdot bdc$),提升了术语的辨别力与文本分类任务的完成。
【词汇术语】
专业词汇/术语
- TC (Text Categorization):文本分类
- VSM (Vector Space Model):向量空间模型
- IR (Information Retrieval):信息检索
- unsupervised & supervised:无监督、监督
- Contingency Table 情形分析表
- positive category (PC) :正类
- negative category (NC):负类
语言词汇
- state-of-the-art:当前最好的
模型/模式/算法
- KNN (k-Nearest Neighbor):邻近算法
- SVM (Support Vector Machine):支持向量机
- $tf$:Term Frequency 词频
- $词频(TF)=某个词在文章中的出现次数$
- $词频(TF)=\frac{某个词在文章中的出现次数}{文章的总词数}$
- $词频(TF)=\frac{某个词在文章中的出现次数}{该文出现次数最多的词的出现次数}$
- Variants: $\log(tf),\log(tf+1),log(tf)+1,…$
- $idf$: Inverse document frequency 逆文本频率指数
- $逆文档频率(IDF)=\log(\frac{语料库的文档总数}{包含该词的文档数+1})$
- $df$: document frequency
- 包含词条的文档越小,$idf$越大
- $dc$: distributional concentration
- $dc(t)=1-\frac{H(t)}{\log(|C|)}=1+\frac{\sum^{|C|}_{i=1}\frac{f(t,c_i)}{f(t)}\log{\frac{f(t,c_i)}{f(t)}}}{\log{|C|}}$
- $rf$: relevance frequency, $rf=\frac{a}{c}$
- $cf$: category frequency, 出现的类别越少,值越大
- $bdc$: balanced distributional concentration
- $bdc(t)=1-\frac{BH(t)}{\log(|C|)}=1+\frac{\sum^{|C|}_{i=1}\frac{p(t|c_i)}{\sum^{|C|}_{i=1}p(t|c_i)}\log{\frac{p(t|c_i)}{sum^{|C|}_{i=1}p(t|c_i)}}}{\log{|C|}}$
【论文笔记】
「已有方法 —- 无监督学习方法」
无监督学习(unsupervised)
- 含义:无先验知识(无标签)的学习
- 常见模式:$tf,tf\cdot idf,BM25 $
缺点问题
- 【由于】关注于词出现的次数,而忽略了训练文档(documents)的类别标签(category labels)
- 【导致】
- 词语(term)能区别文档的差异,但不能区别类别的差异
- 在文本分类任务中,不足以衡量词语对文档类别的辨别能力(discriminating power)
「已有方法 —- 监督学习方法」
监督学习(supervised)
- 含义:利用已知类别的样本进行学习
- 常见模式:$rf,iqf\cdot qf\cdot icf,tf\cdot gr$
缺点问题
- 缘由:大部分监督学习用到了情形分析表中的正类(PC)和负类(NC)
- 【由于】在多类别的情况(multi-class case)中,正类只有一个类,而负类是多个类的集合
- 【导致】负类中产生了信息损失(information loss)
已有优化仍然存在的问题
- 正类和负类的分离问题 (PC/NC-split based schemes)仍然存在,使得无法有效区别类别。
- 一种基于统计置信区间的模式(a scheme based on statistical confidence intervals)
- 过于复杂难以实现
「基于熵的权重法」
基于熵的权重法(entropy- based term weighting schemes)
- 观点
- 利用负类中的具体类别帮助提升辨别力
- 更高浓度(higher concentration)的词语具有更强的辨别能力
- 在类别层面有更高浓度分布的词语的熵更小
- 熵值越小,辨别能力越强
模式1: Distribution Concentration
- 模式:$dc$, distribution concentration
- 计算公式: $dc(t)=1-\frac{H(t)}{\log(|C|)}=1+\frac{\sum^{|C|}_{i=1}\frac{f(t,c_i)}{f(t)}\log{\frac{f(t,c_i)}{f(t)}}}{\log{|C|}}$
- $|C|$: 类别数量
- $f(t,c_i)$: 表示词语 $t$ 在类别 $c_i$ 中出现的频率,这里使用 $df(t,c_i)$
- $f(t)$: 词语 $t$ 在所有类别出现的频数和
- $H(t)$: 词语 $t$ 在语料库中类别的熵,$H(t)\in [0,\log|C|]$
- 特征优势
- 词语的权重基于在类别中词语的全局分布,而不是依赖于已有的类别正类。
- 因此,不需要已有的正类标签就可以进行分类。
- 缺陷
- 缺少类别的优先级信息(不同种类文档的长度不同,会导致熵的计算产生偏差)
- $bdc$模式解决此问题
- 缺少类别的优先级信息(不同种类文档的长度不同,会导致熵的计算产生偏差)
模式2: Balanced Distributional Concentration
- 模式:$bdc$, balanced distributional concentration
- 计算公式: $bdc(t)=1-\frac{BH(t)}{\log(|C|)}=1+\frac{\sum^{|C|}_{i=1}\frac{p(t|c_i)}{\sum^{|C|}_{i=1}p(t|c_i)}\log{\frac{p(t|c_i)}{sum^{|C|}_{i=1}p(t|c_i)}}}{\log{|C|}}$
- 特征优势
- 解决了 $dc$ 模式存在的问题
「实验结果」
- 此处对于实验的数据、内容、结论不做详细描述,有兴趣可以自行查看论文。
【小记总结】
- 2019论文博客整理的第一篇,希望能坚持,不足之处还请谅解。许多的英文词汇转为中文总有些怪异的感觉,就保留在中文词后面了。
- 此论文指出了过往文本分类任务中一些模式(scheme, 这个词翻译成模式也觉得读起来不太顺口,汗)的缺陷,无法很好地利用标签信息、区别类别差异,因而引入了熵的概念。一种角度来说,也是更充分地利用“压榨”已有信息(无监督学习模式忽略了类别标签,PC/NC的监督学习模式则忽略了NC中的类别差异),挖掘、压榨、充分利用全部信息,促进更好的分类。