2020论文阅读笔记<02>

2020论文阅读笔记 <02>

【基本信息】

  • 论文题目:A Graph-theoretic Summary Evaluation for ROUGE
  • 作者:Elaheh ShafieiBavani, Mohammad Ebrahimi, Raymond Wong, Fang Chen
  • 日期:Jan 2018
  • 标签:NLG
  • 简介:由于ROUGE仅仅依赖于生成文本(peer)和参考文本(model)之间的表面相似度,而忽略了词汇的变化和释义,所以无法正确地评估摘要。本文使用了一种基于图的方法(sense-based represtation,PPR向量,Path-based and Rank and Weight measure)修改ROUGE,基于词汇和语义相似性,提高评估效果。并使用显著性评估来表明,改进后的指标ROUGE-G与手工判断的相关性更高。

【论文概要】

1. 研究问题

a. 当前ROUGE对摘要评估存在的问题?(忽略了词汇的语义相关性)

b. 如何修改ROUGE,增加对词汇相关性的考量。(基于图的方法,PPR向量、基于路径、增加权重、消除歧义等)

c. 在增加相关性的时候,如何提高效率。(剪裁)

c. 如何评估新指标ROUGE-G与原指标的“好坏”。(显著性评估,Pearson、Sperman、Kendall)

2. ROUGE与其存在的问题

  • ROUGE (Recall-Oriented Understanding for Gisting Evaluation)
    • 最早且应用最广泛的文本摘要评价指标之一。
    • $ROUGE-N=\frac{\sum_{S\in {Ref\ Summaries}}\sum_{n-gram\in S}Count_{match}(n-gram)}{\sum_{S\in {Ref\ Summaries}}\sum_{n-gram\in S}Count(n-gram)}$
  • 存在的问题
    • 问题:忽略了词汇相关性的考量
    • 示例:
      • The strolled around the city.
      • They took a walk to explore the town.
      • 两句话的语义含义相同,但用词不同,如果只有一个在参考中则另一个评分低。

3. ROUGE-G 解决方案

a. PPR向量表示

  • WordNet图:忽略各种边的类型,但增加不同词性(Part-of-Speech POS)的考虑,用连接点的个数来表示维数。
  • S位置的PPR向量:
    • $p^{(k)}(S)=dAp^{(k-1)}(S)+(1-d)p^{(0)}(S)$
    • 随机漫步(random walker):d的概率跳到下一节点,1-d的概率返回出发点。
    • A:邻接矩阵,跳动

b. 向量的语义相似度

  • 比较存在的问题:随机漫步特定顶点的特定迭代次数,可能产生假相似

    • 例子:law-suit-tailor-dress中,law 和dress是假相似
    • 增加到一个特定点的路径长度考量
  • 每次迭代x中,排序维度(dimensions, senses)

    • $Sim_{sem}(I,J)=\sum^{k}_{x=0}c^x\times RW(p^{(x)}(I),p^{(x)}(J))$
  • 加权之间的重叠

    • $$
      \begin{equation}
      RW(Y,Z)=\left{
      \begin{aligned}
      &\frac{\sum_{h\in H}(r_h(Y)+r_h(Z))^{-1}}{\sum_{i=1}^{|H|}(2i)^{-1}},\ &if\ |H|>0\
      &0,\ &otherwise
      \end{aligned}
      \right.
      \end{equation}
      $$

c. ROUGE-G计算

  • ROUGE-G 综合词汇和语义相似性计算:

    • $ROUGE-G-N=\frac{\sum_{M\in{ModelSums}}\sum_{n-gram_m\in M,\n-gram_p\in PeerSum}Sim_{LS}(n-gram_m,n-gram_p)}{\sum_{M\in {ModelSums}}\sum_{n-gram_m\in M}Count(n-gram_m)}$
  • $Sim_{LS}$:模型摘要和文本摘要

    • $$
      \begin{aligned}
      Sim_{LS}(n-gram_m,n-gram_p)=
      &\beta\times Count_{match}(n-gram_m,n-gram_p)\
      &+(1-\beta)\times Sim_{sem}(n-gram_m,n-gram_p)
      \end{aligned}
      $$

d. 上下文信息的缺失处理

  • 使用语义对齐(semantic alignment)最大化比较词的相似性。
  • 例:
    • 句$P_{a1}.officer^3_n,fire^4_v$
    • 句$P_{a2}.policeman^1_n,terminate^4_v,corruption^6_n,probe^1_n$
    • $t^i_p$表示:WordNet中的p词性的词汇t的第i维感官
    • 会有结果:$Sim_{sem}(fire^4_v,terminate^4_v)=1$

e. OOV处理

  • OOV:词汇资源中没有定义的单词
  • 在PPR中增加一个额外的变量。

4. 实验验证方法

  • 显著性检验(significance tests)
    • 由于在与人类的竞争关系中存在的大/小的差异并不能作为一种度量优于另一种度量的证明,因此应采用显著性检验。
    • 采用Graham提出的两两配对Williams显著性检验
    • 先对ROUGE进行重新采样
  • 三个指标分析:Person、Spearman、Kendall

【收获小节】

  1. 文章的大致思路清楚了,但对于语义对齐、WordNet和显著性检验的具体操作方法可能还需要再多了解一点(目前知道其作用和意思,但具体实现还是有一些疑惑)。
  2. 对于实验指标的好坏比较,与人工评估的对比,直接的大小差异不能作为直接的证明,可以使用显著性检验。
  3. 语义相似度、词汇的缺失等内容也可以加入考虑之中。

  Reprint please specify: Yi勒 2020论文阅读笔记<02>

 Previous
软件测试与维护(一)Introduction 软件测试与维护(一)Introduction
软件测试与维护(一):Introduction测试概念Bug 缺陷 别名:缺点(defect)、偏差(variance)、故障(fault)、失败(failure)、问题(problem)、矛盾(inconsistency)、错误(erro
Next 
2020论文阅读笔记<01> 2020论文阅读笔记<01>
2020论文阅读笔记 <01>【基本信息】 论文题目:Towards a Better Metric for Evaluating Question Generation Systems 作者:Preksha Nema, Mit
2019-12-08
  TOC