Yi勒

一个有关笔记、感想、生活的博客...

2020论文阅读笔记<02>

Article NLG

Article

Publish Date: 2019-12-10

Word Count: 1.1k

Read Times: 4 Min

Read Count:

2020论文阅读笔记 <02>

【基本信息】

论文题目：A Graph-theoretic Summary Evaluation for ROUGE
作者：Elaheh ShafieiBavani, Mohammad Ebrahimi, Raymond Wong, Fang Chen
日期：Jan 2018
标签：NLG
简介：由于ROUGE仅仅依赖于生成文本（peer）和参考文本（model）之间的表面相似度，而忽略了词汇的变化和释义，所以无法正确地评估摘要。本文使用了一种基于图的方法（sense-based represtation，PPR向量，Path-based and Rank and Weight measure）修改ROUGE，基于词汇和语义相似性，提高评估效果。并使用显著性评估来表明，改进后的指标ROUGE-G与手工判断的相关性更高。

【论文概要】

1. 研究问题

a. 当前ROUGE对摘要评估存在的问题？（忽略了词汇的语义相关性）

b. 如何修改ROUGE，增加对词汇相关性的考量。（基于图的方法，PPR向量、基于路径、增加权重、消除歧义等）

c. 在增加相关性的时候，如何提高效率。（剪裁）

c. 如何评估新指标ROUGE-G与原指标的“好坏”。（显著性评估，Pearson、Sperman、Kendall）

2. ROUGE与其存在的问题

ROUGE （Recall-Oriented Understanding for Gisting Evaluation)
- 最早且应用最广泛的文本摘要评价指标之一。
- $ROUGE-N=\frac{\sum_{S\in {Ref\ Summaries}}\sum_{n-gram\in S}Count_{match}(n-gram)}{\sum_{S\in {Ref\ Summaries}}\sum_{n-gram\in S}Count(n-gram)}$
存在的问题
- 问题：忽略了词汇相关性的考量
- 示例：
  - The strolled around the city.
  - They took a walk to explore the town.
  - 两句话的语义含义相同，但用词不同，如果只有一个在参考中则另一个评分低。

3. ROUGE-G 解决方案

a. PPR向量表示

WordNet图：忽略各种边的类型，但增加不同词性（Part-of-Speech POS）的考虑，用连接点的个数来表示维数。
S位置的PPR向量：
- $p^{(k)}(S)=dAp^{(k-1)}(S)+(1-d)p^{(0)}(S)$
- 随机漫步（random walker）：d的概率跳到下一节点，1-d的概率返回出发点。
- A：邻接矩阵，跳动

b. 向量的语义相似度

比较存在的问题：随机漫步特定顶点的特定迭代次数，可能产生假相似
- 例子：law-suit-tailor-dress中，law 和dress是假相似
- 增加到一个特定点的路径长度考量
每次迭代x中，排序维度（dimensions, senses）
- $Sim_{sem}(I,J)=\sum^{k}_{x=0}c^x\times RW(p^{(x)}(I),p^{(x)}(J))$
加权之间的重叠
- $$
  \begin{equation}
  RW(Y,Z)=\left{
  \begin{aligned}
  &\frac{\sum_{h\in H}(r_h(Y)+r_h(Z))^{-1}}{\sum_{i=1}^{|H|}(2i)^{-1}},\ &if\ |H|>0\
  &0,\ &otherwise
  \end{aligned}
  \right.
  \end{equation}
  $$

c. ROUGE-G计算

ROUGE-G 综合词汇和语义相似性计算：
- $ROUGE-G-N=\frac{\sum_{M\in{ModelSums}}\sum_{n-gram_m\in M,\n-gram_p\in PeerSum}Sim_{LS}(n-gram_m,n-gram_p)}{\sum_{M\in {ModelSums}}\sum_{n-gram_m\in M}Count(n-gram_m)}$
$Sim_{LS}$：模型摘要和文本摘要
- $$
  \begin{aligned}
  Sim_{LS}(n-gram_m,n-gram_p)=
  &\beta\times Count_{match}(n-gram_m,n-gram_p)\
  &+(1-\beta)\times Sim_{sem}(n-gram_m,n-gram_p)
  \end{aligned}
  $$

d. 上下文信息的缺失处理

使用语义对齐（semantic alignment）最大化比较词的相似性。
例：
- 句$P_{a1}.officer^3_n,fire^4_v$
- 句$P_{a2}.policeman^1_n,terminate^4_v,corruption^6_n,probe^1_n$
- $t^i_p$表示：WordNet中的p词性的词汇t的第i维感官
- 会有结果：$Sim_{sem}(fire^4_v,terminate^4_v)=1$

e. OOV处理

OOV：词汇资源中没有定义的单词
在PPR中增加一个额外的变量。

4. 实验验证方法

显著性检验（significance tests）
- 由于在与人类的竞争关系中存在的大/小的差异并不能作为一种度量优于另一种度量的证明，因此应采用显著性检验。
- 采用Graham提出的两两配对Williams显著性检验
- 先对ROUGE进行重新采样
三个指标分析：Person、Spearman、Kendall

【收获小节】

文章的大致思路清楚了，但对于语义对齐、WordNet和显著性检验的具体操作方法可能还需要再多了解一点（目前知道其作用和意思，但具体实现还是有一些疑惑）。
对于实验指标的好坏比较，与人工评估的对比，直接的大小差异不能作为直接的证明，可以使用显著性检验。
语义相似度、词汇的缺失等内容也可以加入考虑之中。

赏

Reprint please specify: Yi勒 2020论文阅读笔记<02>

Previous

软件测试与维护（一）Introduction

软件测试与维护（一）Introduction

软件测试与维护（一）：Introduction测试概念Bug 缺陷别名：缺点（defect）、偏差（variance）、故障（fault）、失败（failure）、问题（problem）、矛盾（inconsistency）、错误（erro

2020-01-01 Software Engineering

School Software Test

Next

2020论文阅读笔记<01>

2020论文阅读笔记<01>

2020论文阅读笔记 <01>【基本信息】论文题目：Towards a Better Metric for Evaluating Question Generation Systems 作者：Preksha Nema, Mit

2019-12-08 Article

Article QG NLG