2020论文阅读笔记 <02>
【基本信息】
- 论文题目:A Graph-theoretic Summary Evaluation for ROUGE
- 作者:Elaheh ShafieiBavani, Mohammad Ebrahimi, Raymond Wong, Fang Chen
- 日期:Jan 2018
- 标签:NLG
- 简介:由于ROUGE仅仅依赖于生成文本(peer)和参考文本(model)之间的表面相似度,而忽略了词汇的变化和释义,所以无法正确地评估摘要。本文使用了一种基于图的方法(sense-based represtation,PPR向量,Path-based and Rank and Weight measure)修改ROUGE,基于词汇和语义相似性,提高评估效果。并使用显著性评估来表明,改进后的指标ROUGE-G与手工判断的相关性更高。
【论文概要】
1. 研究问题
a. 当前ROUGE对摘要评估存在的问题?(忽略了词汇的语义相关性)
b. 如何修改ROUGE,增加对词汇相关性的考量。(基于图的方法,PPR向量、基于路径、增加权重、消除歧义等)
c. 在增加相关性的时候,如何提高效率。(剪裁)
c. 如何评估新指标ROUGE-G与原指标的“好坏”。(显著性评估,Pearson、Sperman、Kendall)
2. ROUGE与其存在的问题
- ROUGE (Recall-Oriented Understanding for Gisting Evaluation)
- 最早且应用最广泛的文本摘要评价指标之一。
- $ROUGE-N=\frac{\sum_{S\in {Ref\ Summaries}}\sum_{n-gram\in S}Count_{match}(n-gram)}{\sum_{S\in {Ref\ Summaries}}\sum_{n-gram\in S}Count(n-gram)}$
- 存在的问题
- 问题:忽略了词汇相关性的考量
- 示例:
- The strolled around the city.
- They took a walk to explore the town.
- 两句话的语义含义相同,但用词不同,如果只有一个在参考中则另一个评分低。
3. ROUGE-G 解决方案
a. PPR向量表示
- WordNet图:忽略各种边的类型,但增加不同词性(Part-of-Speech POS)的考虑,用连接点的个数来表示维数。
- S位置的PPR向量:
- $p^{(k)}(S)=dAp^{(k-1)}(S)+(1-d)p^{(0)}(S)$
- 随机漫步(random walker):d的概率跳到下一节点,1-d的概率返回出发点。
- A:邻接矩阵,跳动
b. 向量的语义相似度
比较存在的问题:随机漫步特定顶点的特定迭代次数,可能产生假相似
- 例子:law-suit-tailor-dress中,law 和dress是假相似
- 增加到一个特定点的路径长度考量
每次迭代x中,排序维度(dimensions, senses)
- $Sim_{sem}(I,J)=\sum^{k}_{x=0}c^x\times RW(p^{(x)}(I),p^{(x)}(J))$
加权之间的重叠
$$
\begin{equation}
RW(Y,Z)=\left{
\begin{aligned}
&\frac{\sum_{h\in H}(r_h(Y)+r_h(Z))^{-1}}{\sum_{i=1}^{|H|}(2i)^{-1}},\ &if\ |H|>0\
&0,\ &otherwise
\end{aligned}
\right.
\end{equation}
$$
c. ROUGE-G计算
ROUGE-G 综合词汇和语义相似性计算:
- $ROUGE-G-N=\frac{\sum_{M\in{ModelSums}}\sum_{n-gram_m\in M,\n-gram_p\in PeerSum}Sim_{LS}(n-gram_m,n-gram_p)}{\sum_{M\in {ModelSums}}\sum_{n-gram_m\in M}Count(n-gram_m)}$
$Sim_{LS}$:模型摘要和文本摘要
- $$
\begin{aligned}
Sim_{LS}(n-gram_m,n-gram_p)=
&\beta\times Count_{match}(n-gram_m,n-gram_p)\
&+(1-\beta)\times Sim_{sem}(n-gram_m,n-gram_p)
\end{aligned}
$$
- $$
d. 上下文信息的缺失处理
- 使用语义对齐(semantic alignment)最大化比较词的相似性。
- 例:
- 句$P_{a1}.officer^3_n,fire^4_v$
- 句$P_{a2}.policeman^1_n,terminate^4_v,corruption^6_n,probe^1_n$
- $t^i_p$表示:WordNet中的p词性的词汇t的第i维感官
- 会有结果:$Sim_{sem}(fire^4_v,terminate^4_v)=1$
e. OOV处理
- OOV:词汇资源中没有定义的单词
- 在PPR中增加一个额外的变量。
4. 实验验证方法
- 显著性检验(significance tests)
- 由于在与人类的竞争关系中存在的大/小的差异并不能作为一种度量优于另一种度量的证明,因此应采用显著性检验。
- 采用Graham提出的两两配对Williams显著性检验
- 先对ROUGE进行重新采样
- 三个指标分析:Person、Spearman、Kendall
【收获小节】
- 文章的大致思路清楚了,但对于语义对齐、WordNet和显著性检验的具体操作方法可能还需要再多了解一点(目前知道其作用和意思,但具体实现还是有一些疑惑)。
- 对于实验指标的好坏比较,与人工评估的对比,直接的大小差异不能作为直接的证明,可以使用显著性检验。
- 语义相似度、词汇的缺失等内容也可以加入考虑之中。