2020论文阅读笔记 <01>
【基本信息】
- 论文题目:Towards a Better Metric for Evaluating Question Generation Systems
- 作者:Preksha Nema, Mitesh M. Khapra
- 日期:August 2018
- 标签:AQG、NLG
- 简介:本文分析了传统NLG评价指标(BLEU、METEOR、NIST、ROUGE)在AQG问题上的效果,通过在噪声问题上与人工评分的比较,指出这些传统指标无法准确、有效地反映生成问题的好坏。本文的作者用可回答性(answerability)来反映一个生成的问题的优劣,并提出了利用不同词性(关联内容词、命名实体、问题类型、功能词)加权与传统指标相结合的新指标,使得新指标更加接近人工结果。
【论文概要】
1. 研究问题
a. 传统的自然语言生成(NLG)指标在自动问题生成(AQG)方面是否仍然有效?
b. 如何来衡量或分析这些指标的有效性或好坏?
c. 如何创造一个更符合AQG问题需要的新的指标?
2. 传统的指标
a. BLEU
- 一种基于精度(precision)的评估指标。
- 考虑n-gram的形式:$p_n=\frac{\sum_{c\in candidates}\sum_{n-gram\in c}Count_{clip}(n-gram)}{\sum_{c’\in candidates}\sum_{n-gram’\in c’}Count_{clip}(n-gram’)}$
- 举例:
- candidate: the cat sat on the mat
- reference: the cat is on the mat
- $p_1=\frac{5}{6}$, $p_2=\frac{3}{5}$, $p_3=\frac{1}{4}$, $p_4=\frac{0}{3}$
b. METEOR
考虑了精度和召回率(recall),也考虑词性、同义词等问题,也能给以功能词和内容词的权重。
是基于单精度的加权调和平均数和单子召回率的调和平均。
$$
惩罚系数\ Pen=\gamma(\frac{ch}{m})^\theta \
F_{mean}=\frac{P_mR_m}{\alpha P_m+(1-\alpha)R_m} \
P_m=\frac{|m|}{\sum_kh_k(c_i)} \
R_m=\frac{|m|}{\sum_kh_k(s_{ij})} \
METEOR=(1-Pen)F_{mean}
$$
c. NIST
- 是标准BLEU的一个变体。
- 给在语料库中低频的词增高权重。
d. ROUGE
- 自动摘要方面的指标,通过统计翻译的摘要与人工生成的标准摘要的重叠基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。
3. 评价指标好坏的方法
- 从已有的三个主流问题生成数据库中选出数据:
- SQuAD:阅读理解数据库(约500文章,100k的问题)
- WikiMovies:电影知识图谱(约43k实体,9种关系,100k的问题)
- VQA:图片问题数据库(265,016图片,平均每张图5.4个问题)
- 对问题随机进行四类噪声处理:
- 删除功能词(如be, do, can, shall, will, have, let, make等词)
- 删除命名实体
- 删除内容词(如killed/married)
- 更改提问类型(who, what, which, how, why, when, where, 7-Wh)
- 人工对这些噪声处理后的问题进行评价,分为五类
- 重要信息缺失,不可能回答
- 大部分重要信息缺失,无法回答
- 一些重要信息缺失,答案不确定
- 大部分重要信息保留,可以推导回答
- 全部重要信息保留,完全可以回答
- 通过指标的数据结果和人工结果的比较,来评价指标的合理性、有效性。
4. 新的指标
- 将词汇分为四类:
- 关联内容词(relevant content words)
- 命名实体(named entities)
- 问题类型(question types)
- 功能词(function words)
- 计算四类词的加权精度和召回率
- $P_{avg}=\sum_iw_i\frac{c(S_i)}{|l_i|}$
- $R_{avg}=\sum_iw_i\frac{S_i}{|r_i|}$
- 调和平均计算可回答性(answerability)
- $Answerability=2\frac{P_{avg}R_{avg}}{P_{avg}+R_{avg}}$
- 与现有指标进行加权
- $Q-BLEU4=\delta Answerability+(1-\delta)BLEU4$
5. 结果结论
- 新的指标更为接近人工评分。
- 对于不同的数据集,权重效果不同。
- 仍有很大的空间。
【收获小结】
- 本文虽然针对问题生成问题,但主要是分析评价指标,不涉及生成方法,所以读起来还是蛮轻松、开心的,嘿嘿。
- 问题生成问题和传统的翻译之类的文本生成问题有很大的不同,传统指标的不适用是显然的,但本文团队通过人工评分的对比来评价传统指标,并能从数据的分析中发现问题,提出一种可行的新的指标思路,这是很可取的一种方法。
- 此文似乎没能解决一个问题:现在的可回答性是基于人工就问题本身的分析,而到底能否从原文(知识图谱或图片)中得出答案,还是这个问题虽然合理但无法从原材料中找出答案(或者说问题与原材料的相关性)似乎目前模型仍是未能解决的。