2020论文阅读笔记<01>

2020论文阅读笔记 <01>

【基本信息】

  • 论文题目:Towards a Better Metric for Evaluating Question Generation Systems
  • 作者:Preksha Nema, Mitesh M. Khapra
  • 日期:August 2018
  • 标签:AQG、NLG
  • 简介:本文分析了传统NLG评价指标(BLEU、METEOR、NIST、ROUGE)在AQG问题上的效果,通过在噪声问题上与人工评分的比较,指出这些传统指标无法准确、有效地反映生成问题的好坏。本文的作者用可回答性(answerability)来反映一个生成的问题的优劣,并提出了利用不同词性(关联内容词、命名实体、问题类型、功能词)加权与传统指标相结合的新指标,使得新指标更加接近人工结果。

【论文概要】

1. 研究问题

a. 传统的自然语言生成(NLG)指标在自动问题生成(AQG)方面是否仍然有效?

b. 如何来衡量或分析这些指标的有效性或好坏?

c. 如何创造一个更符合AQG问题需要的新的指标?

2. 传统的指标

a. BLEU

  • 一种基于精度(precision)的评估指标。
  • 考虑n-gram的形式:$p_n=\frac{\sum_{c\in candidates}\sum_{n-gram\in c}Count_{clip}(n-gram)}{\sum_{c’\in candidates}\sum_{n-gram’\in c’}Count_{clip}(n-gram’)}$
  • 举例:
    • candidate: the cat sat on the mat
    • reference: the cat is on the mat
    • $p_1=\frac{5}{6}$, $p_2=\frac{3}{5}$, $p_3=\frac{1}{4}$, $p_4=\frac{0}{3}$

b. METEOR

  • 考虑了精度和召回率(recall),也考虑词性、同义词等问题,也能给以功能词和内容词的权重。

  • 是基于单精度的加权调和平均数和单子召回率的调和平均。

  • $$
    惩罚系数\ Pen=\gamma(\frac{ch}{m})^\theta \
    F_{mean}=\frac{P_mR_m}{\alpha P_m+(1-\alpha)R_m} \
    P_m=\frac{|m|}{\sum_kh_k(c_i)} \
    R_m=\frac{|m|}{\sum_kh_k(s_{ij})} \
    METEOR=(1-Pen)F_{mean}
    $$

c. NIST

  • 是标准BLEU的一个变体。
  • 给在语料库中低频的词增高权重。

d. ROUGE

  • 自动摘要方面的指标,通过统计翻译的摘要与人工生成的标准摘要的重叠基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。

3. 评价指标好坏的方法

  • 从已有的三个主流问题生成数据库中选出数据:
    • SQuAD:阅读理解数据库(约500文章,100k的问题)
    • WikiMovies:电影知识图谱(约43k实体,9种关系,100k的问题)
    • VQA:图片问题数据库(265,016图片,平均每张图5.4个问题)
  • 对问题随机进行四类噪声处理:
    • 删除功能词(如be, do, can, shall, will, have, let, make等词)
    • 删除命名实体
    • 删除内容词(如killed/married)
    • 更改提问类型(who, what, which, how, why, when, where, 7-Wh)
  • 人工对这些噪声处理后的问题进行评价,分为五类
    • 重要信息缺失,不可能回答
    • 大部分重要信息缺失,无法回答
    • 一些重要信息缺失,答案不确定
    • 大部分重要信息保留,可以推导回答
    • 全部重要信息保留,完全可以回答
  • 通过指标的数据结果和人工结果的比较,来评价指标的合理性、有效性。

4. 新的指标

  • 将词汇分为四类:
    • 关联内容词(relevant content words)
    • 命名实体(named entities)
    • 问题类型(question types)
    • 功能词(function words)
  • 计算四类词的加权精度和召回率
    • $P_{avg}=\sum_iw_i\frac{c(S_i)}{|l_i|}$
    • $R_{avg}=\sum_iw_i\frac{S_i}{|r_i|}$
  • 调和平均计算可回答性(answerability)
    • $Answerability=2\frac{P_{avg}R_{avg}}{P_{avg}+R_{avg}}$
  • 与现有指标进行加权
    • $Q-BLEU4=\delta Answerability+(1-\delta)BLEU4$

5. 结果结论

  • 新的指标更为接近人工评分。
  • 对于不同的数据集,权重效果不同。
  • 仍有很大的空间。

【收获小结】

  1. 本文虽然针对问题生成问题,但主要是分析评价指标,不涉及生成方法,所以读起来还是蛮轻松、开心的,嘿嘿。
  2. 问题生成问题和传统的翻译之类的文本生成问题有很大的不同,传统指标的不适用是显然的,但本文团队通过人工评分的对比来评价传统指标,并能从数据的分析中发现问题,提出一种可行的新的指标思路,这是很可取的一种方法。
  3. 此文似乎没能解决一个问题:现在的可回答性是基于人工就问题本身的分析,而到底能否从原文(知识图谱或图片)中得出答案,还是这个问题虽然合理但无法从原材料中找出答案(或者说问题与原材料的相关性)似乎目前模型仍是未能解决的。

  Reprint please specify: Yi勒 2020论文阅读笔记<01>

 Previous
2020论文阅读笔记<02> 2020论文阅读笔记<02>
2020论文阅读笔记 <02>【基本信息】 论文题目:A Graph-theoretic Summary Evaluation for ROUGE 作者:Elaheh ShafieiBavani, Mohammad Ebrahi
2019-12-10
Next 
2020论文阅读列表 2020论文阅读列表
2020论文阅读列表​ 2019年后半由于其他事物的忙碌,所以没有怎么看论文,所以重新开始了,从2019年12月8日进入新的部分了。 Towards a Better Metric for Evaluating Question G
2019-12-08
  TOC