新闻是有分量的

着眼两大核心应用问题SMP 2018 第二届中文人机对

2018-08-07 16:18栏目:评测
TAG:

  原标题:着眼两大核心应用问题,SMP 2018 第二届中文人机对话技术评测顺利落幕

  雷锋网 AI 科技评论按:由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为独家战略媒体带来专题报道。

  对话是人机交互最为流畅且自然的一种形式,因此人机对话成为自然语言处理的一个重要研究方向。以微软小冰、Siri 为代表的人机对话产品也作为产业界的代表应用迅速发展。与之相应地,人机对话的技术评测也成为了高校及企业技术的「练兵场」。

  本届 SMP-ECDT 由中国中文信息学会社会媒体处理专委会主办,承办方包括哈尔滨工业大学和提供数据支持的科大讯飞股份有限公司,此外华为公司提供奖金支持。SMP 2018 技术评测委员会组织架构包括主席张伟男(哈尔滨工业大学),委员陈志刚(科大讯飞股份有限公司)、车万翔(哈尔滨工业大学)及张轶博(华为公司)。

  本届 SMP-ECDT 技术评测沿袭上一年的赛制,分为用户意图领域分类及任务型人机对话在线评测两个任务。

  用户意图领域分类(任务一)针对闲聊类和任务类两大类领域(domain),要求系统将用户在单轮对话的输入分类对应到相应的领域中;其中,任务类又细分为 30 个垂直领域。

  在人机对话的应用过程中,只有正确判断用户的意图,并正确进行划分,才能进一步返回正确的回复结果。在本任务中,参赛者可以开放地获取除主办方提供的数据之外的训练及开发数据;主办方提供给定测试集,并运行参赛系统,在测试集上面得出评测结果。评价标准包括准确率(P)、召回率(R)及 F 值。

  任务型人机对话在线评测(任务二)则涵盖机票类、火车票类、酒店类 3 个垂直领域,系统通过与测试人员实时在线对话完成相应的预定或查询任务。

  整个评测过程对不同的参赛系统均给定相同的首轮对话输入,评测员根据给定的完整意图描述与参赛系统进行交互直至对话结束;系统返回所有任务(单任务或多任务)的执行结果,此外,如果单个任务在 30 个对话轮数之后仍未返回测试员所需的结果,则对话测试结束。评价指标包括任务完成率、对话轮数、用户满意度、回复语言的自然度及资源未覆盖情况的引导能力等五大领域。

  SMP-ECDT 技术评测从 2018 年 4 月 1 日启动,历经近五个月的赛程,最终吸引了 80 支队伍共 248 位参赛者报名,相较去年第一届技术评测有了一定程度的提升。值得一提的是,来自工业界的队伍比重相比去年有所增加,SMP 2018 技术评测委员会主席、哈尔滨工业大学张伟男博士表示,这从一个侧面上反映了工业界对人机对话技术的关注度在不断提高,技术水平也在不断进步。

  尽管评测主题相比去年并没有明显变化,但张伟男博士向雷锋网 AI 科技评论介绍,两个任务都采用了新的数据集,且任务一的测试集规模更大,提升了技术评测的任务难度。

  与之相应地,任务一参赛队伍的整体指标相比去年有所下降。不过,技术评测委员会也从中看到了参赛团队的进步。

  「我们看到了最近比较火的基于 T2T 的 Transformer 模型应用在了任务一的参赛系统中,并且取得了第一名的成绩,相比于 LSTM,Transformer 仅利用 multihead 的 attention 技术,模型整体更加简单高效,同时我们还看到了 FastText 在数据预训练及获取词汇 embedding 上的应用及取得的成绩。」

  而任务二除了采用全新数据集外,也参考去年所遇到的一些测试问题做出了修正。令评测委员会感到欣喜的是,今年任务二的任务完成率和平均话轮数两个主要指标有了明显的提升,张伟男博士表示,「这无疑标志着人机对话技术在过去的一年中,起码在我们这个任务中,有了较大的进步,让我们对后续的进展充满了信心和期待。」

  从去年开始,SMP 技术评测委员会在刘挺老师和蒋盛益老师的支持下,于 SMP 大会上连续举办两届中文人机对话技术评测,开创先河。张伟男博士介绍道,在制定评测内容的过程中,委员会认为不仅要考虑人机对话研究上的热点,更应该考虑人机对话在实际应用中的关键核心问题。「经过多次讨论我们确定了两个评测任务,即用户意图分类和在线人机对话实时评测。经过两届的评测,我们欣喜地看到了人机对话技术在这两个任务上的进步,同时也发现了一些问题,如模型的领域迁移问题。」

  结合各个团队在比赛过程中暴露的共同问题,评测委员会在未来调整评测重点及后续方案的制定。张伟男博士也表示,在未来,他们也将规划与真实应用场景的结合,如手机助手、智能音箱等,让参赛队伍能在实践中及时获得反馈并做出调整,这也有益于推动人机对话技术的进步与落地。