评测 – 2018全国知识图谱与语义计算大会

一、任务简介

全国知识图谱与语义计算大会（CCKS: China Conference on Knowledge Graph and Semantic Computing）由中国中文信息学会语言与知识计算专业委员会组织和承办。全国知识图谱与语义计算大会已经成为国内知识图谱、语义技术、链接数据等领域的核心会议，聚集了知识表示、自然语言理解、机器学习、数据库、图计算等相关领域的重要学者和研究人员。2018年全国知识图谱和语义计算大会（www.ccks2018.cn）将于2018年8月14日至8月17日在天津召开。大会的主题是“知识计算与语言理解”，旨在探讨大数据环境下语言理解、知识获取与智能服务的关键技术和应用。
CCKS系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源，促进国内知识图谱领域的技术发展，以及学术成果与产业需求的融合和对接。CCKS 2018共设立4个相关主题评测任务，分别是：面向中文电子病历的命名实体识别、面向音乐领域的命令理解、智能客服问句匹配以及开放领域的中文问答。

任务一：面向中文电子病历的命名实体识别

本评测任务为面向中文电子病历的命名实体识别，即对于给定的一组电子病历纯文本文档，任务的目标是识别并抽取出与医学临床相关的实体提及（entity mention），并将它们归类到预先定义好的类别（pre-defined categories），比如症状、药品、手术等。

任务组织者：

张江涛，清华大学知识工程实验室

汤步洲，哈尔滨工业大学（深圳）

焦增涛，医渡云（北京）技术有限公司

联系人：

张江涛，zhang-jt13@mails.tsinghua.edu.cn

焦增涛，zengtao.jiao@yiducloud.cn

任务描述文件，数据使用和保密承诺书

任务二：面向音乐领域的命令理解任务

对话系统是自然语言处理中一个重要的研究方向，也是人机交互的一种重要形式。对于任务完成式系统而言，能够正确解析用户命令是完成指定任务的基础。在本次任务中，我们主要关注音乐领域，并进一步将音乐领域的命令理解分为两个子任务：1）音乐领域意图判断；2）音乐领域槽填充。音乐领域意图判断的目标为判断用户的某条话语（utterance）是否表达了一个音乐领域内的意图。若该话语确实表达了音乐领域的相关意图，那么，为了完成该意图，需要将该话语中提及的相关参数提取出来（在此，话语中的相关参数被称为“槽”）。这一任务，称为槽填充。本次评测任务的主要目标是针对对话系统中用户的真实话语，判断该条话语是否表达了音乐领域的意图，如果是，则完成该意图的槽填充。评测数据集中，所有语料来自原始的对话系统用户日志，并经过了筛选和人工的意图判断和槽填充。

任务组织者：

刘康，中国科学院自动化研究所

郭尚敏，中国科学院自动化研究所

刘升平，北京云知声信息技术有限公司

张勇，北京云知声信息技术有限公司

联系人：

郭尚敏，ccks2018@unisound.com

任务描述文件，训练数据

任务三：微众银行智能客服问句匹配大赛

语句匹配是自然语言处理的最基本任务之一，是自动问答、聊天机器人、信息检索、机器翻译等各种自然语言处理任务基础。语句匹配问题的复杂性在于，匹配的要求不同，对匹配的定义也不尽相同，比如经典的语句复述判别问题，需要判断两句话是否仅仅是表述方式不同，但意义相同，而在Quora问句匹配语料发布后，大量在该语料库上开展的语句匹配研究工作都沿袭语料发布者的定义，称为语义等价判别(semantic equivalence identification)，和复述判别相比，语义等价判别主要从语句（主要是问句）所蕴含的意图来判断两个语句是否等价，而不直接判断两个语句是否表达相同的语义，所以其核心是语句的意图匹配。由于来源于真实问答语料库，该任务更加接近于智能客服等自然语言处理任务的实际需求。与基于Quora的语义等价判别相同，本次评测任务的主要目标是针对中文的真实客服语料，进行问句意图匹配。集给定两个语句，要求判定两者意图是否相同或者相近。所有语料来自原始的银行领域智能客服日志，并经过了筛选和人工的意图匹配标注。

任务组织者：

陈清财，哈尔滨工业大学（深圳）

陈静，哈尔滨工业大学（深圳）

汤步洲，哈尔滨工业大学（深圳）

杨海军，深圳前海微众银行股份有限公司

姜华，深圳前海微众银行股份有限公司

联系人：

陈静，2448672460@qq.com

任务描述文件，训练数据

任务四：开放领域的中文问答任务

本评测任务为基于开放领域知识库的中文问答，简称COQA （Chinese Open-domain Question Answering）。即对于给定的一句中文问题，问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型，不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取等子任务。这些子任务的训练可以使用额外的资源，但是最终的答案必须来自给定的知识库。

任务组织者：

邹磊，北京大学计算机技术研究所

胡森，北京大学计算机技术研究所

联系人：

胡森， husen@pku.edu.cn

任务描述文件，训练数据

二、报名方式

本次评测采用邮件报名的方式，邮件标题为：“CCKS2018-任务名称-参赛单位”，例如：“CCKS2018-面向中文电子病历的命名实体识别-清华大学”；邮件内容为：“参赛队名，参赛队长信息（姓名，邮箱，联系电话），参赛单位名称”。请参加评测的队伍发送报名邮件至相应邮箱：
任务一．面向中文电子病历的命名实体识别：
zhang-jt13@mails.tsinghua.edu.cn；zengtao.jiao@yiducloud.cn
任务二．面向音乐领域的命令理解任务：ccks2018@unisound.com
任务三．微众银行智能客服问句匹配大赛：chenjing@stu.hit.edu.cn
任务四．开放领域的中文问答任务: husen@pku.edu.cn

三、重要日期

~~任务征集截止：3月15日~~
~~任务准备时间：3月20日—4月1日~~
~~评测任务发布：4月1日~~
~~报名时间：4月1日—7月15日~~
~~训练及验证数据发布：4月20日~~
~~测试数据发布：7月15日~~
~~提交测试结果：7月20日~~
评测论文提交：8月5日
CCKS会议日期：8月14日—17日

四、评测主席

王昊奋，深圳狗尾草智能科技公司 (wang_haofen@gowild.cn)
邹磊，北京大学 (zoulei@pku.edu.cn)

2018全国知识图谱与语义计算大会

China Conference on Knowledge Graph and Semantic Computing – 天津，2018年8月14日-8月17日

评测