ccks2019 评测论文集 

     全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS2018吸引了来自学术界和工业界的超800人参加。2019 年全国知识图谱和语义计算大会 (www.sigkg.cn/ccks2019) 将于2019年8月24日至8月27日在杭州召开。CCKS 2019的主题是“知识智能”。

       CCKS系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。经过前期的评测任务征集和评测组委会筛选,CCKS 2019共设立6个相关主题评测任务,分别是:面向中文电子病历的命名实体识别、面向中文短文本的实体链指任务、人物关系抽取、面向金融领域的事件主体抽取、公众公司公告信息抽取以及开放领域的中文问答。专委会为每个任务前三名设立奖金并颁发证书(第一名5000元,第二名3000元,第三名2000元),同时组委会将针对不同任务特别评选“创新技术奖”(每一任务至多一项,奖金:5000元),专门用于鼓励创新性技术的使用。

一、任务简介

任务一:面向中文电子病历的命名实体识别

       本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续,在CCKS 2017,2018医疗命名实体识别评测任务的基础上进行了延伸和拓展。

       本任务包括两个子任务:1)医疗命名实体识别:由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对2017年度数据集做了修订,并随任务一同发布。2)医疗实体及属性抽取(跨院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务。

任务组织者:

       张江涛(清华大学知识工程实验室 )

       陈泽曦( 医渡云(北京)技术有限公司)

       汤步洲(哈尔滨工业大学(深圳))

任务联系人:

       张江涛:zhang-jt13@tsinghua.org.cn

       陈泽曦:zexi.chen@yiducloud.cn

任务描述文件

任务二:面向中文短文本的实体链指任务

       本评测任务为面向中文短文本的实体识别与链指,简称ERL(Entity Recognition and Linking)。即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等),ERL系统会识别其中的实体,并与给定知识库中的对应实体进行关联。ERL任务过程中需要进行实体识别等子任务,这些子任务的训练可以使用额外的资源。

       传统的实体链指任务主要是针对长文档,长文档拥有在写的上下文信息能辅助实体的歧义消解并完成链指。相比之下,针对中文短文本的实体链指存在很大的挑战,主要原因如下:(1)口语化严重,导致实体歧义消解困难;(2)短文本上下文语境不丰富,须对上下文语境进行精准理解;(3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。

任务组织者:

       汪    琦 (百度)ccks2019_erl@163.com

       冯知凡(百度)fengzhifan@baidu.com

       张    扬(百度)zhangyang08@baidu.com

任务联系人:

       汪    琦: ccks2019_erl@163.com

任务描述文件

参赛平台

任务三:人物关系抽取

       关系抽取(Relation Extraction)是信息抽取的一个重要子任务,其任务是从文本内容中找出给定实体对之间的语义关系,是智能问答、信息检索等智能应用的重要基础,和知识图谱的构建有着密切的联系。

       在本次任务中,我们重点关注人物之间的关系抽取研究,简称IPRE(Inter-Personal Relationship Extraction)。给定一组人物实体对和包含该实体对的句子,找出给定实体对在已知关系表中的关系。

任务组织者:

       陈文亮(苏州大学)

       邵    浩 (狗尾草智能科技)

任务联系人:

       王海涛:wanghaitao.mail@foxmail.com

任务描述文件

参赛平台

任务四:面向金融领域的事件主体抽取

       “事件识别”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。“事件识别”的复杂性在于事件类型和事件主体的判断,比如“公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”,对于“产品出现问题”事件类型,该句中事件主体是“公司A”,而不是“公司B”或“公司C”。我们称发生特定事件类型的主体成为事件主体,本任务中事件主体范围限定为:公司、任务、机构。事件类型范围确定为:产品出现问题、高管减持、违法违规…

       本次评测任务的主要目标是从真实的新闻语料中,抽取特定事件类型的主体。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。

任务负责人:

       王太峰( 蚂蚁金服)

       陈玉博 (中科院自动化所)

       黄    敬 (蚂蚁金服)

任务联系人:

       王太峰:taifeng.wang@alibaba-inc.com

       陈玉博:yubo.chen@nlpr.ia.ac.cn

任务描述文件(更新)

参赛平台

任务五:公众公司公告信息抽取

       随着金融科技的发展和全球资本市场的不断扩大,在金融领域, 每一天都有海量的数据产生, 而与之形成强烈对比的是有限的人力以及人脑所能处理信息的极限能力。因此,依靠传统的人工方式已经无法应对投研分析、风险控制、金融监管和事件关联等需求,而亟需引入新的技术来提高信息处理效率,包括大数据分析、自然语言处理、知识图谱等技术,都已经开始被积极用于金融分析和金融监管领域。在监管方面,每一家公众公司都具有相关信息披露义务,由此也产生了大量的公告阅读和信息抽取需求。 据不完全统计,以沪深股市为例,2017年共披露公告44万余篇,2018年共27万余篇,并且随着上市公司数量的增加这一数字也在逐年增加。每年3月底、4月底、8月底、10月底为定期报告披露高峰期,最多的一天所发布公告达 10297 篇。

       本次评测的主要目标是针对公告文件(均以PDF方式发布)中的信息抽取。作为知识图谱构建的基础,结构化数据是必不可少的。由此,如何通过自动化的技术来从各类公告中抽取信息,将非结构化数据转化为结构化数据是知识图谱领域所面临的一大挑战。

       此次评测将包括两个任务:公众公司定期报告表格中的信息点提取和文本段落中的信息点提取。

任务组织者:

       漆桂林(东南大学 认知智能研究所)

       王    萌(东南大学 认知智能研究所)

任务联系人:

       漆桂林:gqi@seu.edu.cn

       王   萌:meng.wang@seu.edu.cn

任务描述文件

任务六:中文知识图谱问答

       本评测任务为基于中文知识图谱的自然语言问答,简称CKBQA (Chinese Knowledge Base Question Answering)。即输入一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型,不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取、语义解析等子任务。这些子任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。

       本次任务一方面扩充了去年开放领域问答的数据规模,另一方面额外增加了适量规模的金融领域问答数据(占总数据量的四分之一)。我们期望参赛选手的问答系统既能处理开放领域的浅层问题,也能处理具备一定领域知识的较深层问题。在后续的任务中,我们可能会针对其他领域加入更多的问答数据。

任务组织者:

       邹    磊(北京大学计算机科学技术研究所)

       胡    森(北京大学计算机科学技术研究所)

       林金曙(恒生电子股份有限公司)

       陈华华(恒生电子股份有限公司)

任务联系人:

       胡森:husen@pku.edu.cn

任务描述文件

二、报名方式

       本次评测采用邮件报名的方式,邮件标题为:“CCKS2019-任务名称-参赛单位”,例如:“CCKS2019-面向中文电子病历的命名实体识别-清华大学”;邮件内容为:“参赛队名,参赛队长信息(姓名,邮箱,联系电话),参赛单位名称”。请参加评测的队伍发送报名邮件至相应邮箱:

       任务一、面向中文电子病历的命名实体识别: zhang-jt13@tsinghua.org.cn;   zexi.chen@yiducloud.cn­(参赛队可同时选择两个子任务参赛,也可选择任意一个子任务单独参赛,请报名时注明参加哪一个子任务)

       任务二、面向中文短文本的实体链指:ccks2019_erl@163.com

       任务三、人物关系抽取:wanghaitao.mail@foxmail.com

       任务四、面向金融领域的事件主体抽取: taifeng.wang@alibaba-inc.com ; yubo.chen@nlpr.ia.ac.cn

       任务五、公众公司公告信息抽取:gqi@seu.edu.cn ; meng.wang@seu.edu.cn

       任务六、中文知识图谱问答:husen@pku.edu.cn

三、重要日期

  • 评测任务发布:3月20日
  • 报名时间:3月20日—7月10日
  • 训练及验证数据发布:4月1日-4月20日
  • 测试数据发布:7月20日
  • 提交测试结果:7月30日
  • 评测论文提交:8月15日
  • 会议日期:8月24日—27日

四、评测主席

       韩先培,中国科学院软件研究所(hanxianpei@126.com)

       王志春,北京师范大学(zcwang@bnu.edu.cn)