讲习班

时间: 826-27
地点: 四川成都西华大学

日程安排

时间 主题 特邀讲者
8月26日上午 T1:知识图谱导论(PPT下载) 刘  康   韩先培
8月26日下午 T2:知识图谱构建(PPT1下载  PPT2下载) 邹  磊   徐波
8月26日晚上 T5:知识图谱虚拟化:基于本体的数据访问,理论和应用 肖国辉
8月27日上午 T3:知识获取方法(PPT下载) 劳  逆   邱锡鹏
8月27日下午 T4:知识图谱实践(PPT下载) 王昊奋   胡芳槐

 

T1  知识图谱导论:基本知识、历史沿革、代表图谱

摘要:随着人工智能技术的发展,数据知识化将是人工智能技术发展的一大趋势。在此基础上,知识图谱被众多研究者预测将在AI系统中发挥越来越重要的作用。本报告主要介绍知识图谱的基本概念、发展历程、知识表示方法以及目前已有的代表性知识图谱,并对知识图谱相关研究进行整体梳理。

 讲者简介:

  刘康,博士,现任中科院自动化所模式识别国家重点实验室副研究员。研究领域包括信息抽取、网络挖掘、问答系统等,同时也涉及模式识别与机器学习方面的基础研究。在自然语言处理、知识工程等领域国际重要会议和期刊发表论文四十余篇(如TKDE、ACL、IJCAI、EMNLP、COLING、CIKM等),获得KDD CUP 2011 Track2 全球亚军,COLING 2014最佳论文奖,首届“CCF-腾讯犀牛鸟基金卓越奖”、2014年度中国中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新一等奖”、2015、2017 Google Focused Research Award等。
  韩先培,博士,中国科学院软件研究所基础软件国家工程研究中心/计算机科学国家重点实验室副研究员。主要研究方向是信息抽取、知识库构建、语义计算以及智能问答系统。在ACL、SIGIR、AAAI、EMNLP等重要国际会议发表论文30余篇,论文被引700余次。韩先培是中国中文信息学会会员,中国中文信息学会语言与知识计算专业委员会秘书长及中国中文信息学会青年工作委员会执行委员。于2016年获得中国中文信息学会汉王青年创新奖一等奖。


T2
知识图谱构建:百科知识图谱构建+基于图的RDF知识图谱数据管理

摘要:RDF用W3C提出是对于语义网中的Web对象建模的数据模型。目前,已经涌现出大量的RDF知识库,比较著名的有DBPedia,Yago,Yago2和Freebase等。同时,很多IT公司也在致力于大规模RDF知识库的构建,例如Google的知识库图谱,微软的Satori,搜狗公司的知立方,以及百度的实体搜索。大规模RDF知识库为目前的数据管理领域带来了新的挑战和机遇,例如如何有效地存储和检索这些大规模的RDF知识库数据。

在本次的报告中,我首先将介绍百科知识图谱构建过程中的关键技术,包括知识抽取、知识优化、知识补全、实体分类以及自动更新等,并以中文百科知识图谱CN-DBpedia为例,介绍如何利用这些技术构建一个完整的知识图谱。接着,回顾一些经典的按照关系数据库的方法来管理RDF数据的技术。然后,我集中讨论从图数据库的观点来研究RDF数据管理的问题。具体的,我将讨论如何利用图数据库中的子图匹配技术来处理RDF知识库中的查询问题。我讨论两种查询,SPARQL和自然语言查询,以及如何利用子图匹配来有效地回答这两类查询。最后,我将演示我们的基于图的RDF数据管理Demo系统,gStore和gAnswer;前者是用来设计支持SPARQL 1.1的RDF存储和查询系统,后者是用来支持自然语言和关键词的RDF语义检索系统。

讲者简介:

邹磊,北京大学计算机科学技术研究所副教授、国家自然科学基金委优秀青年基金项目获得者,北京大学大数据科学研究中心主任助理。目前的主要研究领域包括图数据库,RDF知识图谱,尤其是基于图的RDF数据管理。邹磊及其团队构建了面向海量RDF知识图谱数据(超过100亿三元组规模)的开源图数据库系统。邹磊已经发表了30余篇国内外学术论文,包括数据库领域国际顶级期刊/会议论文(SIGMOD,VLDB等)近20余篇;其论文被引用超过1200多次(根据Google Scholar的统计),单篇最高被引用298余次。邹磊获得2009年中国计算机学会优秀博士学位论文提名奖和2014年中国计算机学会自然科学二等奖(排名第一)。
  徐波,复旦大学计算机博士,专注于知识图谱构建工作,创建了目前最大的中文开放知识图谱之一:CN-DBpedia。已经被数百家用户单位,累计调用3.3亿次。并在IJCAI、DASFAA等国际顶级人工智能、数据库会议上发表多篇学术论文。曾获中国数据库学术会议优秀论文奖。

T3 知识获取方法:传统方法+深度学习

摘要:知识图谱的应用在很多领域(例如问答系统)受限于知识的获取。本报告主要介绍各种从非结构化数据(尤其是自然语言)以及半结构化数据产生知识图以及其它结构化数据的方法。将分别讨论限定领域抽取,开放领域抽取,基于深度学习的抽取,语义解析,语意表示等问题。

讲者简介:

  劳逆,博士,现任Google资深究员。2012于卡内基梅隆大学获得语言技术博士学位。研究领域包括自然语言理解、信息抽取、问答系统等。在自然语言处理、机器学习等领域国际重要会议和期刊多次发表论文。
  邱锡鹏,复旦大学计算机科学技术学院副教授,博士生导师。于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,在ACL、EMNLP、IJCAI等计算机学会A类期刊、会议上发表40余篇学术论文,开源中文自然语言处理工具FudanNLP作者。2015年入选首届中国科协人才托举工程,2017年ACL杰出论文奖。

 

 

T4 知识图谱实践:知识图谱在金融、医疗领域的应用

摘要:知识图谱旨在描述真实世界中存在的各种实体、概念以及它们之间的关联关系,在语义搜索、智能问答、知识发现等领域得到了广泛应用。同时,灵活可变的数据模式特性使得其非常适用于企业大数据的集成与融合。本报告针对如何构建知识图谱,怎样利用知识图谱进行数据集成融合,如何对大规模知识图谱数据进行存储,以及消费知识图谱大数据的相关技术展开探讨分析。首先介绍知识图谱构建的相关技术,包括非结构化信息的抽取和结构化数据的映射转换; 其次,分析如何使用知识图谱对企业大数据进行建模与表示,以及如何实现数据与知识图谱中元素的链接关联; 随后讨论大规模知识图谱数据的存储,包含知识图谱本身的存储以及围绕知识图谱组织的大数据的存储; 对知识图谱大数据消费与应用相关的搜索问答、图挖掘计算、可视化、推理、决策支持等关键技术展开讨论。最后,结合金融及医疗领域的具体应用实例,展示知识图谱上述关键技术如何解决实际行业应用中的问题。

讲者简介:

  王昊奋,上海交通大学博士,上海瓦歌智能科技有限公司总经理、深圳狗尾草智能科技公司CTO。王昊奋在语义技术和知识图谱方面有比较丰富的经验和积累,共发表75余篇高水平论文,其中包括35余篇CCF A类和B类论文。作为技术负责人,他带领团队构建的语义搜索系统在十亿三元组挑战赛(Billion Triple Challenge)中获得全球第2名的好成绩;在著名的本体匹配竞赛OAEI的实体匹配任务中获得全球第1名的好成绩。他带领团队构建了第一份中文语义互联知识库zhishi.me,被邀请参加W3C的multilingual研讨会并做报告。他还带领团队参加了百度知识图谱竞赛获得所有任务第一名的好成绩。此外,他还长期作为ISWC, WWW, AAAI等国际顶级会议程序委员会委员。目前,王昊奋担任CCF YOCSEF上海主席、中文信息学会语言与知识计算委员会委员,中国计算机学会术语工作委员会执行委员等社会职位。
  胡芳槐,华东理工大学博士,上海海翼知信息科技有限公司创始人,现任技术总监,知识图谱和本体学习10年以上的研究以及产业化经验,多个相关方向的国家项目和上海市政府项目骨干成员,国内最早研究中文知识图谱构建并进行产业化探索实践,在国际知名会议和期刊上发表多篇中文图谱构建、机器学习方面相关论文。长期从事知识图谱构建及应用方面研究,国内首家提供垂直知识图谱构建及应用解决方案的大数据公司,自主研发PlantData图谱数据智能平台,致力于推进行业私有化知识图谱的构建及应用,现已有全国企业商业知识图谱,中外创投知识图谱,海洋鱼类知识图谱,全国专利知识图谱等行业应用成功落地。

T5 知识图谱虚拟化:基于本体的数据访问,理论和应用

摘要:基于本体的数据访问技术(ontology-based data access,OBDA)可以将现有的(关系型、非关系型)数据库虚拟化为知识图谱。最终用户只需要与此虚拟化的知识图谱查询交互,而不需要关心底层的数据存储和组织。虚拟化技术通过查询重写,避免了ETL的过程,从而可以与现有的数据库技术并行不悖。本报告首先将介绍OBDA技术的理论基础和最新进展。然后讲解OBDA系统Ontop怎样实现知识图谱虚拟化。最后,我们讨论知识图谱虚拟化技术在石油、能源、医疗、考古、测绘、海事安全等领域的具体应用案例和前景。

讲者简介:

肖国辉,奥地利维也纳工业大学计算机博士,目前为意大利博尔扎诺自由大学计算机学院助理教授。他的主要研究领域包括知识表示与推理,数据集成,时空数据推理,基于本体的数据访问(OBDA),并研究如何将这些技术应用于实际的工业案例。目前为Ontop研究团队的负责人,主持OBDA系统Ontop的研究,开发和应用。发表论文40余篇,其中多篇发表在国际顶级学术杂志及会议上。