分类筛选
分类筛选:

研究类论文写作资料范文 跟多语言领域本体构建以珞珈山植物本体为例方面论文参考文献范文

版权:原创标记原创 主题:研究范文 类别:职称论文 2024-01-10

《多语言领域本体构建以珞珈山植物本体为例》

本文是研究相关论文如何写和珞珈山和本体和植物方面硕士论文开题报告范文。

司莉,辛娟娟

摘 要 随着互联网资源的语义化和多语言化发展,多语言本体越来越受到关注.文章探究多语言本体的构建,分析多语言本体的映射方法,采用基于语义编码的多语言本体映射途径构建多语言本体,并选取珞珈山植物为特定领域予以实验性研究.

关键词 多语言本体 本体映射 本体查询

引用本文格式司莉,辛娟娟,多语言领域本体构建研究——以珞珈山植物本体为例Ⅱ1.图书馆论坛,2016 (2):20-26.

本文系教育部人文社会科学重点研究基地重大项目“基于内容的多语言信息组织与检索研究”(项目编号:14D870001)研究成果之一

O引言

当前互联网发展有两个明显的趋势信息资源的语义化和多语言化”.语义网成为互联网发展新的研究方向和热点,目的在于解决互联网松散的异构数据,使互联网上的信息变得机器可理解,以及实现人与机器的互操作.当前多语言网络信息资源急剧增长.Internet World Stats统计显示,截至2013年1 2月31日,互联网上的十大语种为英语、汉语、西班牙语、阿拉伯语、葡萄牙语、日语、俄语、德语、法语、马来西亚语,十大语种用户总数占互联网用户总数84.3%.在此背景下,本体(Ontology)作为语义网框架中的重要组成部分,越来越受关注.本体正是通过概念以及概念之间关系的严格定义来精确确定概念访问和搜索,能够很好地解决互联网信息复杂的语义关系.同时随着多语言信息资源急剧增长,多语言本体应运而生,并被视为解决互联网资源语义化和多语言化发展的有效基础资源之一.

目前我国有关多语言本体的研究和实践较少,多集中在多语言本体映射和跨语言检索两方面,国外相关研究主要探讨多语言本体构建方法和应用,其中多语言本体构建方法集中在多语言本体映射、多语言本体本地化、多语言本体对齐与匹配.本文旨在研究多语言本体的构建方法,核心在于探讨多语言本体构建方法中的多语言本体映射,并以珞珈山植物多语言本体为例予以实验性研究.

1 多语言本体的映射

本体映射是多语言本体构建最广泛的方法,已有多语言本体及本体项目多采用本体映射方法,实现不同语种概念的语义关联,如联合国食物与农业组织开发的多语言叙词表ARGROVOC和EuroWordNet.从现有研究和实践看,多语言本体的映射有两种途径:基于目标语言与源语言本体之间的映射以及基于中间语言的映射.

1.1基于目标语言本体与源语言本体间的映射

不同多语言本体之间的映射方法适用于在已有目标语言本体及源语言本体的基础上进行映射,从而得到多语言本体.许多研究者利用开放的多语言本体资源进行多语言本体的映射,进而生成多语本体.比如,将WordNet作为一个开放的上层本体资源应用于多语言本体的映射之中,以WordNet与HowNet进行双语对齐研究实现中英多语本体映射,也有学者将中文分类主题词表与WordNet进行映射形成多语言本体.

1.2基于中间语言的多语言本体映射

EuroWordNet是利用中间语言方式进行多语言本体映射的实践.EuroWordNet采用WordNet的知识组织和描述方式,并在Word-Net的基础上进行扩展,采用中间语言方法,进行多语言本体的映射”.在EuroWordNet中,词汇和同义词集“半依赖”于每一个自然语言,不要求一种语言概念与另一种语言概念完全相同,不同语言都有各自不同的词汇和同义词集,这就使得描述特定语言概念时具有更大的灵活性.不同语言之间的关系是由同义词集建立起来的.中间语言索引可以将含义相同的来自不同语言的同义词集映射到同一概念上.基于中间语言的多语言本体映射途径适用于从头构建新的多语言本体.笔者利用中间语言映射原理,提出基于语义编码的多语言本体映射方法,并构建珞珈山植物多语言本体.

2多语言领域本体的构建与实现

2.1基于语义编码的多语言本体映射

2 1 1 基于语义编码的多语言本体映射方法

首先,构建语义编码.用于表达多语言本体的概念等级体系.语义编码是一套按照一定规则编排的具有等级关系的编码形式.这里语义编码类似中间语言的作用,具有相同意义的概念术语放置在同一语义编码类之下,其次,定义元数据属性.利用该方法构建多语言本体需构建两类属性,“HasName”属性和“HasSynonyms”属性,两类属性分别用于定于语义编码类和定义同义词类.比如,“A01”表示杜鹃,那么通过“HasName”属性对“A01”编码进行定义,中文概念“杜鹃”、英文“Rhododendron”及拉丁语“Rhododendron simsii Planch”是“Has-Name”属性的描述值,表示这几类概念为同一概念,均对应语义编码“A01”.此外涉及到同义词概念时,如“杜鹃”中文别名有“映山红”“山石榴”“山踯躅”等表达方式,其拉丁文异名有“Rhododendron bicolor Tam” “Rhododendroncalleryi Planch”等,利用“HasSynonyms”属性将不同语种的同义词集对应到同义语义编码上.

2 1 2语义编码规则

笔者参考哈尔滨工业大学的《同义词词林扩展版》编码规则,该版本是在梅家驹等编撰的《同义词林》基础上,为适应本体研究技术而建立的汉语大词表.同义词词林按照树状分类结构把所有收录的词条分为大、中、小3个小类,根据词语含义的相关性,每一小类里的词语被分为不同段落,每一段落分成不同行,每一行的词语表示同义或近义”.《同义词词林扩展版》提供5级编码,从第1级到第5级分别用大写英文字母、小写英文字母、十进制整数、大写英文字母和两位十进制整数表示.需要时第5级编码后增加特殊标记表示每一行词的相关程度.具体编码规则如表1所示.

表1中,第5级编码位后的特殊编码符号有3种,分别是“等于”“#”“@”,其中“等于”表示这一行的词为“同义”或“相等”;“#”表示这一行的词是“同类”,含义“不相等”,“@”表示这一行仅一个词,既没有同义也无相关词.例如,“BhOIA50等于樟樟木樟树”表示同义词,“BhOIA68#乔木灌木林木”表示同类词.“BhOIA48@橡皮树”表示独立性的词.

2 2多语言领域本体构建模型

采用自项向下的技术路线,结合本体构建七步法,通过Prot6ge软件,利用OWL语言对植物多语言本体进行形式化表达,构建珞珈山植物多语言本体模型(见图1).

该模型分为5个关键子任务:

(1)植物多语言本体知识范畴的确定.植物学领域的知识范畴广阔,笔者选取珞珈山为特定区域,构建珞珈山植物多语言本体,研究该区域植被覆盖与植被演变现状和特征,揭示植物与环境,植物与人类的关系.

(2)概念层次体系的构建.由于领域本体的独特性,在构建时可对通用本体构建方法进行灵活变动.本文所构建本体目的在于揭示植物与环境,以及植物与人类的关系,首先需确定植物本体的上层概念体系,作为概念获取的依据.

(3)植物领域概念术语的获取.概念术语是整个多语言领域本体的基础.根据上一个步骤中确定的上层概念体系,需要获取珞珈山植被种类、植物分布地区、植物资源的类型(植物与人类的关系)等模块的概念术语.

(4)定义类的属性.此部分工作为本文所构建植物多语言本体构建的核心模块.通过定义类的属性,实现多语言本体映射,后文将详细论述该方法.本文将选取中文、英文及拉丁文三种语种构建多语言本体.

(5)本体的形式化表达.此部分将利用本体构建工具Protege,对本体进行形式化表达,生成多语言本体.

2.3多语言本体的实现

2 3 1 植物本体上层概念体系构建

本文选取珞珈山植物为特定领域构建多语言本体.植物是整个生态系统中的一部分,与生态学、细胞学、遗传学等学科密不可分.同时植物不仅与环境有关系,与人类的关系亦密不可分.本文所建珞珈山植物多语言本体将重点对植物物种、植物与环境、植物与人类活动这三种关系的揭示,并体现在本体分类体系结构上.基于上述思想,珞珈山植物多语言本体上层概念包括领域类植物物种、形态特征、生态环境、地理分布及植物经济用途,具体如图2所示.

2 3 2多语言本体概念的获取

(1)植物物种类概念.植物物种类概念来源于《珞珈山植物图谱》,该图谱收录了珞珈山共151科735种植物,其分类体系依据《中国植物志》,具有科学性和规范性.笔者将该书收录的植物物种概念作为本文构建的多语言本体的植物物种概念.这些植物物种概念分为5个一级大类,蕨类植物、裸子植物、被子植物(双子叶离瓣花类)、被子植物(双子叶合瓣花类)、被子植物(单子叶类),同属于维管植物类.

(2)植物形态特征类概念.植物形态特征属于植物形态学的研究范畴,体现的是植物体内形态和结构、器官形成和发育.比如,“水仙”的形态特征为“鳞茎卵球形.叶宽线行,扁平,伞形花序……”,描述了水仙的“根”“叶”“花”各组成部分的形态特征.此类概念借用《珞珈山植物图谱》一书中收录的植物形态特征概念.

(3)地理分布类概念.植物多语言本体中地理分布类概念的获取依据为中国地理分区.一级分区分有7类:东北地区、华北地区、西北地区、华东地区、中南地区、西南地区、港澳台地区.一级概念下,依据省市划分二、概念.

(4)生态环境类概念.植物与生态环境有着密切的联系,也是一对互相影响的关系.本文主要要探究的是不同植物所生长的生态环境,生态环境与生态因子密不可分,生态因子包括光照、温度、水分、土壤和生境.

(5)植物用途类概念.1983年吴征镒等提出新的分类体系,在种子植物中按用途进行区分,分为8大类23小类”.8大类一级概念包括有食用植物资源、工业用植物资源、药用植物资源、保护和改造环境植物资源、有毒植物资源、牧草及饲用植物资源、种质植物资源,栽培植物资源.比如,“薄荷”既可食用,也可做香料,既是食用植物资源,也是工业用植物资源.

2 3 3多语言本体概念间关系的建立

完善的概念关系是实现本体推理的基础.在植物本体模型中以植物物种为核心,存在7种关系:(1)概念间的等级关系.如植物物种的属种关系:卷柏科为蕨类植物下位类.(2)概念间的同义关系.同义关系是植物本体中一个重要关系.由于植物名称在不同语种中拥有不同的表达方式,如“粉团蔷薇”的中文别名为“红刺玫”,两者在概念体系中属于同义关系.(3)植物物种一经济用途的关系.植物的用途关系意指植物物种的经济价值,如药用、食用.比如,“玫瑰花可蒸制芳香油,花瓣可制馅饼、玫瑰酒、玫瑰糖浆”,说明玫瑰可用作香料及食用.(4)植物物种一地理分布的关系.植物物种的地理分布意指不同物种的地理分布情况.(5)植物物种一形态特征的关系.植物形态包括生活形态以及植物各个组成部分的特征,每一科属物种有不同的形态特征,以此作为植物分类和辨别的依据.植物物种和形态特征之间存在两种关系,一是整体与部分的关系,如根、叶、芽、花是植物物种的一部分.二是植物物种具有某种特征,如“睡莲为多年生草本植物,根状茎”,描述了睡莲所具有的形态特征.(6)植物物种一生态环境的关系.生态环境包括温度、水分和土壤等因子.比如,“水杉生长于气候温和、多雨、酸性黄土壤地区”,揭示了生态环境中的气温、水分和土壤三个要素.(7)地理分布一生态环境的关系.不同地理区域的生态环境不一样,才会有不同的植物物种分布.比如,北方地区普遍干旱少雨,南方湿润多雨,地理分布与生态环境是强相关关系.7种语义关系中包含三对逆反关系,用OWL语句表达如表2所示.

2 3 4多语言本体语种概念的映射

笔者选择中文、英文及拉丁语三种语种类型作为多语言本体语种样本,多语种关系的映射将通过设置类的属性来完成.其关键步骤是:首先编制语义编码体系,其次定义类属性,实现不同语种概念之间的语义映射和关联.笔者采用protege工具调用“AnnotationProperties”属性功能来对语义编码进行定义,该属性为元数据属性,用于定义和解释类.笔者在该模块下自定义了两种属性.

(l)HasName属性.该属性用于连接语义编码体系与不同语种概念术语的语义内涵.例如在植物多语言本体中,“POIDOla”表示“杜鹃”,杜鹃的英文学名为“Rhododendron”,拉丁语学名为“Rhododendron simsii Planch”.通过“HasName”属性将这些不同语种的概念定义为“POIDOla”的语义内涵.

(2)HasSynonyms属性.“HasSynonyms”属性为“HasName”的下位类属性,用于处理不同概念之间同义词之间的关系.例如“杜鹃”中文别名有“映山红”、“山石榴”、“山踯躅”等表达方式,其拉丁文异名有“Rhododendron bi-color Tam”、 “Rhododendron calleryi Planch”等,利用“HasSynonyms”属性将不同语种的同义词集对应到同义语义编码上.由于“Has-Synonyms”是“HasName”属性的附属属性,因此,“杜鹃”这一物种的中文别名及拉丁文异名自动对应到“POIDOla”这一同义编码下.植物多语言本体语种映射关系如图3所示:

3基于植物多语言本体的查询

3.1 SPARQL本体查询语言

SPAROL(Simple Protocol and RDF OueryLanguage)语言的查询规范已成为W3C的推荐标准.SPAROL语言可用于异构数据的查询,是查询RDF和OWL本体的首选语言.SPAROL的查询类型主要有4种:SELECT、CON-STRUCT、ASK、DESCRIBE.本文对植物多语言本体的查询主要用于SELECT查询类型.SELECT查询由三部分组成:SELECT用于指定查询应用返回的内容.FROM指向使用的数据集或者本体文件.WHERE子句是由三元组模式组成的查询条件.

3.2多语言本体概念间语义关系查询

在protege中,调用“SPARQL query”模块.编辑SPAROL查询语句,查询与“杜鹃”有关的所有语义关系结果,语句如下:

图4显示了“杜鹃”概念的SPAROL查询结果,从图中可以看到,执行SPAROL查询语句后,得到所有与“杜鹃”有关的语义关系,这些语义关系均对应到同义语义编码下“POICOla”,即“杜鹃”所对应的语义编码.其语义关系包括对象属性关系(Object Propertiesl和数据属性关系(Annotation Propertiesl,对象属性关系有相关关系(lnRelationTol、地理分布关系(lsDistribute-dln)等;数据属性关系展示的是多语种关系,包括同义词和对应的其他语种概念.

本体映射是构建多语言本体常用的途径,本文采用语义编码的多语言本体映射,其原理与基于中间语言的多语言本体映射方法类似.利用基于语义编码的多语言本体映射方法来构建多语言本体的优势在于基于语义编码的概念等级体系更适合机器自动处理,在构建流程上也更加的规范,且适用于多种语种的多语言本体的构建.笔者通过该方法利用本体构建工具protege来实现植物多语言本体,并通过SPAROL查询语言对所构建的植物多语言本体进行了语义关系查询,结果显示利用基于语义编码的多语言本体映射方法能够实现不同语种概念之间的语义关联.

作者简介

司莉,博士生导师,武汉大学信息资源研究中心教授,图书馆学系主任;辛娟娟,武汉大学信息管理学院硕士研究生.

收稿日期 2015-10-22

研究论文参考资料:

汇总:此文是一篇关于珞珈山和本体和植物方面的相关大学硕士和研究本科毕业论文以及相关研究论文开题报告范文和职称论文写作参考文献资料。

和你相关的