分类筛选
分类筛选:

关于中科院类毕业论文格式范文 和元数据语义化映射过程以中科院机构名称规范控制库为例方面毕业论文怎么写

版权:原创标记原创 主题:中科院范文 类别:职称论文 2024-03-15

《元数据语义化映射过程以中科院机构名称规范控制库为例》

该文是中科院方面论文写作技巧范文跟元数据和机构名称和语义类毕业论文怎么写。

0 引言

  对信息资源质量最重要的评价方法是使用者对该信息资源的理解是否充分.在传统意义上,机器可读的元数据是理解数据结构的最重要方式.在过去15年中,机器可读元数据是应用模型驱动技术实现数据整合的关键所在.主流的元数据格式定义仅包含一种机器可读元数据,也就是数据的语法元数据.这种元数据并不能帮助数据分析者决定两种不同格式的数据之间的映射关系,而且数据语义化定义的误区也会导致系统为了一些微小的错误而付出昂贵的代价,且不易被解决.由于不同的领域存在多种元数据格式,当用不同元数据格式进行资源描述、检索和利用时,就需要解决它们之间的释读、转换问题.这些局限是导致目前数据整合工作仍为劳动密集型的关键所在,机器可读的语义元数据可以适度减少这些局限性.

1 元数据语义化映射

1.1 语义元数据的内涵

  根据元数据的结构特征,语义元数据的内涵可分为弱语义性元数据和强语义性元数据两类.弱语义性元数据只是给出其元素的语句性定义,并没有指定明确的内容提取规则(如都柏林核心);强语义性元数据则明确规定内容的提取原则,不仅提供元素的语句性定义,更制定了一系列生成规则来规定数据元素含义,使得这些元素的语义非常明确并具有可操作性.

1.1.1 语义元数据标准

  要实现不同规范的元数据语义映射,就应有针对不同周期和内容的元数据语义描述标准.比如,元数据注册标准ISO/IEC 11179 Metadata Registry (MDR) Standard(以下简称“ISO/IEC 11179”)是用于规范机构元数据的国际标准[1],描述了语义元数据映射程序(MP),包括元数据集的识别、元数据集分组和元数据语义映射,是一个可以在最大限度上实现元数据集语义互操作的程序.其中,ISO/IEC 11179-3:2003:注册元模型基本属性 是关于元数据语义描述的标准化文档,对如何实现元数据语义描述的流程做出了详细规定,包括元数据语义标识、元数据语义内容、元数据语义关系和元数据语义值4个方面的内容[2].

1.1.2 元数据语义化映射方法

  语义映射有很多方法,可以分成基于结构的方法(Structural-Based)和基于本体的方法(Ontology-Based)[3].基于结构的方法重点从数据源的结构信息寻找语义映射关系,解决语法和结构异构对映射的影响;基于本体的方法则力图从数据源的内在语义来寻找语义映射关系[4].这两种方法各有侧重,能够起到互补的作用.相应地,目前较为常用的元数据语义化映射方法也有两种:一是基于结构的映射方法,首先对XML元素的名称进行分解、扩展等操作,然后对经过分解、扩展处理后的元素名称采用“名称匹配”(Name Match)的方法进行映射.其重点在于从分析XML的模式信息来寻找映射关系,主要解决XML数据语义映射过程中语法和结构上的异构问题,但缺乏对XML文档中语义信息的利用[5].二是基于本体的映射方法,首先在应用需求的基础上建立基于专业领域的共享本体(Share Ontology),此外还要对需要进行映射的XML数据源分别建立局部本体(Local Ontology),然后根据本体所提供的对象间的关系解决XML文档之间的语义映射问题.近年在国际语义网会议的推动下,特别是举办OAEI(the Ontology Alignment Evaluation Initiative)竞赛以来,多种通用本体映射系统亮相OAEI[6],促进了本体映射的发展.

1.2 元数据语义化映射过程

  元数据是一个结构化的信息单元,通过对元数据的结构进行解析,可以清楚地得到元数据的层次结构.一个元数据由内容规则层、元素集合层、载体层和字符编码层4个层次组成.在元数据的层次结构中,每层之间并非相互独立,而是相互关联的,即元数据结构中的上层对下层是一种解释关系.具体而言,内容规则层给出元素确切的和可操作的定义,是对元素集合层的解释.内容规则层主要是定义元素集合层的规范标准(如都柏林核心),而每一个元数据规范又给出其元素的定义.在元数据的载体层,元数据表现为一组“实体-属性”对.这些“实体-属性”对元数据载体的含义进行界定和解释,因此元素集合层是载体层的解释.元数据的载体语言将元数据以计算机能够理解的逻辑表达出来,通过字符编码规则转换成计算机代码.所以,载体是一种计算机能够理解的语义表达,是字符编码层的解释.元数据载体层通过字符编码赋予了元数据机器可理解的意义.

  元数据互操作是将一个元数据集映射到另一个元数据集的最常用方法.目前大部分元数据都是弱语义性元数据,元数据互操作通常是基于数据元素之间的简单“一对一”映射关系.为了实现不同平台元数据之间更好的互操作和映射,需要给出每个元数据语义内容,及兼容“一对一”和其他映射关系的详细阐述.通常两个不同的系统不能直接共享同一个元数据模型,因为模型中的元数据类目并不是通过同一种方式分解的,这样必然导致系统间元数据的互操作性受到抑制.例如,一个信息对象往往对应有两个或者更多的数据元素集合,如DC (Dublin Core),MARC(Machine Readable Cataloguing)和MODS(Metadata Object Description Schema)三种数据元素集合可以用来对书籍信息进行描述.一个信息对象的数据元素的命名是由数据库开发者自行决定的.因此,各数据库间的元数据交换就变得异常困难,甚至不可能实现.根据ISO/IEC 11179标准所提供的框架可实现数据库间元数据的互操作,其中最重要的内容是进行元数据的语义化映射.元数据语义化映射主要分为3个阶段:识别元数据、分组数据元素和语义映射[7].结合ISO/IEC 11179-1:2004:框架和ISO/IEC 11179-3:2003:注册元模型与基本属性标准,对元数据语义化描述进行规范化处理,是实现元数据域语义化映射的前提条件.本文中有关元数据语义化映射的过程就是依据ISO/IEC 11179-1:2004和ISO/IEC 11179-3:2003标准,创建公用数据元素概念(DECs),从而实现不同系统间元数据的语义化映射.

1.2.1 识别元数据集

  识别元数据集的首要任务是将不同数据库中表示同一信息对象的所有有效元数据元素集合进行采集,从中识别将被映射的候选数据元素集合,目的是识别可被映射的数据元素,剔除不适合被映射的数据元素.在进行元数据集识别时,必须调查某一特定领域中需要实现互操作的数据库或系统以及元数据集的情况,主要包括4方面:(1)调查数据库或系统中采用的元数据标准.国际上流行的元数据标准有7种:CDWA、DC、EAD、FGDC、GILS、TEI、VRA[8].其中,DC是针对网络资源的元数据标准,目的是实现资源发现.简单的元素定义和设置便于著录,是DC获得广泛应用的重要原因.(2)计算元数据元素集合的字段数量,目的是比较不同数据库的元数据完整性和全面性,是确定原始元数据集合的重要依据.(3)检查数据库或系统中是否存在样本数据.(4)调查每个元数据集的授权机构.

  由于待识别的元数据来源广泛,所采用元数据标准、编写习惯等不同,其元素和属性的名称不统一.因此,为了实现元数据语义化映射的自动化过程,必须通过模型化方式使得机器可以自动识别元数据集.通常的方法是通过构建元数据树匹配模型识别出符合标准的元数据,从而实现元数据的提取、分类、存储或检索[9].首先,制定网络资源的元数据标准,选择要识别的数据源;其次,根据元数据标准建立标准化的元数据模板,并将其转换为XML结构;然后,对不同数据源的元数据与标准化的元数据模板进行匹配,即对数据源的元数据字段名称进行预处理,再进行元数据字段内容和结构的语义化匹配;最后,对标准化的不同数据源元数据进行自动抽取和识别.

1.2.2 分组数据元素

  第二阶段是从识别出来的数据元素集合中对各元素进行分组,主要包括4个连续的过程:发现对象、根据对象对元素进行分组、发现属性、根据属性对元素进行分组,即根据对象类对数据元素进行分组,并发现对象的属性,然后依据其属性对数据元素进行再分组.为了方便起见,应在各数据库或系统的元数据集中选择一个原始元数据集,并通过原始元数据集将所有数据元素进行汇总.所谓原始数据元素就是所有源数据集中最简单或者级别最高的元数据集.在候选数据元素集合中,所有数据元素都应按其属性进行汇总,其中重要性较小的数据元素,以及不能被分组的数据元素会被剔除.数据元素的分组需要元数据专家和领域专家相互配合才能完成.

  在没有可选择的最高级别元数据集作为原始数据元素汇集基础的情况下,可以通过对多种数据源的数据进行汇总分析,构建符合要求的原始数据元素集.以机构元数据元素为例,为了实现以机构为中心的知识组织体系,需要构建具有语义关联的元数据容器和元数据元素(见图1).其中,元数据容器包括机构名称、机构关系、机构标签、地理信息、知识体系;每个元数据容器中又包含符合该容器定义的元数据元素.对机构元数据元素进行分组的目的是为了结构化机构元数据,从而为构建以机构为中心的知识组织体系奠定基础.

1.2.3 语义映射

  元数据语义化映射的最后一个阶段就是语义映射的实现.在这个阶段中,需要将所有的数据元素汇总成表,并对每个数据元素的匹配精确度进行注释.在元数据语义化映射过程中将会产生一组被推荐的元数据,用于指导以后的元数据语义化映射标准.

  元数据语义化映射首先要在第二阶段分组的数据元素中寻找公用数据元素概念(DECs).如果领域本体或分类是已知的,将会对构建公用数据元素概念非常有帮助.然后,所有候选数据元素将会按照公用数据元素概念进行分类汇总,分类汇总表中也会对语义元数据异构类型(见表1)进行描述.语义元数据的异构类型有6个类别,其中复杂项类别必须通过人工干预才能得到解决,因此在进行元数据语义化映射时需要剔除复杂项类别的数据元素.

2 中科院机构名称元数据语义化映射

2.1 中科院机构名称元数据识别

  对不同数据库中标识机构名称的所有有效元数据元素进行采集.“中科院机构名称规范库”(以下简称“名称规范库”)在对资源系统进行调研后,选择Web of Science(WOS)、EI、中国知网(CNKI)和中国科学引文数据库(CSCD)作为机构名称有效源数据采集的来源.之所以选择以上4个数据库作为采集源,是因为:(1)这些数据库涵盖自然科学所有的学科领域;(2)这些数据库在权威性、全面性、完整度、利用率和专业性等方面处于国内外领先地位,得到国内外各类科研机构的广泛认可;(3)经过多年发展,这些数据库的元数据规范不断更新和完善,可采集到较为规范的科研机构相关元数据元素.

  本文以Web of Science为例,展现科研机构名称元数据元素集合的字段数量及字段内容(见表2和图2).

2.2中科院机构名称元数据元素分组

  通过对Web of Science、EI、CNKI和CSCD中机构相关元数据集进行比较,选择Web of Science的元数据集作为原始元数据集;而EI、CNKI和CSCD作为候选元数据集.之所以选择Web of Science的元数据集作为原始元数据集,是因为在4个数据库中,Web of Science具有最为完整和多层级关系的元数据元素.确定了原始元数据集和候选元数据集后,根据对象的类和属性对元数据元素进行分组(见表3).  

  在进行元数据元素分组的时候有几点需要特别注意:(1)部分元数据字段内容需要通过其他方式进行补充,如Web of Science中子机构的全称需要通过其他渠道采集;(2)部分数据库将多个对象类和属性表现在一个字段中,需要进行字段的切分,如CNKI中,将多个机构名称统一在“作者单位”字段中,将第一作者的机构地理位置统一在“第一作者单位”字段中;(3)机构之间的关系并没有体现在分组的对象类中,需要后期根据字段标签进行添加.

2.3 中科院机构名称元数据语义映射

  (1)不同层级映射.一般与特殊关系的映射:一般类——机构名称全称为一对一映射关系,每个机构有且仅有一个正式的机构名称,选定来源于中科院机构网站上的正式名称作为映射关系的一般类;特殊类——机构名称缩写为多对一映射关系,每个机构有来自于不同来源的机构名称缩写,如来源于WOS、EI、CNKI等数据库或机构网站.比如,中科院寒区旱区环境与工程研究所(来源于机构网站)是一般类;Clod & Arid Reg Environm & Engn Res Inst(来源于 WOS),CAREERI,CAS(来源于机构网站),Cold And Arid Regions Environmental And Engineering Research Institute,Chinese Academy of Sciences(来源于EI),中科院寒旱所(来源于CNKI)均是特殊类.

  合成与分解关系的映射:合成类——主机构为一对一映射,每个机构有且仅有一个主机构;分解类——子机构为多对一映射,一个主机构可包含多个子机构.中科院寒区旱区环境与工程研究所(来源于机构网站)是合成类;中科院沙漠与沙漠化重点实验室(来源于机构网站),中科院寒旱所寒旱区遥感观测系统试验站(来源于CNKI),State Key Laboratory of Frozen Soil Engineering,Cold And Arid Regions Environmental And Engineering Research Institute,Chinese(来源于EI),Key Lab. of Land Surface Process & Climate Change in Cold & Arid Regions,Clod & Arid Regions Environ. & Eng. Res. Inst. (来源于WOS)均是分解类.

  在合成和分解关系映射过程中需要注意,分解类同时包含一般类和特殊类,需要对每个条目再进行一般类和特殊类的映射.

  (2)学科领域映射.由于4个数据库中学科分类体系标准不同,学科分类体系的层级、数量以及名称都有出入.因此,需要寻找公用数据元素概念(DECs),再将所有候选数据元素按照公用数据元素概念进行分类汇总.通过对WOS、EI、CNKI和CSCD的学科分类体系和分类标准进行调研和比较,最终确定将WOS的学科分类体系作为公用数据元素概念(DECs)(见表4);然后将来源于其他3个数据库的学科分类体系与WOS的学科分类体系进行映射.

  (3)词法与句法映射.词法映射包括同义词、缩写/首字母缩写、大小写敏感度、语种和变形(见表5).句法映射包括排序、分隔符、缺失(见表6).

  (4)复杂项映射.4个数据库采集到的机构名称相关元数据元素集中无法对机构名称的历史变更关系进行映射.由于部分机构名称的历史变更情况复杂,而且没有统一入口进行批量采集,因此需要通过机构网站的调研进行人工干预.例如,中科院寒区旱区环境与工程研究所先后经历了合并(Merged from),拆分(Decomposed from),更名(Changed from)和前身(Predecessor)[10].

  这些复杂的机构名称历史变更关系需要通过对机构网站“机构沿革”“关于我们”等栏目文字内容的梳理获得.由于不同机构网站文本描述的风格不同,因此无法建立统一的规则进行机器学习来实现机构历史变更关系的语义化映射,而需要先通过人工调研,发现通用事例(如大部分机构变更关系的描述都在导航栏“机构沿革”“关于我们”中),然后通过事例学习进行元数据映射.由于机器学习获得的信息往往是不完全的,所以机器学习所进行的推理并不完全是可靠的,必须对机器学习的执行效果加以验证,删除或修改不正确的规则,经过反复的学习,不断提高机器学习滤过,最终实现元数据复杂项的映射.

3 结语

  即便是具有相同含义的数据元素,也有可能具有不同的名称,这就有可能在数据共享或交换的时候产生数据不一致的问题.因此,语义元数据映射的出现可以在数据元素之间进行调解,以实现数据元素的共享或互操作.元数据互通,即将一个数据集中的元素映射到另一个数据元素集上是实现元数据互操作最常用的方法.但是,传统元数据映射的语义性较差,这是因为传统的元数据映射仅仅在一对一映射时才有意义.因此,元数据语义化映射是实现元数据语义互操作的基本方法,语义化映射不仅可以赋予元数据语义层面的意义,而且突破传统元数据映射仅适用于一对一映射的局限性.

  本文描述了元数据语义化映射过程及其基于语义的元数据映射程序(MP),该程序是在ISO/IEC 11179标准指导下形成的,可以最大限度地提高数据元素之间的互操作性.本文结合元数据语义化描述标准和元数据语义化映射方法,对元数据语义化映射的过程进行了分阶段描述,对今后特定学科领域的不同数据库或系统间的元数据共享和交换具有指导性意义.

参考文献

[1] ISO/IEC 11179 [S/OL].[2014-05-10]. http://en. wikipedia.org/wiki/ISO/IEC_11179#Structure_of_t he_ISO. 2FIEC_11179_standard.

[2] ISO/IEC. ISO/IEC 11179-3:2003信息技术—元数据注册—第3部分:注册元模型与基本属性[S/OL]. (2003-02-15)[2017-03-10]. https://www.ftb.ca.gov/ aboutFTB/Projects/ITSP/Part_3_Registry_Metamodel. pdf.

[3] 周武,金远平. XML数据语义映射方法研究[J]. 计算机工程与应用,2003(28):88-91.

[4] 周武. XML数据语义映射研究[D]. 南京:东南大学,2004.

[5] 李跃龙. 基于本体的消防知识集成研究[D]. 大连:大连海事大学,2008.

[6] 陶俊,孙坦. 2009年以来本体映射系统模型研究综述[J]. 图书情报工作,2011(12):101-105.

[7] Sungjoon Lim,Taesul Seo,Changhan Lee,et al. Study on the International Standardization for the Semantic Metadata Mapping Procedure[C]. DAAA 2012,Part II,LNCS 7239,2012:243-249.

[8] 冯项云,肖珑,廖三三,等. 国外常用源数据标准比较研究[J]. 大学图书馆学报,2001(4):15-21.

[9] 冯秀珍,陈旎. 电子资源元数据的自动识别研究[J]. 情报杂志,2010(4):130-133.

[10] 李慧佳,马建玲,张秀秀,等. 中文机构名称规范库建设的实践与分析——以“中科院机构名称规范库”建设为例[J]. 图书与情报,2016(1):133-139.

作者简介 李慧佳,中国科学院兰州文献情报中心馆员;马建玲,中国科学院兰州文献情报中心研究馆员;张秀秀,中国科学院兰州文献情报中心馆员;王楠,中国科学院兰州文献情报中心副研究馆员.

收稿日期 2017-04-16

(责任编辑:邝玥;英文编辑:杨继贤)

中科院论文参考资料:

言而总之:该文是关于中科院方面的大学硕士和本科毕业论文以及元数据和机构名称和语义相关中科院论文开题报告范文和职称论文写作参考文献资料。

和你相关的