分类筛选
分类筛选:

关于开放获取方面硕士学位论文范文 跟网络机器人探测技术在开放获取机构知识库用户数据统计中的应用*有关论文如何怎么撰写

版权:原创标记原创 主题:开放获取范文 类别:发表论文 2024-04-09

《网络机器人探测技术在开放获取机构知识库用户数据统计中的应用*》

本文是关于开放获取方面本科论文怎么写跟数据统计和知识库和机器人类硕士学位论文范文。

胡文静

(1.兰州大学图书馆 甘肃兰州 730000)

摘 要:文章通过文献分析对网络机器人探测技术的研究现状进行总结;对DSpace、EPrints、Digital Commons、 University of Minho Statistics Add-on for DSpace以及 Institutional Repository Usage Statistics UK (IRUS-UK) 5个机构知识库平台中网络机器人探测技术的应用进行了比较.探讨了开放获取机构知识库建设过程中的用户使用量统计问题的解决方案.分析得出:在开放获取机构知识库中同时应用网络机器人探测技术与人工排除网络机器人措施,对于提高用户使用数据统计的准确性有一定的帮助;学术类搜索引擎是网络机器人探测技术监控的重点对象.

关键词:网络机器人探测;开发获取机构知识库;用户使用数据统计

中图分类号:G202 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017042

1 引言

机构知识库(IR)建设与开放获取(OA)运动正在全球范围内冲击和改变着传统的学术出版模式及传播方式,影响和变革着传统出版发行机制、知识交流利益分配方式、知识成果的价值判断标准等,形成了一股不可逆转的知识成果运动方式变革潮流[1]. 截至2016年11月,全球范围内的学术性机构知识库数量已超过4000个,这些机构知识库中的很大一部分由学科联盟或各高校自主建设,以用户自存储的模式来保存和展示科研人员的研究成果,通常这些资源支持开放获取.

随着用户获取信息的途径越来越多,使用情况的统计数据成为分析和了解资源价值的重要手段.现阶段对于下载量统计数据有两种不同的观点,一些认为下载量统计方式存在问题,统计结果为无用信息[2],另一些机构和用户使用这些数据进行论文排名、作者排名、甚至定期将这些数据发布以进行宣传.文章下载量有时还被作为预测文章被引次数的前期指标[3],可以说是学术和科学研究出版物的最重要指标之一.

无论持有哪种观点,任何数据作为一个度量或仅作为简单的宣传推广目的使用都必须是准确的.然而,各类搜索引擎以及恶意评论制造者对网络机器人的使用对开放获取机构知识库的数据统计准确性提出了极大挑战.有数据表明,由网络机器人制造的流量,占到了网络总流量的8.51%-32.6%[4].网络机器人在不同类型的网站上所制造的流量差别很大,有一项针对互联网档案馆的调查表明,93%的使用请求来自于网络机器人[5].

有哪些技术可用来探测网络机器人?主要的机构知识库平台是如何进行网络机器人探测的?这些问题的探讨对我国开放获取机构知识库建设过程中的用户使用量统计问题的解决提供了参考.

2 网络机器人探测技术

Tan 与 Kumar[6]最早开展了对网络机器人探测技术的研究;Doran 与 Gokhale[4]对主要的网络机器人探测技术进行了总结.虽然这些研究主要来自于计算机科学领域,但已有研究人员将研究重点聚焦在其在学术信息系统的应用上[7-9].对Doran 与 Gokhale的分类体系进行简化后,列出了用于网络机器人探测的23个独立变量(见表1).

研究人员提出的变量分析方法各不相同,既有在服务器端对已知的机器人进行数据匹配的方式[8]也有利用复杂的机器学习技术的方式[10].可以明确的是,没有一种方法可以保证精确的探测到所有访问过网络服务器的机器人.因此,网络机器人探测技术的阶段性目标变成了在保证错报数量最小(查准率)的基础上最大程度的探测出网络机器人(查全率),即在尽量少的把人工行为标注为网络机器人行为的同时尽可能多的捕获网络机器人[11].笔者对各项针对网络机器人探测技术查全率、查准率以及F-值(查全率与查准率的调和平均数)的研究进行了汇总.可以看出,网络机器人探测技术的查全率在0.85与0.97之间,查准率在0.82与0.95之间,F-值在0.84与0.94之间(见表2).

在测试一项机器人探测技术时,研究人员首先要知道日志文件中的哪一个会话是网络机器人所创

建.大部分情况下,检测与标注数据的工作是应用另一项非测试的机器人探测技术以自动或半自动的形式完成的,但有时是通过人工形式进行的. Doran 与Gokhale [12]分析了人工检测与自动检测数据集的优缺点,指出人工检测准确率高,但可检测的网络机器人的范围较小,且受到数据大小的限制,自动检测所用到的技术本身就不可能完全准确,与所测试技术结果的对比不具有可信度.

由于专家的意见不统一、技术测试的局限性以及检测技术精确度的影响,合理的机器人探测技术应用应该是一种混合模型,应用多种技术与数据来达到一个尽可能好的效果[13].

3 网络机器人探测技术在开放获取知识库中的应用

机构知识库中的内容通常是通过主流搜索引擎的自动索引功能被用户所发现.一方面,机构知识库需要吸引搜索引擎以提升其内容的可见度;另一方面,出于准确的用户使用数据统计的需求,机构知识库需要应用机器人探测技术来剔除网络机器人对使用量的影响.

通常,机构知识库中的日志信息有以下缺陷:除下载请求之外的会话数据有限或不存在;知识库中的会话通常只包含单独的下载信息,而不包含下载之前的点击量信息与下载之后的浏览信息;在日志中可见的信息局限在日期、时间、HTTP方法与响应码、IP地址、用户代理字符串以及referring 网站.这导致表1中所列的多种网络机器人探测技术并不能在机构知识库中使用,如Web页面组件请求、图像链接比、资源类别请求等.由于机构知识库用户实时交互技术使用较少,鼠标移动与键盘声监测通常也无法进行,而使用验证码会导致机构知识库中的资源无法被搜索引擎发现.基于以上原因,笔者归纳了国外主要的OA机构知识库平台所采用的网络机器人探测方式(见表3).

3.1

DSpace

DSpace是全世界范围内应用最广泛的机构知识库系统,自2002年发布以来,已经有超过1600家机构使用.DSpace采用Apache SOLR进行用户使用数据统计,该系统从2010年起,采用了网络机器人探测技术来进行数据过滤[14].

DSpace采用了3种方式来探测网络机器人.首先,对每一个下载与页面浏览记录的用户代理字符串进行检测,使之与235个已知用户代理模式(正则表达式)进行对比;其次,检测访问请求的IP地址,使之与6个最大的搜索引擎的IP地址列表进行对比.除此之外,对比列表还包括一份包含2528个IP地址的其他搜索引擎IP地址列表,以及与搜索引擎无关的48个已知网络机器人列表.大部分IP地址列表可以通过网络查询自动更新.最后,对正式域名采用反向DNS名称查找的方式使之与已知网络机器人域名列表进行对比[15].从2014年开始,基于用户使用数据统计准确性的需求,DSpace 已经开始对其网络机器人探测方式进行重新评估[16].

3.2

EPrints

EPrints是全球最早上线的机构知识库平台,全球用户数量排在DSpace之后,位居第二,有578家机构使用[17].EPrints平台中的用户使用数据统计模块叫IRStats 2,这个模块中使用了网络机器人探测技术[18].

IRStats 对下载量数据的过滤基于两种方式.一种方式是利用用户代理字符串列表,该列表包含960个已知网络机器人及爬虫软件信息.如果使用请求的用户代理字符串记录与列表信息相匹配,下载记录数据在用户下载量统计时将被过滤;第二种方式通过检测单个IP地址申请下载的时间间隔来进行.默认情况下,如果同一IP地址在24小时内多次申请下载同一条信息,在进行用户下载量统计时,只按一次计算.这一过滤方式的阶段性目标是识别所谓的“重复下载”[19].严格意义上来讲,重复下载并不一定完全是网络机器人的行为,但过滤软件会把此类合法下载识别为网络机器人行为,在数据统计时排除在外.此外,因为同一网络机器人在24小时内对机构知识库中所有文件进行单次下载的行为是被允许的,如果这个网络机器人每24小时对这个机构知识库中的所有文件进行下载,所有这些下载数据将被记录在用户下载数量之中.尽管如此,这种方式已经在没有人工干预的情况下,很大程度上限制了网络机器人的行为.

3.3

Digital Commons

Digital Commons是一个服务器托管机构知识库平台,全球用户数有400个机构[20].该平台上的所有开放获取资源都通过Digital Commons Network这一单一门户来揭示,现有150多万条OA数据.由于Digital Commons是一个集中管理的网络知识库,其机器人探测技术所需的数据集要大大多于单个的机构知识库系统.大规模的数据集可以提供更加准确的用户行为探测,这是本地部署的机构知识库所不能比拟的.此外,机构知识库所制定的数据规则,对使用平台的所有机构均适用,这使得多个计数器可以兼容跨机构站点的下载统计数据.

Digital Commons 所使用的网络机器人探测技术由一系列的过滤器组成.由用户代理字符串已经申明的已知网络机器人产生的下载以及使HTTP产生除200与302响应码以外其他响应码的下载,均不计入用户使用量统计中.用户在30秒内使用同一IP地址对同一资源的下载,也将被计数器排除在使用量统计之外[21].referrer字段用来识别自动产生的链接地址.最后,Digital Commons使用内部的加权算法进行实时计算.这个算法有5个指标,包括一个IP地址24小时之内在平台上对所有知识库及所有文章的所有活动记录、来自代理服务系统的请求、下载请求的定位信息、下载请求是否来自.edu 域名,第5个指标来自于交叉比较一个IP地址所代理的用户数量与由每一个IP—用户代理配对所产生的条目下载请求数量.

3.4

Minho大学统计组件

Minho 大学统计组件开发于2006年,是一个与DSpace相结合的开源统计系统.开发的初衷是向全世界展示Minho大学机构知识库中的资源使用情况,促进机构知识库的进一步完善[22].此系统还具有全面的工作流以及管理数据统计功能.

Minho统计组件在数据库中存储了DSpace中所有的下载比特流(包括PDF格式与其他格式).该系统采用多样化的方式来探测网络机器人.包括与包含793个已知网络机器人的预设表单进行匹配,探测假网页的访问请求与来自 robots.txt 文件列表里的网址访问请求.数据库中包含被定义为网络机器人的相关IP地址与用户代理字符串,这些信息通过预先的日志分析产生.所有这些疑似网络机器人的下载行为,在用户使用数据统计中都会被过滤,不会被终端用户所见.

为了标注下载信息,网络机器人探测脚本读取服务器日志文件,检查每一个访问请求的IP地址以及代理信息是否已经存储在数据库中.如果代理字符串在数据库中找到,使用这个用户代理字符串的所有新IP地址,将被标注为潜在的网络机器人.如果IP地址与用户代理字符串信息都不在数据库中,探测脚本将对代理信息与预设代理列表以及假网页与robots.txt 文件列表相比对.如果匹配成功,这个新的IP/代理配对将被记录,由这个地址所产生的下载历史数据是否在使用量数据统计时被剔除,需要进行人工决策[23](Minho统计组件的网络机器人探测脚本的决策过程见图1).

除网络机器人探测脚本以外,Minho统计组件还向用户提供综合管理界面,在一分钟之内超过10次访问请求或产生多次会话的IP地址将显示在这个界面上[24].在一定时间段内,高频出现的IP地址也会显示在这个界面上.这个工具将有助于人工决策是否将单个IP地址加入到疑似网络机器人列表中.

3.5

IRUS-UK

IRUS-UK是应用于英国91个机构知识库的使用量统计系统[25].该系统遵循COUNTER-PIRUS业务规程,旨在为英国机构知识库联盟提供统一的用户机构知识库使用量[26].

与Digital Commons Network一样,IRUS-UK是一项大规模的服务,应用网络机器人探测技术在中心服务上,在多个机构知识库中进行跨平台数据统计.这两个系统都与开放获取机构知识库联盟(COAR)的使用量统计小组合作,与此同时,IRUS-UK还致力于促进反网络机器人工作组的成立[27].

为了探测网络机器人,IRUS-UK使用包含241个已知网络机器人用户代理模式的反网络机器人列表,并且对过于活跃的IP地址进行了访问限制.最初,IRUS-UK设置过滤在一天之内从91个机构知识库中下载超过200次的IP地址的所有下载次数数据,下载超过100次的IP地址下载数据的一部分也会被过滤[28].现阶段,IRUS-UK将所有IP地址一天下载次数的最大值设置成了40次,并且长期进行加强网络机器人探测技术的研究.

3.6

网络机器人探测技术应用评价

5种OA机构知识库平台网络机器人探测方式各有特点. Dspace采用了单一的综合日志分析模式,数据需求较少,实现难度较低,且采用了高效的 Solr索引技术[29],系统资源耗费较少,执行效率高,但有如下疏漏之处:一是IP地址列表并没有实现自动更新,自2010年采用网络机器人探测技术以来,DSpace使用的用于对比的IP地址列表就从未更新过;二是用户代理字符串的更新并不及时,DSpace最后一次更新用户代理字符串是在2015年4月;此外,DSpace的对比域名列表只包含了10种域名模式,以至于其网络机器人探测更像是功能性或实验性的,在实际应用中并不能发挥应有作用.EPrints虽然只采用2种数据来进行网络机器人探测,却兼顾了综合日志分析模式与流量分析模式,数据分析方法比较全面,但存在网络地址转换给正确的识别网络机器人带来影响的问题.这就需要系统在查全率与查准率之间做一个平衡.通常,超时时间设置的越短,查全率越低、查准率越高;超时时间设置的越长,查全率越高、查准率越低.多用户使用同一IP地址访问EPrints时,所产生的使用数据统计问题也已经被多个用户所提出[30].Digital Commons采用了10个字段来进行网络机器人探测,在5个OA机构知识库平台中为最多,大规模的数据集以使探测的全面性得到了保障.此外,服务器托管模式以及统一的规则有利于统计数据在更大范围以及更多方向上应用.但其内部加权算法中的单个IP地址使用不同的代理字符串下载相同数量条目的计算是算法中的一个缺陷,在这种加权模式下,网络机器人的行为将不被识别.Minho大学统计组件在数据需求上选择了折中处理,同时引入自动机器探测与人工排查结合的两阶段探测模式重点突出对查准率的保证,但存在缺乏API和代码级文档的问题[23-24].在数据库中过滤网络机器人使用量以及进行使用量重新统计需要耗费大量时间及系统资源,包括CPU、内存、数据量连接等.使用SQL语言进行使用量统计时容易产生大量的错误代码,需要大量的时间去修复,整体系统运行效率较低.IRUSUK的部署模式与Digital Commons相近,但在探测字段需求上进行了简化,且开发团队长期重视网络机器人探测技术的研究,算法版本迭代速度快,但其针对性强,应用范围仅限于英国,全球推广难度较大.

IP地址的静态检测问题是5个OA机构知识库存在的共有问题.一是被检测到的网络机器人IP地址以及用户代理字符串,并没有自动被添加到列表中,这导致检测结果具有很大的随机性,某一次检测中的正确结果可能在下次检测时被忽略;二是一旦一个IP地址被标注为来自于网络机器人,这个IP地址将永远被加入黑名单.如果此后这个IP地址被正常使用者使用,此用户的使用量还是会被系统过滤,而将IP地址从黑名单去除的方式极为有限;三是一旦一个用户代理字符串与一个网络机器人IP地址绑定,任何使用这个代理的新IP地址都会被认为是网络机器人.为了解决这些问题,与DHCP配置相结合的探测技术将是研究的重点方向.

4 机构知识库网络机器人探测技术实施建议

4.1

探测方式

现阶段主要的机器人探测技术主要是利用会话数据来识别网络机器人.如本文所述,在实际的机构知识库中,实时会话数据很少或没有,于是使用行为被限定为直接使用搜索引擎一次性下载文档的行为.使用可扩展的已知网络机器人IP地址列表、可自动收割的用户代理字符串来判定网络机器人行为,是机构知识库可采用的较为节约成本的模式.同时,在这种情况下,人工判断一些可疑的IP地址是否为网络机器人对于提高查全率与查准率有一定的帮助.笔者总结了可用于人工判断网络机器人行为的基本字段(见表4).

4.2

探测对象

国外学者研究表明,对于OA学术期刊来说,大量的网络机器人行为来自于少数几个搜索引擎.在所调查的341个下载样本中,有165个下载来自于Google学术的 Googlebot ,占总下载次数的48%[8].在我国,学术类网络搜索引擎近年来也快速发展.2014 年 6 月 13 日,“百度学术搜索”上线,旨在构建为用户提供海量中英文检索的学术搜索平台,涵盖各类学术期刊、会议论文[31],成为我国最大的学术类网络搜索引擎.与国外的学术类搜索引擎一样,百度学术也未向外公布其搜索来源,仅简单介绍了收录范围.可以推测,各类OA机构知识库也是其获取学术资源的一个主要渠道.因此,网络机器人探测的重点对象应放到主要的学术类搜索引擎上来.

4.3

数据利用

准确的用户使用数据统计是机构知识库功能升级的基础,对用户使用数据的合理利用,是网络机器人探测技术应用的最终目标.Coyners[32]认为电子资源统计数据的分析可以直接推动服务提升和增强用户支持.网络机器人探测技术所监控的数据是挖掘读者需求的重要数据来源,通过数据挖掘技术的应用可以实现对用户数据进行关联规则挖掘、聚类分析、趋势预测等.在实际挖掘中可以采用.5决策树算法,将用户下载偏好类型作为类标签,对影响分类的评价规则进行挖掘,揭示用户偏好特点和规律,结合协同推荐算法,可以为用户提供更加智能化、个性化的信息推送服务[33].此外,国内领先的中国科学院机构知识库通过利用用户使用数据与其他科研数据的关联、开放数据接口,实现了知识分析和信息可视化,以此来进行科研成果管理、科研产出评价等信息增值服务,促进了机构知识库平台功能的扩展和优化[34].

在用户使用数据利用存在的问题方面,Baker和Read[35]指出缺乏统一的数据统计标准是阻碍大规模跨平台数据挖掘深入开展的根本原因.现阶段,商用数据库的用户使用数据统计大多基于COUNTER标准.我国深圳大学设计了USSER平台,基于数据库商提供的原始 COUNTER报告,对其进行深入整合与分析,针对电子资源使用统计整合与分析难题进行了探索与实践,初步取得了成效[36].机构知识库平台的用户使用数据统计同样可以统一采用此标准,在此基础上实现用户使用数据在更深更广的尺度上被充分利用.

5 结语

开放获取机构知识库的用户使用量统计,不但是服务效果和服务价值体现的主要指标,其自身也有许多问题需要进一步研究,如网络机器人探测技术在机构知识库中的应用效果如何、向用户提供的使用量数据准确性如何等.随着大数据时代的来临,各个开放机构知识库构建部门已经意识到了使用统计数据的重要性,但是对如何方便地获得和展示使用统计数据、进行数据共享、方便地整合与加工使用统计数据、实现使用统计数据的长期保存等问题仍需进一步研究.

开放获取论文参考资料:

开放时代杂志

改革开放成就论文

改革开放家乡的变化论文

改革开放小论文

改革开放的参考文献

改革和开放杂志

结论:上述文章是大学硕士与开放获取本科开放获取毕业论文开题报告范文和相关优秀学术职称论文参考文献资料,关于免费教你怎么写数据统计和知识库和机器人方面论文范文。

和你相关的