分类筛选
分类筛选:

主题类有关论文范本 与利用作者主题模型进行图书馆UGC的主题发现和演化有关论文范本

版权:原创标记原创 主题:主题范文 类别:硕士论文 2024-01-03

《利用作者主题模型进行图书馆UGC的主题发现和演化》

本文是主题类有关开题报告范文与发现和演化和图书馆有关开题报告范文。

赵 华,章成志

摘 要 通过对在线社交网络上图书馆用户生成内容(UGC)的分析,可以从宏观上更好地了解我国图书馆机构关注的热点话题及其演化情况.文章以新浪微博为数据源,获取一定时段我国图书馆微博的内容数据,依据作者主题模型获取候选主题,通过对候选主题进行聚类确定合适的话题数,根据作者主题模型结果计算相邻时间片主题之间的相似度,在此基础上分析主题的演化,最终完成不同图书馆主题分布及演化的差异分析.实证研究结果表明:目前我国图书馆微博主要关注新书推荐、讲座信息、图书馆服务、图书信息等主题;各月份的关注主题差异不大;除了共同关注的图书馆服务、新书推荐等话题之外,上午时段关注音乐和大学生相关话题,下午关注讲座信息和公益话题,晚上时段关注公益和大学生话题.

关键词 主题发现 主题演化 图书馆微博 在线社交网络 用户生成内容

引用本文格式 赵华,章成志. 利用作者主题模型进行图书馆UGC的主题发现与演化研究[J]. 图书馆论坛,2016(7):34-45.

Topic Detection and Evolution of Library User Generated Content Based on Author-Topic Model

ZHAO Hua,ZHANG Cheng-zhi

Abstract Based on topic detection and evolution of library User Generated Content(UGC)from online social networks,one can observe the hot topics and their evolution from a macro perspective. In this paper,the authors extract library corpus from Weibo (microblog) in a certain period. Author-Topic model is used to obtain candidate topics. According to the results of topics clustering,the authors get an appropriate topic number. Then,the authors calculate the similarities between two neighbor topics according to time. Finally,the authors present a comparative analysis of topic evolution between different libraries. The experimental results show that:libraries in China focus on the topics of new arrivals,lecture information,library services,book information and others;topics vary little each month;library Weibos concern the issues about music and college students in the morning,lecture information and public service in the afternoon;public service and college students in the evening in addition to the common topics such as library service,new arrivals.

Keywords topic detection;topic evolution;library microblog;online social network;UGC

0 引言

微博是近年来新兴的一种网络信息传播方式.自2006年Twitter问世以来,类似的服务如雨后春笋般在各个国家出现.由于其便捷性、即时性、互动性、裂变式传播等特点,微博迅速成为公众信息交流的新型平台,世界各地越来越多的用户在微博上表达自己的想法.截至2015年6月,我国微博用户规模为2.04亿,其中使用新浪微博的用户占69.4%[1];Twitter的活跃用户为3.16亿[2].身处转型过程之中的图书馆,正试图在传统的运作模式之外寻求一种新的发展方向[3],其中,服务模式的变革和创新是图书馆转型的重要内容,而微博的应用正是拓展传统图书馆服务模式和服务内容的一种新途径,因此越来越多的图书馆开始提供微博服务[4].通过比较分析在线社交网络上图书馆用户生成内容(User Generated Content,UGC)的主题演化,可以从宏观上更好地了解我国图书馆机构关注的热点话题及其演化情况.

纵观现有的研究与应用,鲜有针对在线社交网络上图书馆用户生成内容的主题发现与演化研究.本文以图书馆微博为研究对象,从新浪微博平台上抓取图书馆用户的微博语料,使用作者主题模型(Author-Topic Model,AT Model)建模的方法抽取候选话题,对候选话题进行聚类,确定较为合适的话题数,然后再次采用作者主题模型进行话题建模以确定最终话题.在此基础上,计算主题相似度,完成图书馆用户发布内容的主题发现、图书馆微博话题演化分析以及不同时段话题分布的差异分析.结果发现,目前我国图书馆微博主要关注新书推荐、讲座信息、图书馆服务、图书信息等主题;各月份的关注主题差异不大;除此之外,上午时段主要关注音乐和大学生相关话题,下午以讲座信息和公益话题为主,晚上时段的关注热点聚焦于公益和大学生话题.

1 相关研究工作概述

1.1 图书馆微博的相关研究

作为社交网络平台的重要代表,微博广受学界关注[5-11],有关图书馆微博的研究也越来越多.2010年,王妙娅使用统计分析的方法,以新浪微博上的13个图书馆用户的微博信息为实验数据,对图书馆微博的应用现状进行了研究[12].2011年,陈琳取样分析新浪微博图书馆用户的信息,对图书馆微博群组、微博账户、微博内容等现状进行了揭示[13].2012年,黄淑敏采集20个新浪微博认证的图书馆微博的实验数据,通过微博数、关注数、粉丝数、注册天数、原创率等指标分析图书馆微博的影响力[14].2014年,李晓静等将新浪微博认证的图书馆微博用户分为个人用户和用户,通过网络调查方法,对这两种用户的特征进行了研究,提出图书馆微博用户发展策略[15].同年,刘国敏对图书馆微博社区的用户参与行为进行了研究[16].目前国内外主要研究图书馆微博的概念、特征、优势、作用、发布内容、现状分析与发展策略、存在问题与解决途径等[17],对图书馆微博内容方面的研究不够深入.

1.2 主题发现与演化的相关研究

话题的演化反映了一个话题从提出、发展、衰亡到最后结束的过程.2010年,单斌等根据引入时间方式的不同,总结了三种不同的演化方法:(1)将时间作为可观测变量结合到LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型中;(2)在整个文本集合上用LDA模型生成话题,然后按文本的时间信息,根据话题后验离散地分析话题随时间的演化;(3)将文本集合先按一定时间粒度离散到相应的时间窗口,在每个窗口上运用LDA模型来获取演化[18].

国内外很多学者采取不同的方法来研究话题检测及追踪,并进行了实证研究.比如:2010年,Ramage等使用半监督的Labeled LDA对Twitter上1周的数据进行实验研究,将话题分为四种类型,并对四类话题的强度差异进行了分析[19].2011年,Wayne Xin Zhao等比较了Twitter和New York Times上话题的类型,对比分析两种媒体上话题在分布、内容、覆盖程度、转发程度等方面存在的差异[20].2012年,Rui Li等提出了一个基于Twitter的事件检测分析系统(TEDAS),检测新事件、分析事件的时空模式以及识别事件的重要性[21].同年,Yuheng Hu等提出了联合贝叶斯模型,并对该模型进行定量和定性评估[22].2013年,Abdelhaq等开发了EvenTweet系统,根据用户所发微博及其时空信息,检测当地实时事件,跟踪事件随时间的演化,并进行了实证研究[23].同年,史庆伟等基于AT和TOT(Topics over Time,主题演化)模型,构建了作者主题演化模型,从科技文献中挖掘隐含主题、研究人员的研究兴趣及其演化规律[24].2014年,周振宇等从话题关注度、词汇差异度、话题演化度三个方面对新浪新闻和新浪微博两个平台的差异性进行了对比分析[25].同年,张玥等对突发事件在新浪微博和新浪新闻两个平台上舆情传播的特征和规律进行了比较分析[26].

综上所述,目前大量研究都是针对微博平台展开,但对图书馆微博内容的研究不够深入,且缺少对图书馆微博主题发现及演化方面的研究.因此,本文用作者主题模型进行话题建模,以图书馆新浪微博为研究对象,研究图书馆微博的话题分布和话题演化,比较不同时段话题分布存在的差异,多角度地了解微博内容的主题分布情况,从宏观上了解我国图书馆的关注热点及其演化.

2 研究框架与关键技术描述

2.1 研究框架

为了优化图书馆现有的信息服务,本文以新浪微博为研究平台,以图书馆微博为实证对象,利用聚类的方法确定主题数;结合时间信息,使用作者主题模型建模的方法发现主题;并结合相似度计算的方法判断主题间的演化关系.具体研究框架如图1所示.

首先,从新浪微博上获取图书馆微博用户的微博语料,将微博语料分别以月份和时段为时间片进行划分,对图书馆微博语料进行作者主题模型建模,挖掘候选主题;接着根据作者主题模型生成的“主题-词项”矩阵计算得到同一时间片内主题间的相似度,对主题进行聚类,从而得到每一时间片较为准确的主题数;然后,根据得到的主题数对图书馆微博语料进行二次作者主题模型建模,计算相邻时间片之间的主题相似度;最后对图书馆微博的主题及其演化进行分析.

本文使用的关键技术主要包括作者主题模型建模、主题数确定方法及话题演化关系确定方法,下一小节将对这些关键技术进行描述.

2.2 关键技术描述

2.2.1 作者主题模型

本文采用作者主题模型进行兴趣抽取.作者主题模型能够将文档和作者结合起来,在一个统一的框架下同时在作者和文档水平进行建模.

作者主题模型认为每个作者有一个主题概率分布θ,每个主题有一个词项概率分布φ,模型如图2所示.该模型的生成过程[27]如下:

(1)对于每个作者,抽取多项式概率分布θ;

(2)对于每个主题,抽取多项式概率分布φ;

(3)对文档d中的每个词项:(a)抽取一个作者x;(b)抽取一个主题z;(c)抽取一个词项w;

抽取过程重复Nd次,形成文档d.

图2中包含如下参数:θ、φ、α、β、ad、x、z、w、D、Nd、K、T.其中,θ为作者-主题概率分布;φ为主题-词项概率分布;α为Dirichlet先验参数,表示文档-主题概率分布的先验;β为Dirichlet先验参数,表示主题-词项概率分布的先验;ad为作者集合上的均匀分布;x为作者;z为主题;w为词项;D为文档集合;Nd为重复采样次数;K为作者的数量;T是主题的数量.

2.2.2 主题数确定方法

不同时间片讨论的主题存在着一些差异.为了较准确地确定每个时间片的主题个数,本文首先利用作者主题模型确定候选主题,然后根据作者主题模型所得的“主题-词项”矩阵文档计算各个时间片内主题间的JS距离(见公式1),接着使用AP聚类算法对候选主题进行聚类,将聚类的类簇数作为最终的主题数目.

其中,AP算法是根据N个数据点之间的相似度进行聚类的方法,不需要事先指定聚类数目,它将所有的数据点都作为潜在的聚类中心.AP算法[28-29]过程如下:将N个数据点之间的相似度组成N×N的相似度矩阵S;以S矩阵对角线上的数值s(k,k)作为k点能否成为聚类中心的评判标准,该值越大,表明这个点成为聚类中心的可能性也就越大,这个值又称作参考度.聚类的数量受到参考度的影响,如果认为每个数据点都有可能作为聚类中心,那么参考度就应取相同的值.如果取输入的相似度的均值作为参考度的值,得到聚类数量是中等的.如果取最小值,则得到类数最少的聚类.

其中,P(i)表示同一时间片内主题P中词i的概率,Q(i)表示同一时间片内主题Q中词i的概率.

2.2.3 话题演化关系确定方法

本文通过计算相邻时间片主题间的余弦相似度[30]来确定主题的演化情况,计算方法如公式2:

其中,Ai表示词i在主题A中的概率,Bi表示词i在主题B中的概率.

本文参照Jianyu Li等[31]的研究,根据主题之间的相似度来确定两个主体之间是否具有演化关系.设置相邻时间片不同主题之间的相似度的阈值为P0 ,如果相似度大于等于P0 ,就认为后一个时间片的主题是前一个时间片主题的延续,两个主题之间具有演化关系.

3 实验结果与分析

3.1 实验数据

本文利用新浪微博上119家图书馆的新浪微博为数据源①,时间跨度为2013年1月1日至2013年12月31日.其中,微博数为65529条;经过分词、词性标注、去停用词和对少于2个单词的微博进行过滤等预处理后,得到的微博数为56726条.

以月份为时间片进行时间切割,得到各时间片的微博数及百分比,参见表1.从表1可发现,2013年新浪微博图书馆用户各月的微博数在5.81%~11.19%之间波动,其中,2月和8月微博数最少,4月和5月微博数最多,总体分布比较均匀.

为了揭示不同时段图书馆微博话题分布的差异,以时段为时间片进行时间切割,将一天划分为上午(03:00~12:00)、下午(12:00~19:00)、晚上(19:00~次日03:00)三个时段,各时段的微博数分布如下:上午22574条,下午23998条、晚上9363条②.

3.2 实验结果分析

本文对图书馆微博的实验结果从主题总体分布、时段分布和月份分布及演化三个方面进行分析.使用作者主题模型获取候选主题,采取开源的Gibbs Sampling为采样工具,其参数设置如下:K设为50,模型参数α,β分别设为50/K和0.1.随后,根据作者主题模型建模结果计算不同主题之间的JS距离,然后根据所得JS距离对主题进行AP聚类.

3.2.1 图书馆微博主题的总体分布结果分析

本文对图书馆微博总体数据集建模结果进行AP聚类之后,得到8个中心主题,如表2所示.表2给出了利用作者主题模型计算得到的8个主题,并对主题进行了人工归纳总结,每个主题的描述包括两个部分:(1)与主题最相关的前10个词项;(2)与主题最相关的前10个作者.

从表2可以看出,这8个中心主题分别与“早安问候”(主题2)、“活动信息”(主题6)、“新书推荐”(主题8)、“讲座信息”(主题10)、“清华文科”(主题15)、“图书馆服务”(主题24)、“图书信息”(主题28)、“人生感悟”(主题48)相关.作者与主题有较好的对应关系,如“清华文科”主题的前三个作者中,清华大学图书馆、清华文科图书馆和浙江海洋学院图书馆与主题词中的“清华大学”“清华”“文科”“人文”“浙江”“海洋学院”等密切相关.从主题的总体分布可以看出,三江学院图书馆、信阳师范学院图书馆等经常发布“早安问候”相关主题的微博;杭州图书馆经常发布“活动信息”“图书馆服务”方面的信息;上海图书馆信使侧重发布“活动信息”“讲座信息”“图书馆服务”“人生感悟”“新书推荐”等方面的信息;民间流动图书馆重视发布以“人生感悟”为主题的微博.

3.2.2 图书馆微博主题的时段分布结果分析

将2013年的微博语料划分为上午、下午、晚上三个时段,进行作者主题模型建模,建模结果如表3、表4和表5所示.其中,上午时段的主题数为10,通过二次AP聚类,得到5个中心主题,如表3所示.

从表3可以看出,图书馆微博上午时段的5个中心主题分别与“大学生”(主题1)、“音乐”(主题9)、“亲子阅读”(主题2)、“图书馆服务”(主题5)、“新书推荐”(主题10)相关.三峡大学图书馆漂流书屋、三峡大学图书馆读者俱乐部等对“大学生”这个主题比较关注;北京市东城区图书馆、库克音乐等比较侧重“音乐”主题;悠贝亲子图书馆、爱贝乐亲子图书馆等对“亲子阅读”相关主题比较关心;广东财经大学图书馆、重庆大学图书馆等注重“图书馆服务”话题;上海图书馆信使、华东交通大学图书馆等经常进行“新书推荐”.

从表4可以看出,图书馆微博下午时段的5个中心主题分别与“新书推荐”(主题1)、“讲座信息”(主题3)、“亲子阅读”(主题4)、“图书馆服务”(主题5)、“公益”(主题2)相关.上海图书馆信使、民间流动图书馆等关心“新书推荐”主题;杭州图书馆、北京市东城区图书馆等注重“讲座信息”的发布;悠贝亲子图书馆、爱贝乐亲子图书馆依旧把“亲子阅读”相关话题作为重点;四川大学图书馆、三峡大学图书馆漂流书屋等侧重“图书馆服务”方面的信息;立人图书馆、闵行区图书馆等注重与“公益”相关的话题.

从表5可以看出,图书馆微博晚上时段的4个中心主题分别与“新书推荐”(主题1)、“亲子阅读”(主题3)、“公益”(主题4)、“大学生”(主题2)相关.顺德图书馆、杭州图书馆等侧重“新书推荐”;上海图书馆信使、悠贝亲子图书馆等关注“亲子阅读”;立人图书馆、四川大学图书馆等对“公益”主题更为关注;三峡大学图书馆漂流书屋、重庆图书馆等关心与“大学生”相关的话题.

综上可发现,上午、下午、晚上三个时段微博发布的内容既有共同点,也存在着差异.“亲子阅读”“新书推荐”的相关话题贯穿三个时段;“图书馆服务”的话题常在上午、下午两个时段被提到;“公益”相关话题往往在下午、晚上两个时段发布;“大学生”话题在上午、晚上两个时段受到更多的关注;此外,“音乐”相关话题常出现在上午时段,“讲座信息”相关话题则常在下午时段被提及.而且,从上面的分析可以看出,不同图书馆的话题各有侧重.

3.2.3 图书馆微博主题的月份分布及其演化结果分析

本文对所得候选主题进行AP聚类,以得到的类簇数作为主题数,进行二次主题建模.选取阈值P0为0.7来展示图书馆微博主题演化情况,包括主题的新生、合并、分裂和消亡,结果见附录.附录中每个方框中的一行代表一个主题,有连线关系的两个主题间具有演化关系,箭头末端的主题是箭头始端的主题在下个月的演变结果.附录给出了利用作者主题模型计算得到的主题,每个主题的描述包括三个部分:(1)主题名称;(2)与主题最相关的前10个词项;(3)与主题最相关的前4个作者(由于篇幅的限制,未给出主题词词项和作者的概率,且只给出前4个最相关的作者).

从附录可以看出,2013年1月,立人图书馆、上海图书馆信使、顺德图书馆等发布较多与“公益”“新书推荐”和“图书馆服务”主题相关的微博.2月,“图书馆服务”是上海图书馆信使等的主要话题,而“星云大师”成为鑑真图书馆等的主要话题.3月,“新书推荐”“图书馆服务”“亲子阅读”成为上海图书馆信使、顺德图书馆和立人图书馆等的热议话题.4月,“讲座信息”“亲子阅读”“图书馆服务”等成为立人图书馆、爱贝乐亲子图书馆、四川大学图书馆等的话题热点.5月,民间流动图书馆、杭州图书馆等延续了之前的“讲座信息”“亲子阅读”“新书推荐”等话题,且出现了“图书信息”“大学生”两个新话题.6-7月和5月讨论的话题大致相同,新增了“图书馆服务”的话题.8月,立人图书馆、华东交通大学图书馆等出现“志愿者”相关话题.9月,话题较单一,主要是上海图书馆信使等关注的“图书馆服务”相关话题.10月,“图书信息”“亲子阅读”“活动信息”“讲座信息”等主题依旧是重点.11月,延续了之前的热点话题,除了“亲子阅读”“讲座信息”“图书信息”等话题,新增了上海图书馆信使等关心的“新书推荐”和三峡大学图书馆漂流书屋、三峡大学图书馆读书俱乐部等发布的“大学生”相关话题.12月, “活动信息”和“大学生”相关话题成为热点.

4 结语

本文以新浪微博为数据源,获取一定时段我国图书馆微博内容数据,然后依据作者主题模型获取候选主题,通过对候选主题进行聚类,确定合适的话题数;接着根据作者主题模型结果计算相邻时间片主题之间的相似度,在此基础上分析主题的演化;最终完成不同图书馆主题分布及演化的差异分析.本文实证结果表明:目前我国图书馆微博主要关注新书推荐、讲座信息、图书馆服务、图书信息等主题;各月份的关注主题差异不大;除此之外,上午、下午以及晚上三个时段关注的话题各有侧重.

本文只对不同图书馆在不同时间片的微博内容进行了粗略的分析,未能结合其他微博的信息进行更详细的分析.因此,未来本研究团队将把时段粒度划分得更细,结合粉丝数、用户评论、微博数量、时间、用户行为特征等信息,更为全面细致地揭示图书馆微博的使用现状,为图书馆用户提供优化建议,以提高图书馆微博影响力.

注释

①该微博数据由合肥学堂信息技术有限公司友情提供,在此表示感谢.

②在对时段数据预处理的过程中,进一步过滤了791条短微博.

参考文献

[1] 中国互联网络信息中心. 第36次中国互联网络发展状况统计报告[R/OL]. [2015-09-01]. http://www. cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P02015 0723549500667087.pdf.

[2] Twitter Reports Second Quarter 2015 Results[R/OL]. [2015-09-01]. http://files.shareholder.com/downloads /AMDA-2F526X/0x0x841607/E35857E7-8984-48C1 -A33B-15B62F72A0F7 / 2015 _ Q2 _ Earnings _ press _ release.pdf.

[3] [4][17]王曼,张秋. 国内外图书馆微博研究综述[J]. 图书情报工作,2012,56(23):135-140.

[5] Hend S.Al-Khalifa,Rasha M.Al-Eidan. An experimental system for measuring the credibility of news content in Twitter[J]. International Journal of Web Information Systems,2011,7(2):130-151.

[6] Mike Thelwall,Kevan Buckley,Georgios Paltoglou.Sentiment in Twitter events[J].Journal of the American Society for Information Science and Technology,2011,62(2):406-418.

[7] Dhiraj Murthy,Scott A.Longwell.Twitter and disasters:The uses of Twitter during the 2010 Pakistan floods[J].Information,Communication & Society,2013,16(6):837-855.

[8] 王晓光,袁毅,滕思琦.微博社区交流网络结构的实证分析[J].情报杂志,2011,30(2):199-202.

[9] 朱恒民,李青.面向话题衍生性的微博网络舆情传播模型研究[J].现代图书情报技术,2012,(5):60-64.

[10] Sarah Vieweg,Amanda L.Hughes,Kate Starbird,et al.Microblogging during two natural hazards events:what twitter may contribute to situational awareness[C]// Proceedings of the SIGCHI conference on human factors in computing systems,Atlanta,Georgia,USA.New York:ACM,2010:1079-1088.

[11] Alexander Mills,Rui Chen,JinKyu Lee,et al. Web 2.0 emergency applications:How useful can Twitter be for emergency response?[J]. Journal of Information Privacy and Security,2009,5(3):3-26.

[12] 王妙娅.国内图书馆微博应用现状及建议[J]. 图书馆学研究,2010(12):39-41.

[13] 陈琳. 国内图书馆微博应用现状研究[J]. 图书馆学研究,2011(24):30-33.

[14] 黄淑敏. 图书馆微博使用特征及发展策略研究[J]. 大学图书馆学报,2012(1):78-83.

[15] 李晓静,丁树亭. 新浪图书馆微博用户特征研究[J]. 图书馆论坛,2014(1):62-66.

[16] 刘国敏. 图书馆微博社区的用户参与行为研究[J]. 图书馆论坛,2014(1):57-61,73.

[18] 单斌,李芳. 基于LDA话题演化研究方法综述[J]. 中文信息学报,2010,24(6):43-49.

[19] Daniel Ramage,Susan Dumais,Dan Liebling.Characterizing Microblogs with Topic Models[C]// Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media.Washington DC,USA:AAAI Press,2010:130-137.

[20] Wayne Xin Zhao,Jing Jiang,Jianshu Weng,et al.Comparing Twitter and traditional media using topic models[C]// Proceedings of the 33rd European conference on Advances in Information Retrieval.Berlin:Springer,2011:338-349.

[21] Rui Li,Kin Hou Lei,Ri Khadiwala,et al.Tedas:A Twitter-based event detection and analysis system[C]// Proceedings of the 2012 IEEE 28th International Conference on Data Engineering.Washington,DC:IEEE,2012:1273-1276.

[22] Yuheng Hu,Ajita John,Fei Wang,et al.ET-LDA:Joint Topic Modeling for Aligning Events and their Twitter Feedback[C]// Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence July 22- 26,2012,Toronto,Ontario,Canada. Palo Alto,CA:AAAI Press,2012:59-65.

[23] Hamed Abdelhaq,Christian Sengstock,Michael Gertz.Eventweet:Online localized event detection from Twitter[C]// Proceedings of the VLDB Endowment.Riva del Garda,Trento,Italy:VLDB Endowment. 2013:1326-1329.

[24] 史庆伟,乔晓东,徐硕,等. 作者主题演化模型及其在研究兴趣演化分析中的应用[J]. 情报学报,2013,32(9):912-919.

[25] 周振宇,李芳. 特定事件微博与新闻报道话题对比研究[J]. 中文信息学报,2014,28(1):47-55.

[26] 张玥,孙霄凌,朱庆华.突发公共事件舆情传播特征与规律研究——以新浪微博和新浪新闻平台为例[J]. 情报杂志,2014,33(4):90-95.

[27] Mark Steyvers,Padhraic Smyth,Michal Rosen-Zvi,et al. Probabilisitic author-topic models for information discovery[C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle. Washington:ACM,2004:306-315.

[28] Brendan J.Frey,Delbert Dueck. Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.

[29] 甘月松,陈秀宏,陈晓晖. 一种AP算法的改进:M-AP聚类算法[J]. 计算机科学,2015,42(1):232-267.

[30] G.Salton,A.Wong,C.S.Yang.A Vector Space Model for Automatic Indexing [J].Communications of the ACM,1975,18(11):613-620.

[31] Jianyu Li,Sana Malik,Alison Smith,et al. TopicFlow:Visualizing Topic Alignment of Twitter Data over Time[EB/OL]. [2015-07-01]. https://wiki.cs.umd.edu/ cmsc734_f12/images/0/05/TopicFlowFinalReport2.pdf.

作者简介 赵华,女,南京理工大学情报学专业硕士研究生;章成志,男,博士,南京理工大学教授,博士生导师,通讯作者,E-mail:zhangcz@ njust.edu.cn.

收稿日期 2016-04-19

(责任编辑:何燕)

主题论文参考资料:

形势和政策论文主题

以法律为主题的论文

论文主题

本文结束语,此文是一篇关于发现和演化和图书馆方面的主题论文题目、论文提纲、主题论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

和你相关的