分类筛选
分类筛选:

计算相关专升本毕业论文范文 和流式计算和应用有关硕士学位论文范文

版权:原创标记原创 主题:计算范文 类别:学术论文 2024-01-31

《流式计算和应用》

该文是计算硕士论文开题报告范文跟计算和研究和应用类专升本毕业论文范文。

摘 要:计算机和互联网的飞速发展推动世界进入了大数据信息时代,传统技术已经不能满足海量数据处理的需求,很多大数据的处理技术和框架不断涌现出来.本文从当前的技术发展趋势和业务需求角度出发,研究了流式计算的相关框架,介绍了基于流式计算的用户点击流分析系统.使用流式计算的方法对用户点击流的分析可以实现实时更新用户数据和实时推荐的目的.

关键词:大数据;流式计算;实时计算;离线计算

中图分类号:TP311.13;TP18文献标志码:ADOI:10.3969/j.issn.1674-9146.2017.10.061

1流式计算研究背景

随着互联网技术的高速发展,越来越多的设备接入了互联网中,数据已经成为了当今时代的财富.如何对这笔财富进行发掘,就涉及到当今火热的大数据处理技术.利用大数据处理技术,人们可以对海量数据中蕴藏的知识和模式进行挖掘和发现,利用相关的聚类和分类算法可以帮助人们发现更多的规律并应用于实际的生产、生活中,用以指导人们实现更高效的资源利用和更加优化的结构部署.

当今时代,智能手机等移动设备使得许多的人更容易地加入互联网中,不论是处于安全的实时监控或是海量用户的实时查询操作,人们开始重视起海量数据分析的时效性,这样,基于流式计算的在线实时处理系统将会成为发展趋势,因此,笔者对流式计算进行了一些研究,并对应用场景进行了介绍.

2流式计算的研究

纵观大数据处理技术的发展历史,总的来说,对于海量数据的处理阶段可以分为离线批处理方式和在线实时的流式计算处理方式两种.最开始的数据处理方式是基于Hadoop集群平台实现了海量数据的存储,并使用MapReduce编程范式实现了对海量数据的分析操作,并由此衍生出了针对海量数据的类SQL查询处理工具,Hive,Pig等相关技术也随之诞生,但这些技术仍然是将作业转化为MapReduce任务进行工作的.由于每次处理的数据均按批量处理,这样形成的处理技术被称为离线批处理技术,其实现是基于Hadoop集群将任务分发到数据存储节点进行处理的,作业完成的时间为5min到数小时不等,该方式对于批量数据的处理具有吞吐量高、耗时长等特点,比较适合做一些对时效性要求不高的离线分析性质的任务.

根据应用场景的变化,基于流式计算的实时计算系统越来越得到重视,实时计算的数据源是按流的方式进行抽象的.接收一条数据就会立即处理一条数据,源源不断地对接收的数据进行处理,因此被称为流式计算.而离线计算通常是针对已经接收好的静态数据进行批量的处理,通常计算任务的开始是在数据完全接收完成后启动,通常是凌晨时候才会计算前一天的数据,不适合用于时效性要求较高的应用场景[1].

流式计算是处理大数据的一种方式,梁毅等人的文章对流式计算的任务管理技术进行了介绍[2],相关流式计算框架技术见第62页表1.

在这些计算框架中,常用开源技术有Storm[3],SparkStreaming[4],S4[5],Flink[6]等框架,其中Storm是高容错的实时计算系统,用户可以使用任何语言来开发应用,使用场景可以实现海量数据的处理,如大家所熟知的淘宝就是使用Storm/JStorm实现了海量日志文件的处理;而SparkStreaming则是通过小批量处理数据实现了流式计算方式,基于内存运算高速的特点,利用Spark框架实现了业务功能,典型的应用场景是可以对使用了Spark计算框架的系统实现流式计算方式的转变;S4则是雅虎推出的可插拔的流式计算系统,它的一个主要应用场景就是网络广告点击率的预估计算;Flink则同时支持离线数据处理和在线数据处理两种方式的框架,可以让使用者有机地将本地离线计算结果与在线实时计算联系起来.面对众多的流式计算框架,使用者可以根据自身的集群环境及业务需求进行合理的选择.

3流式计算的应用介绍

一个典型的流式计算应用就是通过对网站上用户的点击流数据进行实时收集和计算分析,可以实现对用户兴趣爱好模型的建立,然后根据用户的模型数据为用户提供推荐服务.在这个应用场景中,可以通过一些收集工具对用户的点击行为数据进行收集,并保存在支持近实时查询的数据库Hbase中,然后通过流式计算框架或者离线计算框架实现相关的离线分析,并把分析结果发送给其他系统进行数据整合和利用,整个用户点击流分析应用的架构见图1.

图1中,首先用户在网站注册登录以后,就可以使用Flume等数据收集工具对用户的点击数据进行收集,数据源可以来自网站服务器或者应用的客户端,当实现了用户数据收集以后,一方面可以对用户的画像数据进行存储或更新,使用Hbase数据库可以满足近实时的查询需求,并可以与推荐系统实现交互.推荐系统通过对当前用户进行分类处理并用推荐算法分析以后,可以将推荐的数据再次在用户的客户端或网站实现推荐功能,当用户再次对推荐内容进行点击或者浏览时,就可以再次实现数据的收集,并利用流式计算的实时分析结果实现对用户兴趣数据的更新以及用户需求的实时更新,从而提高用户的使用体验.这种流式计算以实时场景的方式使用,主要针对单个用户.另一方面,可以将收集到的数据存入Hadoop集群的HDFS中,或者直接以文件格式存储在集群节点上,供其他应用使用.此部分可以通过离线批量计算对用户的数据进行挖掘分析,也可以对网站多个用户的海量数据进行分析,通过对多个用户的地理位置、访问时间、停留时间、点击数量等数据进行集中分析,可以实现用户的基本模型的建立,并服务于推荐系统等其他系统的运行.

海量数据分析的起点永远都是基于数据的可靠性和有效性,因此完成数据收集以后,还需要进行一系列的数据清洗工作,如缺失值的处理、数据的一致性检查及无效值的处理等,包括数据的转化操作等.

在数据存储方面,可以选择查询效率较高的Hbase数据库对用户数据进行保存,Hbase数据库支持海量数据的随机访问,可以满足系统对海量数据查询的实效性要求,同时可以通过Hbase数据库中数据建立全文索引,实现全文检索的目的.也可以把数据存储在HDFS中,使用机器学习的分析方法,对用户的消费习惯等进行分类或聚类分析,从而挖掘用户的消费层次以及用户的年龄、性别分布等信息.

流式计算框架则可以选择离线批量处理的MapReduce方式,或根据数据量的大小和集群内存硬件条件的情况选择Spark框架进行分析建模,或使用机器学习的方法实现模型的建立,然后根据这些模型指导推荐系统的建立,使用流式计算技术实现动态地向用户推荐的服务也将成为一种趋势.

4结束语

随着网络技术的不断改进和发展,加上5G技术的到来,流式计算的应用场景将会越来越多,人们可以根据实际业务场景及系统架构而灵活地选择计算框架.离线处理与基于流式计算的实时处理引擎并没有相互替代的竞争关系,两者可以根据使用的具体场景结合起来使用,一同实现更好的服务.实时计算引擎和离线计算引擎根本的不同在于设计的目标不同,实时计算引擎注重低延迟,而离线计算引擎注重高吞吐.两种计算引擎的基础是相同的,在该基础上再分别针对各自的目标进行较大程度的特化,这也体现了辩证法中的对立统一规律.

参考文献:

[1]李圣,黄永忠,陈海勇.大数据流式计算系统研究综述[J].

信息工程大学学报,2016,17(1):88-92.

[2]梁毅,侯颖,陈诚,等.面向大数据流式计算的任务管理技术

综述[J].计算机工程与科学,2017,39(2):215-226.

[3]ApacheSoftwareFoundation.ApacheStorm[EB/OL].

[2017-07-01].http://storm.apache.org/.

[4]ApacheSoftwareFoundation.ApacheSpark?-Lightning-Fast

ClusterComputing[EB/OL].[2017-07-01].http://spark.

apache.org/.

[5]XHAFAFatos,NARANJOVictor,CABALLé.Santi.Pro-

cessingandanalyticsofbigdatastreamswithYahoo!S4[C]

//IEEESociety.IEEE29thInternationalConferenceonAd-

vancedInformationNetworkingandApplications(AINA).

Gwangiu:IEEEPublications,2015:263-270.

[6]ApacheSoftwareFoundation.ApacheFlink:ScalableStream

andBatchDataProcessing[EB/OL].[2017-07-01].http://

flink.apache.org/.

(责任编辑石俊仙)

计算论文参考资料:

关于云计算的论文

云计算论文

云计算技术论文

小结:上文是关于对写作计算和研究和应用论文范文与课题研究的大学硕士、计算本科毕业论文计算论文开题报告范文和相关文献综述及职称论文参考文献资料有帮助。

和你相关的