云计算给数字化图书馆带来的机遇和关键技术
摘 要 云计算技术是下一代计算机网络技术的核心架构。文章分析了云计算技术给数字化图书馆建设带来的机遇和挑战,并从数据存储、安全性、数据挖掘技术、海量数据搜索、用户认证和版权保护方面论述了云计算的关键技术。
关键词 数字图书馆;云计算;数据存储;数字水印;数据挖掘
云计算作为近年来研究与应用领域的热点话题,被大多数IT企业和业内人士认为是下一代计算机网络技术应用的核心架构。云计算(Cloud Computing) 是一种全新的网络应用概念,是网格计算(Grid Computing) 、并行处理(Parallel Comp)和分布式处理(Distributed Computing) 、虚拟化(Virtualization)、网络存储(Network StorageTechnologies)、效用计算(Utility Computing)、负载均衡(Load Balance)的发展结果。从业务形态来说,它是利用虚拟化等技术将服务和资源整合在一起,向用户提供平台、基础设施和软件的一种新的商业计算模式。
1.云计算给数字化图书馆带来的机遇
1.1.实现资源共享
云计算机的应用服务通常分为三种,SaaS(Software as a Service,云计算软件服务)、PaaS(Platform as a Service,云计算平台服务)、IaaS(Infrastructure as a Service,云计算设备服务)[1]。云计算产业细分后,各类云计算服务商可以聚焦自己的核心领域,最终形成了强强联合、协作共生的关系。这将加快全球化信息技术快速发展,从而真正实现全球化的信息共享。云计算为数字化图书馆提供了海量数据存贮的能力,使用者只要能接入互联网,就能享受到数字化图书馆,实现了网络虚拟环境下最大化的资源共享。
1.2.实现使用便利
云计算在数字化图书馆的应用使得数字化图书馆更加的便捷和方便,使用者既不需要受时间和空间上的限制,更不需要在个人终端上安装任何软件,甚至可以不用使用常规的计算机,由提供云计算的服务商为使用者提供一个虚拟的计算机,使用者只需要在任何一个云终端登录到自己的云虚拟电脑上即可以获得云时代的数字化信息。
1.3.低成本
针对“云”的特殊措施,数字图书馆技术采用极其廉价的节点来构成云,“云”的自动化集中式管理使很多图书馆无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费很少的成本和时间、就能完成以前需要数万元、数月时间才能完成的任务。云计算下的数字图书馆,也为行业提供了全新的潜在市场,将云计算技术充分应用到数字图书馆中会对数字图书馆的产业发展产生深远影响,相信云计算的发展必将成为图书馆行业里程碑。
2.云计算的关键技术
2.1.数据存储方式
云计算系统的主要组成部分是很多的计算机服务器,并且能够为很多的用户提供全方面的信息服务,为了能够为“云”用户提供可靠的服务,云计算系统中存储数据采用的是分布式存储以及冗余存储方式。Google的GFS以及Hadoop团队开发HDFS是云计算系统中应用最为广泛的数据存储系统。
Google File System(GFS)是一个分布式文件系统,它由Google设计并实现,是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。Hadoop是一个开源的分布式软件平台,Hadoop用于存储的分布式文件系统HadoopDistributed File System(HDFS)借鉴了GFS的设计理念。
首先在架构上,GFS和HDFS是一致的,都是采用的拓扑的结构,所谓的拓扑结构是指系统中各个服务器之间的物理或逻辑的互联关系,这两者都被设计为一个中心控制服务器为中心的星形结构的拓扑模型,这样有利于服务器的动态分配和回收,在云计算系统中服务器资源有限的情况下,可以通过中心控制服务器控制和管理整个系统中其它节点的运行,从而保证系统运行正常以及资源的最大利用率。其次在块大小、元数据等实现上,这两者之间也是一致的。
在关键技术上这两者之间还是存在很大的差异:首先, GFS最为复杂的部分是对多客户端并发追加同一个文件,即多客户端并发Append模型。GFS允许文件被多次或者多个客户端同时打开以追加数据,而HDFS文件只允许一次打开并追加数据,客户端先把所有数据写入本地的临时文件中,等到数据量达到一个Chunk的大小,一次性写入HDFS文件系统。其次对快照的支持上两这者之间存在差异,GFS通过内部采用copy-on-write的数据结构实现集群快照功能,而HDFS不提供快照功能,另外在文件的删除上两者也是存在差异的,GFS并不是在master上直接删除文件,而是通过特殊标识的方式标识该文件,并控制该文件不再被普通用户所访问,同时master会定期对文件系统进行检查,删除一段时间前所隐藏的文件。而HDFS则是采用直接删除但是更加容易实现的方式来删除文件。
2.2.安全性
云计算技术做为一种全新的服务模式,其安全性超过了任何常规服务模式,也是至关重要的[2]。一旦用户把自己的个人数据提交到云服务平台之后,用户将无法对其安全性进行保证和监控,而是由云计算服务商提供安全保障策略。目前市场上云计算服务商数目巨多,都向用户承诺数据的安全性,但目前看效果并不理想。云计算主要面临着管理风险和技术风险,云计算面临的管理风险:锁定风险、失治风险、合规挑战风险、商业信誉风险、云服务终止或故障风险、云提供商收购风险、供应链故障风险;云计算面临的技术风险:资源耗尽、隔离故障、管理接口漏洞、传输中的数据截获、数据泄露、密钥丢失。这些安全性问题急需解决,这是关系到云计算技术能否普遍应用的决定性因素。
2.3.数据挖掘
数据挖掘技术主要是依赖人工智能、模式识别、机器学习、数据库、统计学、可视化技术从大量的、不完全的、模糊的、有噪声的、随机的数据中,提取不易为人知的但是有巨大价值的关联信息,是数据库中的知识发现的核心。数据挖掘技术主要分为数据整理、数据集成、数据筛选、数据转化、数据挖掘、模式评估和知识表达几个步骤。该技术的目的是从大量的杂乱无序的数据中自动分析数据,做出归纳统计,从中挖掘出潜在的模式,为用户提供价值信息。数据挖掘技术在数字化图书馆中的应用可以优化图书馆期刊的布局,提高效率节省资源。也可以为读者提供个性化服务,通过对读者借阅量的统计分析读者的周期借阅习惯,结合现有资源向读者推荐其喜好图书,提高图书馆的服务质量。
2.4.海量数据搜索
随着云计算技术的不断发展和使用性的普及,云服务器上的数据几何级增长。云计算,它能处理的数据量已不再是 MB、GB,而是成 TB、PB 的增加。并且会伴随着大量的大数据出现,大数据被认为是未来发展的战略走向。在云计算中如何快速的从这些大量的数据提取和搜索关键字快速找出用户需要的数据是一个非常关键的技术。
2.5.用户认证
用户和云之间的相互认证是保证云数据被合法访问的前提,云是一个广阔的分布式系统,拥有海量用户,其动态性和不可预知性使得其违法行为不易被追踪和管理。如果不对云用户的身份认证进行严格的识别和管理,会给黑客和不法分子以可乘之机,危害到合法用户的权益和云计算技术的普及。目前在云计算中最常用的认证方式是口令的认证方式和基于KPI数字证书认证方式。口令认证方式快捷简单,但是这种认证方式容易遭受网络攻击;基于KPI的认证方式有较高的认证强度,但是在云环境下证书的认证基础设施建立的难度比较大和复杂度比较高。文献[3]提出一种基于椭圆曲线的3PAKE认证方案,该算法能有效的防止口令攻击且容易部署。
2.6.版权保护
云计算使得用户可以通过某种协议进行全球范围的信息存取,给用户带来便捷的同时,也可能造成一些非法用户对数字化信息进行准确无误地复制、及快速传递散布等,这给著作权人希望拥有控制作品使用能力造成致命的伤害,也是阻止云计算技术普及的阻碍因素之一。有效保护著作人的权益要依赖于完善的法律法规、道德规范建立和版权保护技术。法律法规和道德规范需要政府和整个社会制定和建立长期的有效机制来实现。数字水印技术[4]在版权保护中的优势被越来越多人所关注,数字水印技术是通过在待保护的视频、图片和文本等数字化产品中不可感知的嵌入可认证信息[5],并且保证不影响产品的可读视性,非法的拷贝会损伤到事先嵌入的可认证信息。一旦需要认定产品的著作权时,可以从产品中提取事先嵌入的认证信息,从而鉴别产品的合法性。
3.结语
云计算时代的到来,将会有效的整合网络资源,终极目标是为用户提供全方位的信息化服务。云计算技术在数字化图书馆建设中的应用受到越来越多的人关注,日后势必带来更加广阔的价值利益,而科学技术的不断发展也为这一目标提供了强有力的支撑。
参考文献
[1]王丽敏,党卫红等.云计算环境下个人数字图书馆发展探析[J].浙江高校图书情报工作,2011年,第1期:1-5.
[2]李兰.云计算技术对图书馆的影响研究[J].高校图书馆论坛2010年,第7期:44-46.
[3]刘婷婷.面向云计算的数据安全保护关键技术研究[D] .信息工程大学,2013年4月:23-40.
[4]谢东,张基温.基于数字水印技术的信息产品保护[J].情报杂志2005年,第7期:91-95.
[5]杨世勇,葛建华,颜惠宇.数字图像版权的水印方案[J].信号处理 2004年10月,第5期:465-469.
- 上一篇:重庆市黔江区氟中毒患者健康相关生命质量调查 [2018/4/23]
- 下一篇:飞机电气维修工程素质培养平台的建设与研究 [2015/1/18]