探索带给大数据带给图书馆影响与挑战要求

更新时间:2024-03-12 作者:用户投稿原创标记本站原创
摘 要:大数据是近两年IT界最为流行的关键词,但对大数据的内涵与认识各大IT厂商、研究机构与科学家都有着不同的见解。在大数据时代,图书馆将在数据存储、数据挖掘、数据分析等方面面临着巨大的挑战与考验,复杂数据的处理也将成为大数据时代图书馆发展的主旋律,通过大量的非结构化数据、半结构化数据去寻找隐藏在数据背后的世界,进而为图书馆服务的模式、未来发展趋势提供分析与预测将成为大数据时代图书馆的一大主要服务内容。
关键词:大数据 非结构化数据 半结构化数据 数据处理 图书馆服务 数据挖掘
1003-6938(2012)05-0037-04
“大数据”(Big data)是继Web2.0和云计算之后近两年媒体最关注的一个词,并正在引起了信息科技领域越来越多的关注与投身热潮,美国政府于今年3月29日拨款2亿美元推出的“大数据的研究和发展计划”更是将大数据提升到了全球性战略发展的高度。其实,IBM、EMC、甲骨文、Microsoft等IT巨头几乎都已投入到了大数据的软硬件技术整合、大数据信息处理的技术供应研究开发之中,力求在新一轮的信息竞争环境中占据主动,并抢得战略先机与技术制高点。这些迅速发展的业界变化,也吸引了学者的关注,且因现有数据中心技术无法满足大数据需求而可能引发的IT架构重构等发展态势使得大数据有演化成为一个新型学科的趋势。中国工程院院士、中科院计算技术研究所首席科学家李国杰就指出大数据将成为信息科技的新关注点,并形成新型交叉学科:网络数据科学。同时,当前知识社会中的知识信息服务中心——图书馆因信息技术的在图书馆组织建设中的知识服务、知识创造、知识组织及知识存储等方面有着广泛的应用,使得社会对图书馆的知识服务要求更为苛刻,潜在的知识挖掘、知识评价、数据分析等增值服务需求已经开始显现或已经诉诸表达于读者的日常行为之中。利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化数据信息,寻找他们的隐性诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制已成为大数据时代图书馆提高服务体系的组织水平、推动行业发展与制度建设的捷径之一。本文在对大数据概述与内涵认识的基础上,重点对大数据带给图书馆的影响与挑战进行了分析。
1 认识大数据
1.1 大数据概述
2011年5月,全球知名咨询公司麦肯锡(Mckinsey and Company)发布了《大数据:创新、竞争和生产力的下一个前沿领域》[3]报告,首次提出了“大数据”的概念,并在报告中指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。之后,《纽约时报》[4]、《华尔街日报》[5]等对大数据进行了专栏封面介绍,但是随着大数据在发展的初期不被业界普遍了解与易从“Big data”字面引申的概念臆想,使得对于大数据的概念、内涵等存在着多种的定义与理解。如从字面理解,大数据易于被认为就是海量的数据。IT厂商、研究机构、维基百科和数据科学家等提出的概念并不一致,截至目前并未形成统一的定义。但通过分析不同概念发现,各个定义尽管在具体的表达中对大数据的范围、内涵等描述不一,但存在一个共识,即:大数据不是对数据量大小的定量描述,而是一种在种类繁多、数量庞大的多样数据中进行的快速信息获取。
1.2 大数据的内涵与认识
尽管大数据在提出以后吸引了业界的大量眼球,对其的研究也蜂拥而上,但在查阅信息的同时也发现目前大家对大数据还并未做到真正的了解,对其的内涵与理解存在偏差。基于这种现状,笔者认为有必要对如下业界还未明确的问题进行列举与分析。
首先,大数据是结构化数据、半结构化数据与非结构化数据的总和。据DCCI互联网数据中心在2012年7月26日举办的“Adworld2012互动营销世界”上给出的数据[6]显示:2010年,全球数据量已达1.2ZB(1ZB=1024EB,1EB相当于10亿GB),到2020年将暴增30倍达35ZB; 2011年,全球被创建和复制数据总量为1.8ZB;源于:毕业设计论文模板www.808so.com
2013年,我们生成这样规模的信息量只需10分钟……。而在如此庞大的数据中,只有10%的数据是存储在数据库中的结构化数据,其余的则是由邮件、视频、微博、帖子、页面点击等产生的大量的半结构化数据 非结构化数据[7]。而在我们的日常生活中,智能设备、物联网、社交网站等产生的半结构化数据、非机构化数据量更是远远大于在学习、工作中产生的结构化数据。如何处理这些占据了主要份额的半结构化数据与非结构化数据也因此成为大数据的主要业务与内容,进而给数据分析与挖掘产业带来了更多的机会。也正是存在着这样的巨大市场驱动力,催生了大量的以信息抽取、转换和加载(ETL)及挖掘分析、数据营销为主要业务的新型企业。
其次,大数据的“大”意义具有多样性。IBM认为大数据具有“3V”特点[8],即种类(Variety)多、速度(Velocity)快、容量(Volume)大。但以IDC为代表的业界认为满足“4V”(Variety、Velocity、Volume、value,即种类多、流量大、容量大、价值高)指标的数据才可称为大数据[9]。但无论是“3V”还是“4V”,其本质都是对大数据中的“大”的理解与阐释。NetApp也很好的解释了大数据的“大”的含义,认为大数据应包括A、B、C三大要素:即分析(Analytic)、带宽(Bandwidth)和内容(Content)[10]。具体来说就是:大分析(Big Analytics)指通过对巨大的数据集进行实时分析后能带来新的业务模式,并进行客户服务,能实现更好结果,以至帮助用户获得洞见;高带宽(Big Bandwidth)指能高速的处理关键数据,以支持快速有效地消化和处理大型数据集,帮助用户走得更快;大内容(Big Content)一方面指大数据既指结构化数据,也指半结构化数据与非机构化数据,另一方面则是指对数据的存储扩展要求极高,并要求能轻松实现数据的恢复、备份、复制与安全管理,以去支持可管理的信息内容存储库而不只是存放过久的数据,并且能够跨越不同的大陆板块而不丢失任何信息[11]。源于:论文资料网www.808so.com
参考文献:
Big Data is a Big Deal.http://petition, and productivity. http:///Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next
_frontier_for_innovation.
[4]The New York Times. The Age of Big Data[EB/OL].[2012-05-23].http:///2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=all.
[5]The Wall Street Journal. Big-Data Success Stories: Splunk[EB/OL].[2012-07-19]. http://blogs.wsj.com/ven
turecapital/2011/10/21/big -data-success-stories-splunk/.
[6]Adworld2012互动营销世界[EB/OL].[2012-09-10].
http:///news/76217.
[8]MapR and Informatica Combine to Conquer Volume, Variety and Velocity of Big Data[EB/OL].[2012-07-21].
http:///Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.
[9]IBM公司在大数据领域占有先机[EB/OL].[2012-08-01]. http://it.hilizi.com/server/275232/372589013274b.shtml.
[10]NetApp .Big Data Solutions for Government[EB/OL].[2012-08-01]. http:///us/solutions/industry/government/bi源于:论文的写法www.808so.com
gdata.html
[11]涂兰敬.专家观点:“大数据”与“海量数据”的区别[J].网络与信息,2011,(12):37-38.
[12]数据分析人才短缺问题成当前CIO必须面对的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322
816.shtml.
[13]United States Patent Trademark Office.Intellectual Property and the National Information InfrastructureThe Report of the Working Group on Intellectual Property Rights [EB/OL].[2012-08-01]. http:///doc/ipnii/.
[14]郭向东,陈军. 甘肃省市县图书馆信息化现状调研与分析 [J].图书与情报,2010,(3):83-87.
[15]黎春兰,邓仲华.信息资源视角下云计算面临的挑战[J].图书与情报,2011,(3):23-28.
[16]高勇.啤酒与尿布:神奇的购物篮分析[M].北京:清华大学出版社,2008.
作者简介:韩翠峰(1978-),女,兰州商学院图书馆馆员。

点赞:11781 浏览:46648