谈谈索引基于P2P可伸缩架构大数据平台与实现

更新时间:2024-03-16 作者:用户投稿原创标记本站原创
摘要:随着互联网运用的飞速进展和信息的社会化,数据呈爆发式的增加,传统的联系数据库在处理浅析如此海量的数据时出现性能和可扩展性的瓶颈,所以必须探讨新的有效的大数据浅析平台。大数据技术目前还没成熟,也没形成统一标准,但工业界已经广泛利用Hadoop作为其大数据处理平台,这也带动了国内学术界对Hadoop相关技术探讨。除了Hadoop外,NoSQL相关技术也得到较快进展,涌现了一批优秀的开源项目,如HBase和Cassandra等都被工业界广泛运用。本论文基于国家核高基科技重大专项——非结构化数据管理系统LaUDMS来探讨和实现对大数据的处理浅析相关技术。非结构化数据管理系统LaUDMS重点就是深入探讨大数据的存储和浅析技术,并结合论述和实践来解决对大规模非结构化数据的管理难题。本论文首先对大数据处理浅析平台的探讨近况进行了综述;其次在综合比较浅析现有平台优缺点的基础上介绍了非结构化数据管理系统LaUDMS的内核清华知云Kloud的平台架构;再次是清华知云Kloud中的大数据浅析平台的技术探讨和实现。技术探讨包括深入浅析了分布式数据仓库Hive的设计和组件,并将其融合到基于P2P架构的Cassandra内部实现中;为实现Hive组件完全融合到Cassandra中,定义了基于Cassandra自由表的面向对象数据模型来存取Hive的元数据信息;为提升自由表访问效率,描述了基于Cassandra自由表的辅助索引设计和实现,并且将其融合到Hive的分布式索引插件框架中,实现Hive浅析的性能优化。该大数据浅析平台实现后对某网站用户访问日志进行了实验浅析,性能和可用性得到相应的提升,取得良好效果。关键词:大数据论文MapReduce论文自由表论文辅助索引论文数据模型论文
本论文由www.808so.com摘要3-4
Abstract4-9
第1章 引言9-17
1.1 探讨背景与作用9-11
1.2 大数据平台架构分类11-15
1.2.1 基于 Master-Sle 主以式架构的平台11-13
1.2.2 基于 P2P 可伸缩架构的平台13-15
1.3 主要工作及贡献15-16
1.4 论文的结构安排16-17
第2章 相关工作17-29
2.1 大数据浅析平台系统架构探讨17-22
2.1.1 HadoopDB-并行数据库和 MapReduce 的融合18-19
2.1.2 epiC-同时支持 OLTP 和 OLAP 的弹性云计算平台19-21
2.1.3 Brisk-Cassandra 与 Hadoop 的融合之作21-22
2.2 基于自由表的面向对象数据模型22-24
2.2.1 自由表结构23-24
2.2.2 JDO/JPA 的标准接口实现24
2.3 基于自由表的辅助索引24-28
2.3.1 辅助索引-行键存储25-26
2.3.2 辅助索引-数据存储26-28
2.4 本章小结28-29
第3章 基于 Cassandra 的知云平台系统结构29-39
3.1 知云平台系统架构29-34
3.2 知云平台的分布式存储34-35
3.2.1 自由表存储34
3.2.2 分布式文件系统34-35
3.3 知云平台的分布式计算框架35-38
3.3.1 JobTrakcer 和 TaskTracker 运转在 Cassandra 上36-37
3.3.2 知云平台节点 OLAP 和 OLTP 服务的配置和切换37-38
3.4 本章小结38-39
第4章 知云中的大数据浅析平台实现39-57
4.1 Hive 与 Cassandra 融合组件浅析39-45
4.1.1 Cassandra CQL 引擎和 Hive Driver 引擎的融合42
4.1.2 Hive 元数据存储到 Cassandra 自由表中42-45
4.2 基于 Cassandra 自由表的面向对象数据模型45-51
4.2.1 对象-联系在自由表数据模型上的映射45-50
4.2.2 实现基于 Cassandra 自由表的面向对象数据模型50-51
4.3 知云平台和 Hive 的结合51-52
4.3.1 易用的大数据浅析平台51-52
4.3.2 可浅析的大数据格式多样化52
4.4 实验结果与浅析52-56
4.4.1 实验环境53
4.4.2 实验结果53-56
4.5 本章小结56-57
第5章 基于 Cassandra 自由表的辅助索引设计和实现57-69
5.1 辅助索引设计57-61
5.1.1 辅助索引格式59
5.1.2 辅助索引并发更新机制59-61
5.2 辅助索引实现61-64
5.2.1 辅助索引管理61-63
5.2.2 辅助索引查询63-64
5.3 辅助索引在知云大数据浅析平台的运用64-66
5.3.1 Hive 分布式索引框架剖析64-65
5.3.2 实现 Hive 分布式索引框架下的辅助索引插件65-66
5.4 实验结果与浅析66-67
5.4.1 实验环境66
5.4.2 实验结果66-67
5.5 本章小结67-69
第6章 总结与展望69-71
6.1 论文工作总结69-70
6.2 论文工作展望70-71
参考文献71-75
致谢75-77
个人简历、在学期间发表的学术论文与探讨成果77

点赞:6386 浏览:19366