上海论文网提供毕业论文和发表论文,专业服务20年。

基于负载预测的HDFS副本放置策略思考

  • 论文价格:100
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:163
  • 论文字数:28699
  • 论文编号:el2022013113292523875
  • 日期:2022-01-31
  • 来源:上海论文网

计算机操作系统论文哪里有?本文从分析问题的产生到提出解决方案,最后进行实验验证,提出了一种基于负载预测的副本放置策略。主要工作如下: (1)  分析分布式文件系统 HDFS 的架构原理。了解 HDFS 副本策略的相关知识,总结分析其中的优势与不足,寻找改进方案。针对不同的副本策略进行分析,列举不同策略的优缺点,总结存在的问题。 (2)  研究节点负载的量化方法,提出 SD-KNN 负载量化模型。解决集群节点负载不易量化比较的问题。并使用灰色预测模型预测节点的负载变化趋势。

1 绪论

1.2 研究现状
一个好的副本放置策略对于 HDFS 数据的可靠性和读/写性能至关重要。好的副本放置策略,不仅可以提高数据的可靠性和可用性,还能高效利用网络带宽,并维持集群的负载均衡[18]。为此有不少的研究人员对 HDFS 的副本策略进行了研究。
(1)针对副本放置策略对数据可用性的影响问题。文献[19]提出了一种拷贝集副本放置策略。拷贝集副本放置策略构建拷贝集有两条重要性质为基础:每两个拷贝集之间最多只有一个重叠的存储节点,以及拷贝集平均覆盖所有节点。它以降低数据丢失概率为目标,但可能导致每次丢失的数据更多。文献[20]提出了基于拷贝集的确定性副本放置策略以及 G-Scheme 副本放置策略。这两种策略分别通过构建拷贝集以及数学建模的方式,对副本放置位置进行选择,从而使系统达到了较低的数据丢失概率。但由于改进策略是基于固定参数系统实现的,在扩展性上还存在问题。
(2)针对不同热度文件的副本放置问题。文献[21-26]提出一种动态副本因子策略。相比于默认的静态副本机制,该策略可以根据文件的访问热度动态调整文件的副本复制因子,从而改善系统的性能。然而该策略在应对突发性的访问需求时,副本复制因子不能很好的适应。文献[27]提出一种热点副本迁移技术,通过将热点副本扩散到低负载节点上来增加系统的吞吐量。该技术只考虑了热文件的副本问题,且副本迁移的过程也会消耗大量的网络与磁盘 IO,增加集群的负载。文献[28]提出了基于热度感知的混合 HDFS副本自适应移动策略(HPAMP)。该策略主要思想是采用了灰度预测算法预测文件热度,将热文件放入高速的存储设备(RAM 盘、SSD)中,而将冷数据放入机械硬盘(Hard Disk Drive,HDD)中。针对副本迁移的问题。文献[29]提出了一种基于副本的跨数据中心虚拟机快速迁移算法,该算法根据脏数据块去除冗余,热区排序传输的方法,实现迁移代价最小的方案。

计算机操作系统论文
计算机操作系统论文范文

..............................

3 基于负载预测的副本放置策略

3.1 分析与提出问题
在存储文件时,HDFS 系统的文件会被分割成固定大小的数据块,每个数据块又会被复制成多个副本分散存储在集群的数据节点上。这样做既满足了系统的容错性,而且还一定程度提高系统的并行性。尽管副本机制为系统带来了很多的好处,然而也为系统带来了新的问题。
副本的放置位置是由副本放置策略决定的,HDFS 的默认副本放置策略较为简单,它属于基于随机复制策略的一种改进策略。虽然它一定程度解决了随机复制策略无法感知机架,以及随机复制策略未对特殊节点进行优化的问题。但仍然存在以下问题:
首先默认策略的副本复制因子是一个固定值,默认为 3。这对于热文件的并发读取问题没有优化处理,会影响热点文件的读取速度。
其次,在选择副本放置位置时,默认策略虽然可以设置在放置副本时考虑该节点的负载,但其负载评估因素过于单一。评估因素的计算只考虑了当前节点的活动连接数量。若节点其他负载过高,默认策略则无法将其剔除掉,因此无法对节点真实负载情况做出合理的评估。
最后,HDFS 默认副本策略本质上是一种随机策略。在选择副本放置位置时,未考虑节点的剩余存储空间。只是在节点剩余空间无法存储下该副本时,才会放弃该节点。若集群为了扩展空间加入一批新的节点,虽然这些节点拥有较大的存储空间,被选中存放副本的概率却与其他节点是相同的。这将导致集群上的副本数量分布不均,从而集群数据出现负载失衡的状况。
........................

4 实验与分析

4.1 实验环境
Hadoop 平台具有三种运行模式:本地运行模式(Local  Mode)、伪分布模式(Pseudo-Distributed Mode)以及完全分布模式(Fully-Distributed Mode)。本地运行模式运行在单个节点上,由于它是作为单个 Java 进程运行的,因此对于调试很有用。伪分布模式也是运行在单个节点上的,因此名称节点与数据节点进程都运行在同一个节点上。完全分布模式则是企业中实际使用的运行模式。在该模式中,会根据需求加入一个或多个机架,各个节点各司其职,组成一个庞大的分布式集群。

表4.1 Hadoop集群硬件环境配置
表4.1 Hadoop集群硬件环境配置

.............................

4.2 实验结果与分析
本节将分为三个部分,分别对不同的改进点设计实验验证。首先,本节设计了一些实验来完成 SD-KNN 负载量化模型参数的确定。并针对负载预测的效果,设计实验进行了评估。将负载预测运用到 HDFS 的副本放置策略中,作为选择防止节点的参考依据。针对改进的放置策略,通过与默认策略进行对比实验,分析新的策略在文件上传时间、文件读取时间、系统排序性能,以及集群副本分布情况上的性能表现。每个实验都根据实验结果进行了分析,得出实验结论,从而验证了研究理论的正确性。
4.2.1 负载量化模型实验
为了调整模型的参数,使用 HDFS 生成数据集。对数据集进行挑选后,使用交叉验证的方式调整模型的参数。具体实验流程如下:
首先更改 Hadoop 基准测试工具中的 MRbench 工具,让他在测试的过程中,记录节点的 CPU 使用率、内存使用率、磁盘 IO 使用率以及网络负载率这四项特征,将这些数据与原来的测试报告一同输出。其中 MRbench 工具是通过多次重复执行一个小作业,并根据这些小任务的执行时间和结果来判断集群效率的。然后编写脚本,让集群中的数据节点重复执行 MRbench 基准测试。测试的结果通过日志持久化到集群的文件系统中。数据的格式如表 4.3 所示:

表4.3  负载量化模型数据格式
表4.3  负载量化模型数据格式

.........................

5 总结与展望

5.2 展望
本文在默认的副本放置策略基础上,提出了基于负载预测的节点选择机制。新的机制一定程度上解决了副本放置位置的选择问题,对集群的负载均衡有一定的帮助作用。但关于副本策略的一些其他问题,仍需要进一步研究与改进。主要为以下几个方面: 
(1)本文改进的策略由于是基于 HDFS 的默认策略上的改进,因此 HDFS 默认策略存在的复制因子等问题仍待解决。
(2)负载量化模型的量化值是基于节点上任务执行效率计算的,若集群的节点间性能差异过大,则会出现高负载的节点依旧有较高的执行效率。需要进一步找到更适合的节点工作负载量化指标,以更准确的使用算法对节点负载进行评估。
(3)改进的策略未考虑集群中节点的差异性。当存在存储空间比较大或者计算性能比较强的节点,可能会无法发挥出性能的优势。
参考文献(略)

123
限时特价,全文100.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!