一种提高云存储中小文件存储效率的措施

发布时间：2022-01-10 21:24:39 所属栏目：云计算来源：互联网

导读：实验结果表明，在不影响存储系统运行状况的基础上，该方案提高了HDFS（Hadoop distributed file system）是一种具有高度容错性质的分布式文件系统模型，可以部署在支持JAVA运行环境的普通机器或虚拟机上，能够提供高吞吐量的数据访问，非常适合部署云存储平

    实验3统计合并10 000个小文件节省的内存空间。将10 000个小文件上传到云存储系统，统计其占用名称节点的内存空间，然后分别按照SFQ长度为100、200、300、400、500、600、700、800、900、1 000进行合并，获取合并后占用名称节点的内存空间，两者之差即为合并操作所节省的内存空间，实验结果如图5所示。

    一种提高云存储中小文件存储效率的方案

    图4 读取小文件的平均时间

    一种提高云存储中小文件存储效率的方案

    图5 节省的内存空间

    3.2实验结果分析

    3.2.1数据标准化将实验指标转化为逆指标（越小越好的指标），分别利用Min-Max方法和Z-Score方法对转化为逆指标的实验数据进行标准化睁9I，结果如图6、图7所示。

    一种提高云存储中小文件存储效率的方案

    图6 Min-Max法的标准化数据

    一种提高云存储中小文件存储效率的方案

    图7 Z-Score法的标准化数据

    3.2.2系统性能决策值计算利用AHP进行权重计算。由于读取文件是最频繁的操作，因此认定读取文件时间为3个指标中最重要的，节省的内存空间其次。据此，计算3个指标的权重如表2所示。

    表2权重

    将标准化的数据与相应的权重相乘之后相加，得到系统性能决策值，如图8所示。

    一种提高云存储中小文件存储效率的方案

    图8分析结果

    3.2.3结果分析从图8可以看到，两种数据标准化方法都反映出一个规律，即在本文的实验环境中，性能决策值随着SFQ长度的增大呈现一种类似开口向上的抛物线状变化，并且在SFQ长度为400时取得最小值。由于我们采用了逆指标进行计算，因此当性能决策值最小时，表示系统性能达到了最优。由此可以得出结论：在本文的云存储环境中，SFQ长度取400是小文件合并的最优方式；根据基于AHP的系统负载预测算法对系统运行状况监控的结果，可以得到小文件合并的最佳时间。

    通过实验可知，小文件合并的规模越大，名称节点消耗的内存空间将越少，与此同时，对小文件的操作（读取、删除等）以及合并文件所花费的时间代价也将越大。在其他基于HDFS的存储系统中采用本文的方案进行分析和部署，都可在时间消耗和内存利用率之间实现一种最优平衡，实现在小文件存储效率提高的同时不影响系统性能的目标。

    4 结语

    本文针对基于HDFS的云存储系统中小文件存储效率不高的问题，提出了一套完整的解决方案。在该方案中，采用SequenceFile技术将小文件以队列的形式合并为大文件，从而实现了节省名称节点所占内存空间的目的，同时也实现了对合并之后的小文件的透明操作。在确定影响队列长度的指标之后，通过实验获取指标值，采用数据标准化方法和三标度层次分析法确定队列长度的最优值，使得小文件的合并能在合并时间、文件操作时间和节省内存空间之间达到一种平衡。基于负载均衡的目的，本文设计了基于AHP的负载预测算法对系统负载进行预测。

    在以后的工作中，我们将从以下两个方面来进行改进：①将小文件的合并以及小文件的读取改进为Map-Reduce任务，从而提高操作的效率；②对SequenceFile中的小文件查找算法进行改进，提高小文件查找效率。

在不久的将来，云计算一定会彻底走入我们的生活，有兴趣入行未来前沿产业的朋友，可以收藏云计算，及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识，让我们一起携手，引领人工智能的未来！

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页