v2.6

文档

Laxcus大数据管理系统

第一章 基础概述

第二章 数据组织

第三章 数据存储

第四章 数据计算

第五章 数据构建

第六章 网络通讯

第七章 网络通讯

第八章 安全

第九章 容错

第十章 运行

总结

后记

参考文献

  • 内容

     在我们试验室的集群中,由于固态硬盘(SSD)使用成本居高不下,承担数据存储工作的仍然是传统的机械硬盘(温彻斯特硬盘)。根据我们的调查,这种情况在很多商业运营的集群中也同样存在。另外我们对许多集群的数据应用追踪调查也显示,由于硬盘的处理效率远远滞后于CPU和内存,整个数据处理过程中,75%-90%的时间被消耗在硬盘存取上,即使是固态硬盘,也仅比机械硬盘提高一个量级,但是仍然远低于CPU和内存的处理能力。这种硬件之间的不匹配,导致硬盘成为大数据处理过程中的最主要瓶颈。所以,改善硬盘的处理效率,对提高大数据处理效率有立竿见影的效果,但是机械硬盘工作的特点,又使它与CPU、内存这些电子部件在运行效率上存在着巨大的差异。在这种条件下,尽可能多地根据硬盘自身的特点,发挥出它的最大效能,成为解决问题的重要办法。

    与此同时,我们对许多用户的数据应用追踪中也发现,大数据处理过程中,96%发生在检索操作上,3%是添加数据,删除和更新合计只占不到1%的比例。这个现象促使我们对数据存储产生了不同以往的定位和思路,将数据存储设计的重点围绕着检索展开,并据此制定了以下的执行策略:首先,为保证大数量高频度的检索操作,结合到计算机内的CPU、内存、硬盘各主要工作部件的性能,在保证数据的持续吞吐性能上,流式处理效率最高。并行的数据写入在进入存储层面时,汇流为串行模式。检索操作的最终目标是硬盘,硬盘检索受制于硬盘物理特性的影响,在数据计算过程中,严重拖滞了整体性能的发挥,为提高数据处理性能,需要在检索前对数据进行优化,如关联和聚凑,同时提供一批优化算法给用户,使用户可以按照自己的意愿去组织和检索数据。删除不改变数据本身,只对数据做无效记录。数据更新分解为删除和添加两步操作,目的在于简化和内聚数据处理流程,同时避免发生多次硬盘读写现象。

    上述处理虽然改善了存取性能,但是不可能从根本改变硬盘慢的特点。若要使性能获得根本性的提升,必须跳过硬盘这个瓶颈,所以在2.0版本中增加了一套新的数据处理方案:让内存代替硬盘,数据在网络、内存、CPU之间流动,以接近CPU的速度运行。这种内存处理方案解决了硬盘存取慢的问题,使数据处理性能获得巨大的提升。根据我们的测试评估结果,这个提升幅度在2个量级左右。在实际应用中,用户如果有实时性的数据处理需求,且有足够的内存做保证时,内存处理方案无疑是最佳的选择。

回到顶部

联系方式

  • 服务电话 15210289253
  • 联系邮箱 laxcus@163.com
  • 版权所有 Laxcus大数据实验室    京ICP备17069115号

更多资讯请关注官方公众号