v2.6

文档

Laxcus大数据管理系统

第一章 基础概述

第二章 数据组织

第三章 数据存储

第四章 数据计算

第五章 数据构建

第六章 网络通讯

第七章 网络通讯

第八章 安全

第九章 容错

第十章 运行

总结

后记

参考文献

  • 内容

     数据优化是由系统定义和执行的,只在一类节点上发生和并行执行,整理一个表的数据碎片。它的工作简单,执行速度快,存在时间短,是一种小规模的数据处理业务,对其它数据操作不构成太长时间的影响。数据重组则大不一样,根据我们的使用经验和跟踪调查,数据重组普遍会涉及到多个表、多种格式的数据计算和分析,数据量大,执行时间长,产生的数据量也大,而且结果也是多种多样,属于大规模的、复杂型数据处理工作。

    鉴于这样的情况,系统无法做到对数据重组进行统一的处理,还有开发者任意编写数据重组代码可能导致的错误,以及希望减少用户工作量,规范处理流程等原因的考虑,我们针对数据重组设计了一套Scan/Sift算法,让用户按照规定流程和规定要求去参与数据重组工作,并以此起到简化编程工作、减少运行错误的作用,也希望能够达到提高处理效率和保证系统稳定性的目的。

    另外,在我们内部,数据重组被称为“洗牌”,这也许可以更好地表达我们对“数据重组”的本来意思。

    Scan/Sift是为大规模数据重组设计的算法,与Laxcus系统架构紧密结合,能够在多个子域集群中工作,具有操作多个表数据、产生任意组数据的能力。

    同Diffuse/Converge算法一样,Scan/Sift算法的工作起点和输出点也是Call节点,Call节点在Scan/Sift算法中起协调和分配数据资源的作用,但是不去产生数据和重组数据。Scan被设计用来收集数据信息工作,它的作用点是Data主节点。主要是扫描磁盘上的数据索引,然后生成元数据,反馈给Call节点。Call节点汇总Scan收集来的元数据,在本地进行分析和调整后,分配给Build节点。Build节点执行Sift工作,它根据Call节点提供的信息,向Data主节点索取数据,然后放到本地磁盘上,通过各种手段重新组织后,产生新的数据,最后按照Call节点的要求,返回到指定的Data节点上。按照这样的流程走下来,就完成了一次Scan/Sift数据重组工作。

    与Diffuse/Converge算法不一样的是,Sift不是迭代的,它在Call节点指挥下只是执行一次。实际上,Scan/Sift算法的大量工作都集中在Sift阶段。这个阶段的工作压力非常大,如果放在Data节点处理,会影响到Data节点的正常数据业务,所以需要把数据转移出来处理。这也是我们设计Scan/Sift算法和Build节点的主要原因之一。

    如果不希望数据优化影响到Data主节点的工作,数据优化也可以按照数据重组的工作流程来处理,对此我们已经在分布描述语言中提供了标准化的操作语句。

回到顶部

联系方式

  • 服务电话 15210289253
  • 联系邮箱 laxcus@163.com
  • 版权所有 Laxcus大数据实验室    京ICP备17069115号

更多资讯请关注官方公众号