v2.6

文档

Laxcus大数据管理系统

第一章 基础概述

第二章 数据组织

第三章 数据存储

第四章 数据计算

第五章 数据构建

第六章 网络通讯

第七章 网络通讯

第八章 安全

第九章 容错

第十章 运行

总结

后记

参考文献

  • 内容

     在数据处理过程,我们经常会遇到这样的情况:大多数时候,用户最初输入的数据会含有大量无意义的、杂乱的信息,需要经过提炼、收集、汇总等一系列手段,才能产生有意义和用户可识别的数据内容;当数据长时间使用后,因为删除、更新操作的缘故,会在磁盘上产生大量数据碎片,这些数据碎片影响到正常的数据读写,为此需要做定时的数据整理工作,来保证一个高效的数据存取环境;有时候,出于便利和效率的需要,我们需要把多个表的不同字段组合到一起,形成一个宽表,来方便我们分析调用,或者能够清晰、直观地展示给客户;还有一些时候,我们需要按照某些特定的规则生成一些临时的、或者公共的数据,保存到磁盘上,来减少数据计算环节,加快数据计算速度。

    如果仔细分析这些数据处理业务,可以发现它们都有一个共同的特点:重复执行概率强,不应该在数据计算时发生,最好提前提供数据准备。

    基于这样的业务需求,我们提出了“数据构建”的概念,由它来统一完成这些工作。

    在Laxcus 2.0版本,数据构建已经发展成一个独立的模块,有一套完整的实现方法和处理流程。因为它在Laxcus体系中的重要性,所以单独分出一章做介绍。

    简单说明一下数据构建的特点:

    1. 由一套API接口组成,需要开发者开发,被命令驱动。

    2. 必须遵守这样一个基本准则:在既有数据基础上才能产生新的数据。

    3. 与数据计算不一样的是,数据构建不直接向用户提供计算结果,只为提高数据计算效率而产生。

    4. 在分类方面,数据构建属于ETL(Extract/Transform/Load)范畴,是数据计算的预处理措施和加速器,为数据计算提供快速处理通道。

    5. 按照我们对数据构建的细化,它被分成两种操作:数据优化和数据重组。数据优化只执行数据清理工作;数据重组是对旧数据的再组织和再计算,并且衍生进化出新的数据

    数据优化被设计成Laxcus系统的一个命令,用于整理磁盘上的数据碎片,删除其中的垃圾数据。命令可以是用户通过终端输入,也可以把命令保存到到Top节点上,由Top节点定期执行。由于Laxcus 2.0版本的事务加入,数据优化被定义为事务“写”操作,在执行过程中,全部数据块将处于“锁定”状态,不允许其它操作加入进来,直到全部完成被解锁。通常经过数据优化整理过的数据,它尺寸会更小,内聚更紧凑(这一点在列存储模型上尤其明显),有利于大批量的磁盘读写。数据优化只发生于Data主节点上,如前所述,每个数据块的执行时间大约是1.2秒左右。工作完成后,新的数据块会同步更新到备份节点上,替换旧的数据块。数据优化命令可以指定一个或者几个Data主节点,如果不指定,默认是集群上的全部Data主节点。鉴于数据优化过程中的“锁定”情况,建议把数据优化工作放在业务空闲时段,以减少因为数据锁定带来的负面影响。

回到顶部

联系方式

  • 服务电话 15210289253
  • 联系邮箱 laxcus@163.com
  • 版权所有 Laxcus大数据实验室    京ICP备17069115号

更多资讯请关注官方公众号