v2.6

文档

Laxcus大数据管理系统

第一章 基础概述

第二章 数据组织

第三章 数据存储

第四章 数据计算

第五章 数据构建

第六章 网络通讯

第七章 网络通讯

第八章 安全

第九章 容错

第十章 运行

总结

后记

参考文献

  • 内容

     所有数据重组的开始阶段(ETL Extract),都需要把数据从磁盘文件中提取出来,然后才能执行后续操作。根据我们的追踪调查,提取操作主要这样两种方式:1.按照某种规则有选择地抓取;2.把全部数据输出再逐一排查或者分析。前者通过SQL select语句就可以做到,后一种我们实现了Marshal/Educe接口,来方便用户使用。

    Marshal/Educe是把磁盘下一个表的数据全部排序和输出的过程,由三个函数组成。如图5.2.2所示,marshal负责把全部数据按照指定列进行排序,排序结果是生成一组镜像表,这是一种元数据,被保存在内存里。educe是在marshal之后的操作,它在镜像表的指引下,把数据从磁盘上抓取出来并输出。其中marshal只操作一次,educe可以任意多个。如果需要中途停止操作,就调用unmarshal函数,内存中的镜像表也将同步释放。

    Marshal/Educe以“只读”方式进行,执行过程中不会修改磁盘上的数据内容,生成的镜像表数据量也很小,每个数据块只产生几十到几百字节的信息,所以它对系统性能影响不大,可以放心使用。

回到顶部

联系方式

  • 服务电话 15210289253
  • 联系邮箱 laxcus@163.com
  • 版权所有 Laxcus大数据实验室    京ICP备17069115号

更多资讯请关注官方公众号