解读《Hadoop 构建数据仓库实践》

书中构建一个数据仓库示例模型的讲解,实实在在的从 0 到 1 讲述了一个基于big data 的数据仓库原型的搭建。可以看做是一个非典型的应用场景。里面有很多的点,是可以值得拿出来好好深入思考的,举一反三 在数据建模这块,遇到一个数据模型的存储细节问题。 Hive 的用途在整个数据仓库中,是可以放在RDS,TDS两个阶段的。按照作者的思路,RDS, TDS 分别承载了整个数据仓库数据流的两个不同存储阶段。RDS, 即 Raw Data Source, 用来缓存各个应用系统过来的数据。没有经过转化,所以存储在 Hive 中,便可以有效利用 Hive 提供的分布式聚合功能,整合好数据,进入下一步转换。TDS, 即 Transmission Data Source, 也就是承载转换后的数据存储区域。 Hive 的这两种应用,底层存储的可以是 Text 文本文件,也可以是 Json 格式文件,还可以是其他格式文件,比如压缩版本的 Text 文件,压缩版本的 Json 文件。Text 文件是内置默认的文件格式,那么怎么来适配 Json 文件格式?因为 Hive 调用的输入输出 API , 其实就是 Hadoop 的 InputFormat, OutputFormat API. 这些 API 是 Java 编写的,因此如果要想用其他 InputFormat, […]