Hadoop文件
行存储:
TextFile
SequenceFile (二进制)

行列:
RCFile (块优化的行列存储,块内列存储,对外抽象成行)
ORCFile,优化版RCFile

Avro(二进制类JSON 行存)
Parquet(列存)

不同文件格式之间的比较

Avro 与 Parquet

  1. Avro是一种基于行的存储格式,而 Parquet是一种基于列的存储格式。
  2. Parquet 对于分析查询要好得多,即读取和查询比写入效率高得多。
  3. Avro中的编写操作比Parquet 中的要好。
  4. 在模式演变方面,Avro比 PARQUET 成熟得多。Parquet 仅支持模式追加,而 Avro支持功能强大的模式演变,即添加或修改列。
  5. PARQUET 非常适合查询多列表中的列子集。Avro是 ETL 操作的理想选择,我们需要查询所有列。

ORC 与 Parquet

  1. Parquet更能存储嵌套数据。
  2. ORC 更有能力进行谓词下推。
  3. ORC 支持 ACID 属性。
  4. ORC 的压缩效率更高。

adhoc:反范式型查询(非常适合Sauron Eyes 的业务场景)
可能常规的固化查询你搞的好好的,这时候老板突然来了一个需求但是范围并不属于是上述的那种有固定模式的SQL,我们把这类需求称为即席查询(Ad hoc queries)

https://github.com/houshanren/big_data_architect_skills?tab=readme-ov-file
https://blog.csdn.net/weixin_44080445/article/details/119171865

Author:undefined  Create time:2024-08-10 18:05
Last editor:undefined  Update time:2024-09-03 01:30