摘要
补充时八股格式:
定义:// 啥玩意,解释说明
功能:// 干嘛的,说清楚功能
应用:// 典型的应用场景、例子等
可选其他补充
如MySQL
定义(这两个字不要省略):一种关系型数据库,在数据仓库上下文中一般作为ODS原始数据层的数据源、APP应用层。
功能:在数仓上下文中或大型数据系统中,一般用于存储临界的一般关系型数据,通常用于在线应用和热数据交互。
应用:在一般后端架构中,通常被用于存储在线的数据,如在各类管理系统中被应用。
1. 业界常见技术栈综述
典型架构(4层架构):
自底向上:存储层、处理层、分析层、业务层
经典Hadoop家族:Hadoop、Hive、Spark、HBase
多源统一查询方案:
极速全场景(MPP,Massively Parallel Processing)数据库,是一种基于大规模并行处理技术的数据库系统,旨在高效处理大量数据。
StarRocks
Apache Doris
Doris 在中小型数据体量(总数据 100TB 内,热数据 30TB 内)的场景中
Presto(MPP-SQL交互式查询引擎)、多数据源(Hive,Hbase,RDBMS)
RDB集群:MySQL、PostgreSQL
CDC技术
在线任务:Apache Druid、Flink
对象存储:分布式文件系统基准(自建)、云厂商提供(S3、OSS、OBS)
TiDB
Mesos
StarRocks
一种MPP数据库,为了解决OLAP数仓模型多技术栈交叠搭建困难(提供一个总汇技术符合我们的归一概念)
Hadoop
一种分布式系统框架,与其衍生技术致力于解决大数据处理问题
MapReduce
解决了数据存储的问题,接下来就是数据计算的问题,MapReduce提供分布式文件统一操作,分为两个过程,Map,Reduce,简单的来说Map就是将问题拆分处理,Reduce就是将分离处理的数据进行汇总返回
Hive
俗话说懒惰是技术进步的第一推动力,使用Hadoop进行大数据处理需要编写MapReduce程序,对于程序员的技术有一定要求,于是乎人们开始怀念起以前使用sql的日子(我要当sql boy/girl!!!)于是Hive诞生了,Hive可以处理sql生成MapReduce程序,提高了大数据问题的开发效率,但是失去了数据处理的灵活性
HBase:一个基于Hadoop的分布式、版本化的非关系型数据库,用于存储结构化数据。HBase提供类似于Bigtable的列式存储,并支持实时读写操作。
Hive:一个基于Hadoop的数据仓库工具,允许用户使用SQL语言查询HDFS中的数据。Hive将SQL查询转换为MapReduce作业,并在Hadoop集群上执行。
OLTP数据库
OLAP数据库
HTAP数据库
数据湖
iceberg
https://blog.csdn.net/wuxintdrh/article/details/120211716
https://blog.csdn.net/Yuan_CSDF/article/details/122418763
ClickHouse
列存储,LSM Tree
2. 数据架构
RDBMS 侧
在线计算
流式计算
3. 数据底层
3.1 存储
3.1.1 从 FAT 到 分布式文件系统
3.1.2 冷热存储
3.1.3
3.1.4 HDFS
当数据量过大无法用一台服务器进行存储时,我们就需要用到多台服务器进行统一存储,如何管理多台服务器数据成为一个难题,HDFS应运而生,HDFS提供统一管理多服务器的技术方案,其主要组成为NameNode,DataNode,Secondary DataNode。NameNode用于保存节点的存储元信息,DataNode用于保存数据信息,Secondary DataNode用于备份数据防止服务节点挂掉后数据缺失
3.1.5 对象存储和 CDN
- 定义:对象存储是一种数据存储架构,它将数据作为对象进行管理,而不是传统的文件系统(将数据存储为文件)或块存储(将数据存储为块)。每个对象包括数据本身、元数据(描述数据的属性),以及一个全球唯一的标识符(用于检索对象)。简单来说,对象存储是专为管理大量非结构化数据(如音视频文件、图片、备份数据或大数据系统底层表文件等)而设计的存储系统。
- 功能:对象存储的主要功能是统一化存储和管理大量非结构化数据。它提供了高扩展性、以便处理大规模的数据,同时提供良好的数据寻址和检索机制,通过唯一标识符来高效地访问存储对象。
- 应用:
常见的功能应用包括数据去重、版本控制、数据备份和恢复、灾难恢复、大数据底层应用、以及数据分析和挖掘等。
云存储服务:例如,Amazon S3、Google Cloud Storage、Alibaba OSS、HUAWEI OBS,给用户提供按需存取的数据存储服务。
内容交付网络(CDN)<典型>:将数据存储到全球的数据中心,提升内容分发速度和用户访问体验。通常用于管理、分发、加速静态资源。 - 补充:
对象存储通常不被称为文件系统,这个是相对的,首先确实一般的对象存储不支持传统文件系统的随机读写且一般对象存储采用键值存储,使用键模拟目录结构。但是与HDFS相似的是,读写的粒度是文件粒度。
hadoop3.3.0之后原生支持部分云产商对象存储。目前由于HDFS的缺陷,许多业内实践已部分替换底层HDFS为对象存储。
3.2 处理
3.3 分析
3.3.1 Adhoc 即席查询
3.3.2 OLAP
3.x 关键问题
3.x.1 数据治理
3.x.2 数据血缘
4. 常用术语名词解释
ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
CDC(Change Data Capture)
5. 数据业务开发
6. 业内大数据、数据产品
镜舟
参考文献
https://vr.sina.com.cn/news/2021-09-08/doc-iktzscyx3018965.shtml
Oussous A, Benjelloun F Z, Lahcen A A, et al. Big Data technologies: A survey[J]. Journal of King Saud University-Computer and Information Sciences, 2018, 30(4): 431-448.
Ageed Z S, Zeebaree S R M, Sadeeq M M, et al. Comprehensive survey of big data mining approaches in cloud systems[J]. Qubahan Academic Journal, 2021, 1(2): 29-38.
https://zhuanlan.zhihu.com/p/695508708
https://blog.csdn.net/hellozhxy/article/details/131807601
https://mp.weixin.qq.com/s/TFjJ799IOPkwG_Ywz3piow?from=groupmessage&scene=1&subscene=10000&sessionid=1725542548&clicktime=1725544479&enterid=1725544479
https://blog.csdn.net/Myx74270512/article/details/128649850
https://github.com/simbafl/DataWarehouse
https://github.com/houshanren/big_data_architect_skills
https://github.com/wx-chevalier/Database-Notes
https://www.bilibili.com/read/cv34491229/
https://cloud.tencent.com/developer/article/2235519
https://t.it168.com/article_6853116.html
https://tech.dewu.com/article?id=31
https://tech.meituan.com/2021/04/15/data-governance-in-meituan-jiulv.html
https://juejin.cn/post/6975814437311610888
https://www.zhihu.com/question/631983226/answer/3306153787?utm_psn=1831690221403631619
https://blog.csdn.net/archleaner/article/details/50988258
https://blog.csdn.net/wuxintdrh/article/details/120211716
Last editor:undefined Update time:2024-10-29 14:47