大数据常用框架概览

起源

Google的三篇论文

  • 分布式文件系统 GFS:《The Google File System》
  • NoSQL 数据库系统:《Bigtable:A Distributed Storage System for Structed Data》
  • 大数据分布式计算框架 MapReduce:《MapReduce:Simplified Data Processing on Large Clusters》

开源实现

  • HDFS
  • HBase, clickhouse
  • MapReduce

大数据技术划分

离线计算(OLAP, 批处理)

  • MapReduce
  • Hive, MapReduce的SQL封装
  • Spark, 基于内存

流式计算(实时)

  • Storm
  • Spark Streaming
  • Flink

流计算框架 Flink 与 Storm 的性能对比 - 美团技术团队(2017)
美团外卖实时数仓建设实践 - 美团技术团队(2021)

HTAP

干货!7000字深度刨析 HTAP 技术架构、关键技术和国内主流产品

HTAP(Hybrid Transaction and Analytical Process)混合事务和分析处理,既能支持在线事务处理 OLTP,又能支持在线分析处理 OLAP

  1. TiDB
  2. Oceanbase

参考资料

随机漫步的数据:信息论、大数据技术和不切实际的联想

大数据技术漫谈 ——从Hadoop、Storm、Spark、HBase到Hive、Flink、Lindorm - 知乎