大数据面试索引
Hadoop核心概念
- Hadoop解决了什么问题? -> [Hadoop要解决的现实约束](/数据技术/Hadoop.html)(看"问题背景:Hadoop 要解决的不是"技术",而是"约束""部分)
- HDFS的架构组成是什么? -> [HDFS核心架构模型](/数据技术/Hadoop.html)(看"核心架构模型"部分)
- NameNode和DataNode的作用分别是什么? -> [HDFS核心架构模型](/数据技术/Hadoop.html)(看"核心架构模型"部分)
- MapReduce的编程模型是什么? -> [MapReduce是一种为失败而生的计算范式](/数据技术/Hadoop.html)(看"MapReduce:一种为失败而生的计算范式"部分)
- YARN的作用是什么? -> [YARN:资源管理,而非"MapReduce 的附属品"](/数据技术/Hadoop.html)(看"YARN:资源管理,而非"MapReduce 的附属品""部分)
- Hadoop的容错机制是怎样的? -> [容错哲学:重算,而不是回滚](/数据技术/Hadoop.html)(看"容错哲学:重算,而不是回滚"部分)
Spark与MapReduce对比
- Spark比MapReduce快的原因是什么? -> [Spark比MapReduce快的原因](/数据技术/数据处理.html)(看"Spark比MapReduce快的原因"部分)
- 什么是RDD? -> [RDD核心概念](/数据技术/数据处理.html)(看"RDD"部分)
- Spark的DAG调度机制是怎样的? -> [Spark DAG调度机制](/数据技术/数据处理.html)(看"DAG"部分)
- Spark的宽依赖和窄依赖有什么区别? -> [宽依赖和窄依赖](/数据技术/数据处理.html)(看"结构"部分关于窄依赖和宽依赖的说明)
- Spark的Shuffle过程是怎样的? -> [Spark Shuffle过程](/数据技术/数据处理.html)(看"数据操作"部分关于Shuffle的说明)
流处理与批处理
- Lambda架构的原理是什么? -> [Lambda架构详解](/数据技术/数据处理.html)(看"Lambda"部分)
- Kappa架构与Lambda架构有什么区别? -> [Kappa架构详解](/数据技术/数据处理.html)(看"Kappa"部分)
- 事件时间和处理时间有什么区别? -> [事件时间与处理时间](/数据技术/流处理.html)(看"时间语义:事件时间、处理时间、水位线"部分)
- 什么是水位线? -> [水位线概念](/数据技术/流处理.html)(看"水位线(Watermark)"部分)
- 精确一次性语义如何实现? -> [精确一次性语义](/数据技术/流处理.html)(看"精确一次性(Exactly once)"部分)
数据仓库
- 什么是数据仓库? -> [数据仓库定义](/数据技术/数据仓库.html)(看"数据仓库"标题部分)
- 维度建模的概念是什么? -> [维度建模详解](/数据技术/数据仓库.html)(看"维度建模"部分)
- 星型模型和雪花模型的区别是什么? -> [星型模式与雪花模式](/数据技术/数据仓库.html)(看"维度建模"部分关于星型模式和雪花型模式的说明)
- 数据仓库的分层架构是怎样的? -> [数据仓库层次结构](/数据技术/数据仓库.html)(看"层次结构"部分)
- 事实表和维度表的区别是什么? -> [事实表和维度表](/数据技术/数据仓库.html)(看"维度建模"部分关于事实表和维度表的说明)
Kafka核心概念
- Kafka的架构组成是什么? -> [Kafka架构](/中间件/消息队列/Kafka/Kafka.html)(看"架构"部分)
- 什么是Partition和Replica? -> [Partition和Replica概念](/中间件/消息队列/Kafka/Kafka.html)(看"架构"部分关于Partition和Replica的说明)
- ISR是什么? -> [ISR概念](/中间件/消息队列/Kafka/Kafka.html)(看"分区与副本机制"部分关于ISR的说明)
- Kafka如何保证数据可靠性? -> [Kafka可靠数据传递](/中间件/消息队列/Kafka/Kafka.html)(看"可靠数据传递"部分)
- Kafka的副本同步机制是怎样的? -> [Kafka副本管理](/中间件/消息队列/Kafka/Kafka.html)(看"副本管理"部分)
数据湖与湖仓一体
- 数据湖与数据仓库的区别是什么? -> [数据湖与数据仓库对比](/数据技术/数据存储.html)(看"存储抽象"部分)
- 什么是湖仓一体? -> [湖仓一体概念](/数据技术/数据存储.html)(看"湖仓一体(Lakehouse)"部分)
- 数据沼泽问题如何解决? -> [数据沼泽问题及解决方案](/数据技术/数据存储.html)(看"风险与挑战"部分关于数据沼泽的说明)
实时计算框架
- Flink与Spark Streaming的区别是什么? -> [Flink核心模型](/数据技术/数据处理.html)(看"Flink"部分)
- Structured Streaming的原理是什么? -> [Structured Streaming](/数据技术/数据处理.html)(看"StructuredStreaming"部分)
- 什么是CEP(复杂事件处理)? -> [CEP概念](/数据技术/流处理.html)(看"流处理的应用类型"部分关于CEP的说明)
数据存储方案
- 不同存储类型的特点是什么? -> [存储系统类型](/数据技术/数据存储.html)(看"存储系统"部分)
- 列式数据库的优势是什么? -> [列式分析数据库](/数据技术/数据存储.html)(看"列式分析数据库"部分)
- HBase的适用场景是什么? -> [NoSQL存储](/数据技术/数据存储.html)(看"NoSQL存储"部分关于HBase的说明)
数据治理
- 什么是数据血缘? -> [数据血缘概念](/数据技术/数据治理.html)(参考数据治理相关文档)
- 如何保证数据质量? -> [数据质量保证](/数据技术/数据处理.html)(看"设计目标中的三个维度"部分关于数据质量的说明)