《数据密集型应用系统设计》（DDIA）阅读笔记

前言

《数据密集型应用系统设计》（Designing Data-Intensive Applications，简称 DDIA）是分布式系统领域的经典著作，深入探讨了数据系统的底层原理、分布式计算的实践挑战，以及如何构建可靠、可扩展、可维护的应用。本文是我阅读本书后的核心要点记录与思考。

结论先行

本书的核心价值在于：帮助技术决策者理解各种数据系统和架构方案背后的权衡取舍。无论是存储引擎的选择、数据复制策略、还是分布式事务的处理，都不存在银弹，只有在具体场景下的最优解。理解这些权衡的本质，才能做出明智的技术决策。

一、数据系统的底层原理

数据的存储结构

对于如何在磁盘上组织数据，有两个主要的数据结构：B-Tree 和 LSM-Tree。两者各有优劣，适用于不同的场景。

LSM-Tree（日志结构合并树）

这是一张描述 LSM-Tree 存储结构的图，出自这篇文章。该作者的 mini-bitcask 项目基于 LSM-Tree 实现了一个简单的数据库，非常适合新手学习。

核心思想：

LSM-Tree 的核心思想是以追加日志的形式组织数据，在内存中维护索引，索引保存的是一条数据在日志文件中的偏移量。

工作原理：

修改数据时，不在原有位置更新，而是把新数据追加在文件末尾
为避免旧数据浪费磁盘空间，择机启动后台压缩进程，整理出新的数据文件并替换旧文件

性能特点：

由于磁盘顺序写入速度远高于随机写入（通常可达 10 倍以上），LSM-Tree 的写入性能非常优秀。

实际应用：

MySQL 的 redo log 就借鉴了 LSM-Tree 的思想——为加快写入速度，数据先写入内存，同时以追加日志形式在磁盘上写一份，以便崩溃恢复。虽然还是要写磁盘，但顺序写入 redo log 比随机写入 B+树快得多。

B-Tree（平衡树）

基本概念：

B-Tree 可以理解为一个为适应磁盘读写而改造的二叉树。相比二叉树，B-Tree 的每个节点可以包含更多的子节点，从而降低树的高度，减少磁盘 I/O 次数。

性能特点：

树的高度矮且平衡，不需要像 LSM-Tree 那样进行昂贵的压缩操作
读性能优秀且稳定

事务友好：

B 树的一个优点是每个键只存在于索引中的一个位置，而日志结构化的存储引擎可能在不同的段中有相同键的多个副本。这个方面使得 B 树在想要提供强大的事务语义的数据库中很有吸引力：在许多关系数据库中，事务隔离是通过在键范围上使用锁来实现的，在 B 树索引中，这些锁可以直接附加到树上。

应用场景：

以上两个优点使得 B-Tree 成为关系型数据库组织数据的主流选择。

对比总结：

特性	LSM-Tree	B-Tree
写性能	优秀（顺序写入）	一般（随机写入）
读性能	一般（可能需要查多个段）	优秀且稳定
空间放大	较高（压缩前）	较低
事务支持	复杂	天然友好
典型应用	Cassandra、RocksDB	MySQL、PostgreSQL

内存数据库

性能优势的本质：

内存数据库更快的原因并非省去了硬盘读取——只要有足够的内存，基于硬盘的存储引擎也可能永远不需要从硬盘读取（操作系统会在内存中缓存最近使用的硬盘块）。真正的优势在于省去了将内存数据结构编码为硬盘数据结构的开销。

设计优势：

内存中的数据结构可以非常灵活，而磁盘存储要受诸多限制（如数据块大小、随机读写性能差等）。如果不考虑以磁盘为主要存储介质，数据库的设计和性能优化都会轻松不少。

典型应用：Redis、Memcached 等。

OLAP 和列式存储

两种数据库的定位：

OLTP（On-Line Transaction Processing，在线事务处理）：为在线系统而生，更注重事务的实时性和并发控制
OLAP（On-Line Analytical Processing，在线分析处理）：为离线分析而生，更注重聚合计算的吞吐量

列式存储的设计思想：

在数据分析时，操作的对象不再是一行一行的记录，而是大量行的某几列（例如计算所有男性用户的订单金额平均值）。列式存储将一行数据按列拆开存储，第 20 行数据的 3 个字段分别存储在 3 个文件中的第 20 行，读取时只读取需要的列，大幅减少 I/O。

压缩优势：

同一列的数据结构相似且重复多，非常适合压缩。例如订单表有 1 亿行数据，但商品 ID 列去重后只有几百种，压缩可大大缩小存储空间，进一步提升查询性能。

实践案例 - InfluxDB：

InfluxDB 中的列分为两种：

field：数据部分（如温度、湿度等测量值）
tag：元数据（如国家、城市），可理解为联合唯一索引，其组合应数量有限以便压缩

⚠️ 注意：如果在 tag 里加一列 uuid（每行都不同），会导致针对 tag 的压缩效率大幅降低，失去列式存储的优势。

二、数据编码与演化

序列化和反序列化

基本概念：

内存中的对象要持久化到硬盘或通过网络传输，不能直接复制内存中的 0 和 1（指针在进程外失去意义），需要序列化为二进制数据，使用时再反序列化。

三种序列化方案：

方案类型	代表技术	优点	缺点	适用场景
语言自带协议	Java Serializable、Python pickle	易用	语言绑定，跨语言困难	单语言系统（已式微）
文本形式	JSON、XML、CSV	可读性好、语言中立	传输效率低、数据冗余	简单场景、调试友好
二进制编码	Thrift、Protobuf、Avro	高效、紧凑、语言中立	需要定义 schema	微服务、RPC 通信

微服务时代的选择：

在微服务时代，语言自带方案为不同语言的服务间通信制造障碍，已经式微。JSON 等文本形式可读性和语言中立性好，但与 Thrift/Protobuf 相比传输效率不够高。对于高性能要求的场景，二进制编码是更好的选择。

Thrift 的标签机制

IDL 定义示例：

struct Person {
    1: required string       userName,
    2: optional i64          favoriteNumber,
    3: optional list<string> interests
}

标签的作用：每个字段前面的数字（标签）在序列化后用于区分字段，比 JSON 靠字段名区分更节省空间（整数比字符串小得多），数据更紧凑。

字段名 vs 标签：

字段名只用于可读性，改名无所谓
绝对不可以改标签

模式兼容性

标签更重要的作用是保持模式的向前和向后兼容，以适应微服务时代的滚动升级。

向后兼容（backward compatibility）：新代码可以读取旧代码写入的数据

向前兼容（forward compatibility）：旧代码可以读取新代码写入的数据

在微服务时代的滚动升级中，同一时间可能同时存在新旧版本代码实例，因此需要双向兼容。

兼容性规则：

添加字段：

给每个字段一个新标签号码

新增字段必须是可选的或具有默认值（保持向后兼容）

旧代码遇到无法识别的标签会忽略该字段（保持向前兼容）

删除字段：

只能删除可选字段（必需字段永远不能删除）

不能再次使用相同的标签号码（旧数据可能仍包含该标签）

三、分布式数据系统

事务与并发控制

事务的意义：简化应用层的处理逻辑，将大量错误（进程崩溃、网络中断、断电等）转化为简单的事务中止和应用层重试。应用层不需要关心只写入了一半的脏数据。

行锁与区间锁

行锁：事务可以通过 SELECT FOR UPDATE 对即将修改的行加锁，防止其他事务并发修改。被锁定的行在其他事务中会被阻塞，直到当前事务提交或回滚。

区间锁：如果要写的数据不存在（没有可加锁的对象），可以对某一列加区间锁。

示例：预定会议室

-- 锁定特定会议室在特定时间段的记录
SELECT * FROM booking
WHERE room_id = 111
  AND start_time > '2025-04-11 15:00:00'
  AND end_time < '2025-04-11 16:00:00'
FOR UPDATE;

-- 应用层判断该区间没有预定记录，插入新记录
INSERT INTO booking ...
-- 在该事务提交或回滚之前，其他事务无法插入该会议室在该时间段的预定记录

⚠️ 重要：区间锁是加在索引上的（本例中是 room_id、start_time、end_time）。如果列没有索引，会导致全表扫描，给表里所有记录加锁，严重影响性能。使用区间锁时应确保对应列上存在索引。

数据复制

主从复制模型

架构设计：一个数据库节点作为主节点，接受写请求和读请求；其余节点作为从节点，只接受读请求，通过数据复制与主节点保持数据一致。

优势：

通过扩展从节点提高读性能
将从节点放置在距离用户更近的机房，降低读延迟

同步 vs 异步复制：

复制方式	主节点行为	优点	缺点
同步复制	等待从节点同步完成才返回成功	数据强一致	严重拖慢写入效率
异步复制	完成自身修改后立即返回	写入性能高	主节点故障时可能丢失数据

折中方案：选取一个从节点进行同步复制（保证有一个从节点一直有完整数据），其余从节点异步复制。

多主复制模型

背景：一主多从模式下，所有写请求必须经过主节点，远离主节点的用户写延迟仍然很高。

架构设计：多个主节点都可以接受写请求，通过异步复制把变更同步到其他主节点。这一模式又称”单元化”或”set化”。

挑战与解决方案：

最大问题：多主同时对同一数据写入导致的冲突
解决思路：从业务角度对数据进行切分，保证每个 set 的写请求都在自己的数据范围内完成，避免跨 set 的写请求
容灾优势：如果数据切分合理，一个 set 是功能完善的整体，多个 set 分布在不同机房，可实现机房级别容灾

数据分区

基本概念：数据复制在所有节点上存储全量数据，数据量仍受限于单个节点的磁盘大小。数据分区将数据拆分为多份，每个节点只存储一部分数据，通过水平扩容扩展存储总量。

路由挑战：每个节点都是功能完整的小型数据库，具备读写能力。与主从复制不同，你不能随便找一个节点——它可能没有你想要的数据。

分区方法：通常根据 key 的哈希值决定分区（就像字典根据读音/部首查找）。

二级索引的分区策略

问题：对于 KV 结构，key 可以定位到唯一分区，但二级索引值无法确定应该在哪个分区查询。

方案一：二级索引存储在数据所在节点

每个节点维护自己数据的二级索引，查询时需要查询所有节点并汇总结果。

类比：如果无法集中管理所有班级学生的身高，要找出全校最高的 10 个人，只能让每个班查出本班最高的 10 个人，然后汇总再找出全校最高的 10 个人。

缺点：”读放大”，查询分页过深时需要汇总的数据量很大（例如 ES 限制 from + size 不能超出 10000）。

方案二：二级索引也分区存储

二级索引像 key 一样分区存储，查询时根据条件就知道索引在哪个节点。

缺点：写数据导致的二级索引更新可能涉及多个节点，同步更新会拖慢写入效率，实践中采用异步更新，代价是数据和索引短暂不一致。

四、数据处理范式

批处理

核心关注点：与关心响应时效性的在线服务不同，批处理服务更关心数据处理的吞吐量。

示例场景：分析 Web 服务日志文件，每次请求产生如下日志：

1
2
3

216.58.210.78 - - [27/Feb/2015:17:55:11 +0000] "GET /css/typography.css HTTP/1.1"
200 3377 "http://martin.kleppmann.com/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.115 Safari/537.36"

抽象格式：

1 2	$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent"

Unix 哲学

需求：找出网站上五个最受欢迎的网页。

实现方式：

cat /var/log/nginx/access.log |  # 1. 读取日志文件
    awk '{print $7}' |            # 2. 提取第 7 个字段（URL）
    sort |                        # 3. 按字母顺序排序
    uniq -c |                     # 4. 统计每个 URL 出现次数
    sort -r -n |                  # 5. 按次数降序排序
    head -n 5                     # 6. 输出前 5 行

输出结果：

4189 /favicon.ico
3631 /2013/05/24/improving-security-of-ssh-private-keys.html
2124 /2012/12/05/schema-evolution-in-avro-protocol-buffers-thrift.html
1369 /
 915 /css/typography.css

Unix 哲学的核心原则：

让每个程序都做好一件事。要做一件新的工作，写一个新程序，而不是通过添加 feature 让老程序复杂化。
期待每个程序的输出成为另一个程序的输入。不要将无关信息混入输出，避免使用严格的表格状数据或二进制输入格式。
尽早地开始设计和构建软件，在需要抛弃一些老设计时不要犹豫。
优先使用工具来减轻编程任务，做好用完就扔的心理预期。

这种方法——自动化、快速原型设计、增量式迭代、测试友好、将大型项目分解成可管理的块——听起来非常像今天的敏捷开发和 DevOps 运动。

分布式的 Unix

背景：当数据规模大到单机无法承载时，使用相同思想的 Hadoop 出现了。它基于 HDFS，把多台机器通过网络组合成一个巨大的文件系统，可以组合多个 MapReduce 任务实现大规模数据分析。

MapReduce 工作流程：

读取 HDFS 上指定位置的文件，拆分为多块，分发给多个 mapper
mapper 处理生成多个键值对
对键值对根据 key 排序、分区，分发给多个 reducer
key 相同的键值对集合由一个 reducer 处理，输出结果到 HDFS 指定位置

组合性：观察第一步和最后一步，MapReduce 任务可以首尾相接组合起来，一个任务的输出可以作为另一个任务的输入，通过 HDFS 文件衔接。

面向频繁故障的设计

基本假设：在分布式系统中，出错不可避免。MapReduce 任务出错时应能自动重试（除非是逻辑 bug），这要求任务没有副作用：原始数据不可变，重试不会对外界产生影响（如写入外部数据库）。

额外好处：

测试友好：任务可以随心所欲地重新运行，便于使用自动化测试工具和 debug
提高资源利用率：结合容器的背景来理解

容器与资源调度：

MapReduce 最早由 Google 提出，Kubernetes 也是 Google 自家容器编排系统 Borg 的开源版本。Google 使用容器运行 MapReduce 任务，容器经常为了给更高优先级的服务腾出资源而被杀死，这种概率远大于网络、硬件故障导致的失败概率。

允许被随时杀死，同时也就意味着在资源空闲时可以过度使用资源——反正真要用资源的时候把它赶走就是了。

MapReduce 任务牺牲了资源保障的优先级，获得了充分利用空闲资源的权利，以提高吞吐量。这虽然看起来矛盾，但的确提升了整体资源利用率。

参考：《凤凰架构》介绍 K8s 资源与调度的章节提到，优先级最低的 Pod 既不声明资源需求量（requests），也不声明资源使用上限（limits），在调度时更容易被分配资源，资源不足时也会被优先杀死。

流处理

核心特征：与批处理不同，流处理面向的是无界的、持续增长的数据。

典型应用：消息队列，分为两种：

传统消息队列（如 RabbitMQ）：消费者回复确认后删除消息
基于日志的消息队列（如 Kafka）：消息以追加日志形式存储，消费进度体现为偏移量，不删除数据（使用循环缓冲区覆盖最老数据，避免磁盘空间耗尽）

主题和消费组

两种消费模式：

负载均衡式：一条消息只能被一个消费者消费，增加消费者数量可提高消费速度
广播式：一条消息会被所有消费者消费，消费者之间隔离，互不影响

RabbitMQ 的实现：通过交换机和队列的概念实现两种模式。

Kafka 的实现：

主题：同一种消息的队列
消费组：消费组绑定一个主题，同一消费组内采用负载均衡模式，不同消费组之间隔离

由于消息是日志式存储，被消费后不删除，各消费者只是顺序读取同一日志文件。实现广播很直观：不同消费组顺序读取时都经过同一消息，就都读到了。例如下图中 1 号消息被消费组 A 和消费组 B 都读到了。

负载均衡式消费依靠分区实现：同一消费组内，一个消费者消费一个分区。

💡 最佳实践：同一个消费组内多个消费者不消费同一分区（否则维护偏移量变得复杂）。推荐一个分区一个消费者，通过增加分区数量提高并发度。

💡 额外优势：日志式消息可以轻易地从历史事件点重新开始消费，只需修改偏移量。

消费速度跟不上生产速度

RabbitMQ：消息积压会导致磁盘空间不足，写入受阻。

Kafka：没有消息积压的概念，只是消费者偏移量落后于最新日志。由于循环缓冲区设计，最老的日志会被新日志覆盖，可能出现消息还没被消费就被覆盖（类似赛车游戏里慢车被快车从后面超过，落后一圈）。

但这只会影响落后特别多的消费者，其他消费者仍在消费最新消息，因此对 Kafka 来说破坏有限。

多系统数据同步

场景：以数据库为原始数据，在搜索引擎中构建索引（派生数据）。保持二者同步的简单方式是双写，即修改数据时同时修改数据库和搜索引擎。

问题：除了一个成功一个失败这种明显问题外，还可能发生竞争问题。

竞争示例：两个客户端同时更新项目 X，客户端 1 想设置为 A，客户端 2 想设置为 B。两个客户端先写入数据库，再写入搜索索引。请求时序交错：

数据库：先看到客户端 1 的 A，再看到客户端 2 的 B，最终值为 B
搜索索引：先看到客户端 2 的 B，再看到客户端 1 的 A，最终值为 A

即使没发生错误，两个系统也永久不一致了。

解决方案：变更数据捕获（CDC）

既然数据流向是数据库 → 搜索引擎，能否借鉴主从复制思想，让数据库作为”主库”，数据复制到搜索引擎这个”从库”？

实现方式：读取数据库复制日志，称为变更数据捕获（Change Data Capture，CDC）。应用实例有 LinkedIn 的 Databus、阿里的 Canal。

优势：可以方便地维护以原始数据为源头的派生数据体系。虽然缺点和主从复制一样是主从延迟，但优点是最终一致性——分布式环境中两害相权取其轻的妥协结果。

使用不可变日志构建数据库

Kafka 的独特之处：以不可变日志形式存储数据，但这并非新发明。会计已经运用这种思想构建账本很久了：交易发生时追加到账本末尾，如果记错了也不在原记录上修改，而是在末尾新增一条修正记录。

优势：

如果运行了破坏数据的错误代码，就地修改数据的传统数据库难以恢复，而不可变日志构建的数据库能轻易恢复到被破坏前的样子
数据库新增一条数据后经历的修改，对某些场景具有分析意义（如分析用户行为）

五、数据系统的未来

离线客户端

将客户端作为派生数据系统，在客户端存储一些数据，使其在离线状态下依然可用。通过基于日志的流处理 + 订阅变更流的方式在联网时更新客户端数据。

Exactly-Once 语义

问题：在流处理中，如果对一条数据处理失败，可能发生自动重试。如果没有做好幂等性保障，重试可能导致错误结果（如多次扣款）。我们需要确保即使操作被重试，也像执行一次一样。

解决方案：在客户端为写操作生成一个请求 ID，在请求的所有处理环节中传递和检查（直到数据库），确保相同的操作只执行一次。

示例：转账事务

ALTER TABLE requests ADD UNIQUE (request_id);

BEGIN TRANSACTION;
    INSERT INTO requests
        (request_id, from_account, to_account, amount)
        VALUES('0286FDB8-D7E1-423F-B40B-792B3608036C', 4321, 1234, 11.00);
    UPDATE accounts SET balance = balance + 11.00 WHERE account_id = 1234;
    UPDATE accounts SET balance = balance - 11.00 WHERE account_id = 4321;
COMMIT;

如果相同请求 ID 已经执行过，第一条 SQL 会因唯一索引冲突而失败，导致整个事务失败，避免重复操作。

跨分区场景：在单分区情况下，上述事务很容易实现。但如果三张表分别属于不同分区，就需要分布式事务。分布式事务复杂、效率低下（在分布式环境中达成共识本身就是一件复杂的事情），而且并非所有系统都支持分布式事务协议。

新方案：日志流处理

客户端为从账户 A 向账户 B 的转账提供唯一的请求 ID，按请求 ID 追加写入相应日志分区
流处理器读取请求日志，对于每个请求消息，向输出流发出两条消息：付款人账户 A 的扣款指令（按 A 分区），收款人 B 的收款指令（按 B 分区）。消息中会带有原始的请求 ID
后续处理器消费扣款/收款指令流，按照请求 ID 除重，并将变更应用至账户余额

三个操作的特性：

第一个操作只写入一个日志对象，很容易保证原子性
第二个操作如果中途失败可以重试（算法是确定的、参数一样，生成的两条消息无论怎么重试都不会变，可能出现多个重复消息）
第三个操作借助请求 ID，在自己的分区实现幂等写入

我们就这样通过日志流处理绕过了分布式事务。

抽象总结：使用日志流处理保障多系统之间数据完整性的方式：

将写入操作的内容表示为单条消息，可以轻松地被原子写入
使用确定性的派生函数，从这一消息中衍生出所有其他的状态变更
将客户端生成的请求 ID 传递通过所有处理环节，允许端到端的除重，带来幂等性
使消息不可变，允许衍生数据能随时被重新处理，使从错误中恢复更加容易

宽松的约束

当偶尔打破约束的成本可以接受时，也可以不使用上述复杂方法。例如：

用户名/座位冲突：两个人同时注册了相同的用户名或预订了相同的座位，给其中一个人发消息道歉，要求更换。这种纠正错误的变化称为补偿性事务（compensating transaction）
库存超卖：如果客户订购的物品多于仓库中的物品，可以下单补仓，为延误道歉并提供折扣。既然道歉工作流已经成为商业过程的一部分，对库存物品数目添加线性一致的约束可能就没必要了
航空/酒店超卖：许多航空公司和旅馆会超卖，打着一大部分人可能会错过航班/取消预订的算盘。当需求超过供给时，进入补偿流程（退款、升级、提供替代方案）

是否严格遵循约束是一个需要权衡的选择。

可审计性的设计

背景：”审计”通常出现在财务领域，但当对数据系统的正确性要求足够高时，数据审计也是必要的。因为足够大规模的系统在足够长时间内，小概率发生的错误也一定会发生。

示例：HDFS 和 Amazon S3 等大规模存储系统并不完全信任磁盘，它们运行后台进程持续回读文件，与其他副本比较，将文件从一个磁盘移动到另一个，以降低静默损坏的风险。

基于事件日志的系统（如 Redis 的 AOF）：

事件日志不可变
运行的代码是确定性的
使用相同的代码运行相同的事件日志，得到的数据总是相同的

审计实现：

通过哈希校验确保事件日志存储无误
通过重复运行事件日志并比较结果和现有数据的区别

即使不需要如此严谨的数据正确性，一个可以回放并复现历史场景的数据系统对于故障分析也是很有帮助的。

端到端的测试

如果我们不能完全相信系统的每个组件都不会损坏（每一个硬件都没缺陷、每一个软件都没有 Bug），至少必须定期检查数据的完整性。

端到端完整性检查：从数据的生产端到消费端，完整性检查涵盖的系统越多，某些处理中出现不被察觉损坏的几率就越小。如果能检查整个衍生数据管道端到端的正确性，那么沿着这一路径的任何磁盘、网络、服务以及算法的正确性检查都隐含在其中了。

价值：持续的端到端完整性检查可以不断提高对系统正确性的信心，从而更快地前进。与自动化测试一样，审计提高了快速发现错误的可能性，降低了系统变更或新存储技术可能导致损失的风险。

如果你不害怕进行变更，就可以更快更好地迭代一个应用，使其满足不断变化的需求。

呼应前文：本书前面提到类似的观点：如果变更可以回滚，你有退路可走，那你就能向前走得更安心、更快。

六、总结与思考

核心知识点总结

主题	核心要点	实践启示
存储引擎	LSM-Tree 写优化、B-Tree 读优化	根据读写比例选择合适的存储引擎
数据复制	主从复制、多主复制各有利弊	单元化设计避免跨 set 写冲突
数据分区	通过哈希分区扩展存储容量	二级索引的分区策略影响查询性能
序列化	Protobuf/Thrift 的标签机制	保持向前向后兼容支持滚动升级
事务	行锁、区间锁的应用	区间锁必须加在有索引的列上
批处理	MapReduce 的组合性和容错性	无副作用设计提高资源利用率
流处理	基于日志的消息队列	Kafka 通过分区实现负载均衡
数据一致性	使用 CDC 维护派生数据	日志流处理绕过分布式事务

技术伦理

正确地使用技术和数据，认真地对待其对世界和人的影响。

本书末尾探讨了算法决策可能带来的不公、大数据时代对个人隐私自由的剥夺等问题。在技术书籍中看到这些内容令我有些意外，但我认同技术不应被用来作恶，应该推动文明的发展。

那一刻，我理解了那句话所代表的精神：Make the world a better place。

核心收获

阅读本书后，我总结了以下核心洞察：

数据系统的本质：无论是 LSM-Tree 还是 B-Tree，列式存储还是行式存储，都是在特定场景下的权衡取舍
分布式系统的妥协：最终一致性、主从延迟、宽松的约束，都是在分布式环境中”两害相权取其轻”的结果
不可变日志的价值：从会计账本到 Kafka，不可变日志为数据系统提供了可审计、可回放的强大能力
Unix 哲学的普适性：让每个程序做好一件事，通过组合构建复杂系统，这种思想从单机 Unix 延伸到了分布式计算
面向故障的设计：假设故障必然发生，设计无副作用的可重试任务，反而能提高系统的容错性和资源利用率