第一节:引言 - 从中心化到去中心化数据范式转变
互联网的演进可以划分为不同的架构和哲学时代。当前的主导范式 Web 2.0,由交互式、用户驱动的平台定义,这些平台连接了全球。然而,这种模式建立在一个根本性的不对称之上:尽管用户创建内容和数据,但中心化公司拥有平台、控制数据并攫取绝大部分经济价值。这种中心化导致了系统性问题,包括单点故障、公司或国家行为者的审查,以及用户数据隐私和主权的持续侵蚀。Web 3.0,或称 Web3,代表了互联网数据层的根本性重构,提出了一种基于去中心化、用户所有权和可验证信任的新范式。
1.1 定义 Web3 数据层:从平台到协议
Web3 是互联网的下一次迭代,构建在公共区块链和去中心化点对点网络之上。它不仅仅是增量升级,而是一种结构性转变,旨在将互联网的基础从私有平台转移到开放、社区治理的协议。在 Web2 模型中,谷歌和 Meta 等公司提供服务以换取个人数据,这些数据成为它们的主要资产。这种安排使得用户对其自身的数字足迹几乎没有控制权。
Web3 旨在通过创建一个以用户为中心的互联网来瓦解这种模式,在这个互联网中,个人对其数据、数字资产和在线身份拥有直接的所有权和控制权。这通过利用将控制权从中心实体分散到网络参与者手中的技术来实现。核心主张是从用户是产品的网络向用户是所有者的网络转变。这种转变不仅对数据架构,而且对支撑数字世界的经济模型都具有深远的影响。这些新网络中产生的价值旨在分配给贡献给它们的用户、创作者和开发者,通常通过基于代币的经济系统,而不是集中在单一公司实体中。
1.2 Web2 和 Web3 数据哲学的对比
Web2 和 Web3 之间的哲学鸿沟最好通过比较它们数据管理和控制的核心原则来理解。将“租公寓(Web2)与拥有自己的房子(Web3)”进行类比,有效地捕捉了这种区别。在前者中,用户受制于房东的规则和意愿;在后者中,用户拥有主权和控制权。
在 Web2 中,数据驻留在由公司管理的中心化数据库中。这种架构虽然高效,但会产生固有的漏洞。它集中了数据,使其成为数据泄露的高价值目标,并建立了一个可用于审查或去平台化的中心控制点。对这个系统的信任寄托在中间人——平台所有者——手中,他们被期望作为用户数据的负责任的管理者。
相反,Web3 建立在去中心化原则之上。它通过加密所有权将控制权从这些中间人转移到个人用户手中。该系统被设计为“无需信任”,这个术语并非指没有信任,而是指将信任从易犯错误的人类机构转移到透明、可验证和数学强制执行的协议。交互由不可变的代码和数据管理,这些代码和数据已由网络集体验证,从而无需信任第三方来促进交易或正确管理数据。然而,这种新的安全模型将主要攻击面从公司服务器转移到协议层本身,因此需要一类新的安全学科,专注于智能合约审计和形式化验证,以确保底层代码的完整性。
特性 | Web2 范式 | Web3 范式 |
---|---|---|
数据所有权 | 公司所有;用户授予平台许可。 | 用户通过加密密钥拥有和控制。 |
核心架构 | 中心化客户端-服务器模型;数据存储在私有数据库中。 | 去中心化点对点网络和分布式账本(区块链)。 |
信任模型 | 信任中心化中间人(公司、银行)。 | “无需信任”;信任代码、密码学和经济激励。 |
隐私 | 数据是公司资产,通常在未经明确同意的情况下收集。 | 用户控制;通过密码学和用户主权增强隐私。 |
审查制度 | 平台和政府可以审查内容或去平台化用户。 | 抗审查;没有中央机构可以单方面删除数据或用户。 |
经济模型 | 平台数据货币化;广告驱动。 | 基于代币的经济;价值归属于用户、创作者和建设者。 |
1.3 区块链作为基础数据原语的作用
Web3 架构的核心是区块链技术,它作为其基础数据原语和“骨干”。区块链是一个去中心化、分布式且通常是公共的数字账本,它安全地记录跨大量计算机网络的交易。它充当一个数字会计系统,维护“谁拥有什么”的规范记录,并跟踪此记录随时间的所有更改。
其结构由数据“块”组成,这些数据块通过密码学方式“链接”到前一个区块,形成一个不间断且不可变的历史。一旦交易被网络验证并添加到链中,它就不能被更改或删除,提供了前所未有的数据完整性水平。由于这个账本由去中心化网络而不是单个服务器维护和验证,因此它能够抵御单点故障,并由其参与者集体管理,不归任何一个实体所有。这种不可变性、透明性和安全性的结合使区块链成为新的、更值得信赖的数据范式的基本构建块。
1.4 核心原则:无需信任、可验证性和可组合性
Web3 数据模型由其基础技术产生的一系列新兴属性定义。这些原则与 Web2 的封闭、专有系统截然不同。
- 无需信任: 如前所述,Web3 系统旨在无需信任任何单一中间人即可运行。交易和交互由智能合约(编码在区块链上的预定义规则)管理,并在满足条件时自动执行。数据的有效性通过网络共识而不是中央机构的命令来确保。
- 可验证性和透明度: 许多区块链,特别是以太坊等公共区块链,在设计上是开放和透明的。这允许任何参与者访问和验证记录,这种问责制水平与许多 Web2 科技巨头的不透明操作形成鲜明对比。这种公共可验证性是建立对系统本身而不是其操作者的信任的机制。
- 可组合性和互操作性: Web3 的架构本质上是可互操作的。不同的去中心化应用程序(dApps)和区块链平台旨在无缝地相互通信和交互。这种“可组合性”允许开发人员通过组合现有组件来构建新应用程序,就像乐高积木一样。例如,一个新的金融产品可以与现有的去中心化交易所和稳定币协议集成,而无需获得许可。这促进了更快、更协作的创新周期,打破了 Web2 生态系统特有的“围墙花园”。
第二节:去中心化数据栈的基础技术
要理解 Web3 数据库的功能,必须解构支撑去中心化数据栈的核心技术组件。这些技术协同工作,每个都服务于一个独特的目的,以创建用于数据管理和应用程序逻辑的健壮且安全的环境。该架构本质上是分层的,这种设计选择提供了强大的功能和灵活性,但也给开发人员和架构师带来了显著的复杂性。
2.1 分布式账本:作为状态机的区块链剖析
区块链本质上是一个复制的状态机。它可以被理解为一个分布式数据库或一个数字会计系统,旨在维护网络中“谁拥有什么”的规范记录。其主要功能是处理导致系统状态变化的交易。例如,一笔交易可能会将数字资产的所有权从一个用户转移到另外有一个用户,从而更新账本的状态。
账本本身由按时间顺序排列的块链组成。每个块包含一批已由网络参与者(节点)验证的交易。这些块使用加密哈希链接在一起;每个块都包含前一个块的哈希,形成一个不间断且防篡改的链,一直追溯到第一个“创世”块。这种结构确保了不可变性:要更改过去块中的交易,攻击者需要重新计算该块和所有后续块的哈希,这在足够大的网络上是计算上不可行的任务。区块链的全局状态是执行每个块中每笔交易的累积结果,网络中的所有节点通过共识机制独立验证并同意此状态。
2.2 密码学和数字签名:身份和完整性的基石
密码学是 Web3 中提供安全性和真实性的数学基础。特别是公钥密码学,是所有权和身份概念的核心。每个用户都拥有一对密钥:一个公钥,作为他们在网络上的地址,可以自由共享;一个私钥,必须保密。
私钥用于为交易创建数字签名。此签名有两个目的:它证明私钥所有者授权了交易(身份验证),并确保交易在传输过程中未被更改(完整性)。这种机制构成了 Web3 中自由主权身份的基础。对私钥的控制等同于对相关资产和身份的控制,消除了对由中立提供商管理的传统用户名和密码系统的需求。加密哈希也广泛用于确保数据完整性。哈希函数接受任何大小的输入并生成固定大小的唯一输出(“哈希”或“摘要”)。即使输入数据发生微小变化,也会导致完全不同的哈希,使其成为验证数据未被篡改的有效工具。
2.3 智能合约:可编程逻辑和状态转换
智能合约是 Web3 的计算引擎。它们是自执行程序,其协议条款直接写入代码并存储在区块链上。当满足特定的预定条件时,这些合约会自动执行并强制执行其编码规则。例如,一个去中心化市场的智能合约可以被编程为,一旦收到买方的正确付款,就自动将物品所有权转移给买方。
通过将业务逻辑直接编码到协议中,智能合约可以自动化复杂的流程,并消除对律师、经纪人或银行等传统中间人的需求。由于此逻辑在“链上”执行——即在区块链本身上执行——它继承了区块链的不可变性和透明性属性。一旦部署,智能合约的代码通常是不可更改的,其执行可由网络中的任何参与者验证,使其高度抵抗操纵或审查。它们是开发人员构建 dApp 并定义区块链上状态转换规则的主要机制。
2.4 点对点 (P2P) 网络:通信和复制层
支撑整个 Web3 栈的是点对点 (P2P) 网络层。与 Web2 的中心化客户端-服务器模型不同,在 Web2 中所有客户端都连接到中央服务器,P2P 网络由互连节点的分布式网络组成,这些节点直接相互通信。该层负责在整个网络中传播交易和块,允许节点共享数据、保持同步,并集体就账本状态达成共识,而无需依赖中央协调器。像 libp2p 这样的协议(被 IPFS 和 Filecoin 等项目使用)提供了一个模块化框架来构建这些 P2P 网络,处理节点发现、数据路由和安全通信。这种去中心化的通信和复制层使整个系统具有弹性并抗审查。
2.5 内容寻址与位置寻址
Web3 栈中一个关键且经常被忽视的技术创新是从位置寻址到内容寻址的数据检索转变。传统网络 (Web2) 建立在位置寻址之上。统一资源定位符 (URL) 指向存储内容特定服务器上的特定位置。如果该服务器宕机,或者内容被移动或删除,链接就会断开。这种模型使数据脆弱,并将控制权集中在服务器所有者手中。
Web3 系统,特别是像星际文件系统 (IPFS) 这样的去中心化存储网络,利用内容寻址。在这种模型中,内容的标识不是通过其位置,而是通过内容本身的唯一加密哈希。这个哈 ,称为内容标识符 (CID),作为数据的永久且可验证的地址。要检索内容,用户通过其 CID 请求它,P2P 网络会找到存储该内容的任何节点并将其提供给用户。这种方法具有几个深远的优势:
- 可验证性: 由于地址是内容的哈希,用户可以通过哈希它并将其与请求的 CID 进行比较,立即验证接收到数据的完整性。
- 弹性与抗审查: 内容与原始服务器分离。只要全球网络中至少有一个节点托管该文件,它就仍然可访问。这使得任何单一实体都极难审查或删除数据。
- 效率: 如果本地网络中的多个用户请求相同的热门内容,它可以从附近的对等点提供,而无需多次从遥远的服务器获取,从而节省带宽。
这种从数据“在哪里”到数据“是什么”的转变代表了互联网上信息结构和访问方式的根本性变化。然而,区块链账本和内容寻址存储中固有的不可变性带来了重大挑战。这一特性虽然是核心安全优势,但与现代数据管理实践和隐私法规根本上是矛盾的。例如,GDPR 等法规强制要求的“被遗忘权”在数据永久记录时技术上难以实现。这种张力是迫使架构师采用特定设计模式的主要驱动力,其中最主要的是最小化链上数据存 ,这直接导致了主导 Web3 格局的混合架构。
第三节:混合架构 - 平衡不可变性、成本和性能
虽然 Web3 的基础技术提供了强大的安全和去中心化保证,但它们也引入了显著的实际限制。对于绝大多数用例而言,将所有应用程序数据直接存储在区块链上在技术和经济上都是不可能的。为了应对这些限制,一种主导的架构模式已经出现:混合模型。这种方法战略性地结合了链上和链下组件,以创建可扩展、高性能且经济高效的去中心化应用程序,利用每个环境的独特优势。这种设计模式不是不成熟技术的临时解决方案,而是构建可行 dApp 的基本且持久的架构选择。
3.1 纯链上存储的不可行性:成本和可扩展性约束分析
将数据直接存储在以太坊等公共区块链上异常昂贵且缓慢。区块链并未针对批量数据存储进行优化;它们针对安全交易处理和全球状态共识进行了优化。写入区块链的每一条数据都必须由网络中的每个节点处理、验证和存储,这会产生计算和存储成本,并以交易费用(或“gas”)的形式转嫁给用户。
即使存储几千字节数据的成本也可能很高,这使得处理用户生成内容、图像、视频或大型数据集的应用程序完全不可行。此外,区块链对每个块中可以包含的数据量以及新块的生成速率有严格限制。这导致与中心化数据库相比,交易吞吐量 (TPS) 非常低,从而造成瓶颈,可能导致网络拥塞和在需求高峰期更高的费用。这些固有的可扩展性和成本限制是需要混合方法的主要驱动力。
3.2 链上存储:任务关键型数据的用例
尽管链上环境在批量存储方面存在局限性,但对于需要最高级别安全性、不可变性和可验证性的数据来说,它是不可或缺的。适合链上存储的数据类型通常很小,不经常更改,并且代表应用程序的核心状态或逻辑。
常见用例包括:
- 所有权记录: 记录数字资产的所有权,例如代币余额(加密货币)和不可替代代币(NFT)。
- 核心业务逻辑: 定义应用程序规则的智能合约代码,例如借贷协议或去中心化交易所的逻辑。
- 访问控制规则: 管理谁可以在智能合约中执行某些操作的权限和角色。
- 加密证明: 存储较大的链下数据的微小、独特的指纹(哈希),以提供其完整性的 验证锚点。
3.3 链下存储:利用分布式文件系统实现可扩展数据管理
应用程序的大部分数据——用户配置文件、图像、视频、文档和其他大文件——都在链下管理。虽然 dApp 可以为此目的使用传统的中心化服务器(例如 AWS S3),但这样做会重新引入单点故障和审查制度,从而破坏 Web3 的核心原则。这种架构张力为去中心化链下服务创造了明确的市场需求。
像 IPFS、Arweave 和 Filecoin 这样的去中心化存储网络 (DSN) 已经出现来填补这一角色。这些系统专门设计用于经济高效、弹性且可扩展的数据存储。它们将数据分布在点对点节点网络中,确保数据保持可用且抗审查,而无需依赖中央提供商。这使得 dApp 能够获得链下存储的可扩展性优势,同时保留 Web3 去中心化的精神。
3.4 桥梁:在链上存储加密证明以确保链下数据完整性
混合模型的核心机制是链上和链下世界之间的加密链接。这座桥梁为链下数据提供了防篡改证据,而无需承担在链上存储数据本身的高成本。
该过程如下:
- 一个大型数据文件(例如,NFT 的图像)存储在 IPFS 等链下 DSN 中。
- 生成该文件的唯一加密哈希(例如,SHA-256 哈希或 IPFS CID)。此哈希是一个小的、固定大小的字符串,作为数据的可验证“指纹”。
- 然后将这个小哈希存储在链上,通常作为智能合约中的一个字段(例如,NFT 的合约,它将存储相关图像的哈希)。
为了验证链下数据的完整性,任何用户或应用程序都可以从 DSN 检索文件,重新计算其哈希,并将其与存储在区块链上的不可变哈希进行比较。如果两个哈希匹配,则数据是真实的且未被更改。如果它们不匹配,则立即表明链下数据已被篡改。这种优雅的解决方案为数据完整性提供了区块链的安全保证,同时利用了链下存储的成本效益和可扩展性。
标准 | 链上存储 | 链下存储(去中心化) |
---|---|---|
成本 | 非常高;按字节和计算步骤(gas 费)定价。 | 低;市场驱动且针对批量存储进行了优化。 |
速度/性能 | 慢;受限于块时间和网络共识。 | 快;专为高吞吐量数据检索而设计。 |
可扩展性 | 非常低;受限于块大小和网络吞吐量。 | 高;可扩展到全球网络中的 PB 级数据。 |
不可变性/安全性 | 极高;数据永久记录并由网络共识保护。 | 通过链上锚定的加密证明实现高完整性;数据防篡改。 |
隐私 | 默认公 ;所有数据在账本上都是透明的。 | 可以支持私有/加密数据;用户控制访问密钥。 |
数据可变性 | 不可变;数据一旦确认就不能更改或删除。 | 可变;数据可以更新或删除,更改通过新的链上证明进行跟踪。 |
理想用例 | 所有权记录 (NFT)、金融账本、智能合约逻辑、加密哈希。 | 大文件(图像、视频)、用户生成内容、应用程序数据、文档。 |
3.5 预言机在连接链上和链下世界中的作用
虽然基于哈希的桥梁确保了静态链下数据的完整性,但许多应用程序需要与链下世界进行动态交互。智能合约在设计上与外部系统隔离,以确保其执行是确定性的。它们无法原生访问来自 API、遗留系统或其他区块链的真实世界数据。这被称为“预言机问题”。
区块链预言机是解决此问题的中间件,充当数据和计算的安全双向桥梁。去中心化预言机网络 (DON),例如 Chainlink,由独立节点网络组成,这些节点获取外部数据(例如,金融市场价格、天气数据),聚合以确保准确性,并可靠地将其交付给链上智能合约。它们还可以用于根据链上事件触发链下计算或操作。这种能力使得创建“混合智能合约”成为可能,这些合约结合 链上代码的防篡改执行与链下世界的庞大数据资源和计算能力,构成了高级 dApp 的关键基础设施。
第四节:Web3 存储和数据库解决方案的比较分析
Web3 数据生态系统并非单一。它包含一个多样化且不断发展的协议和平台景观,每个都具有独特的架构、经济模型和设计权衡。这个景观正在迅速成熟并分化为两个主要类别。第一个是基础的去中心化存储网络 (DSN),它提供了一个用于存储原始、非结构化数据的原始层,类似于 Web2 栈中的对象存储(如 Amazon S3)。第二个类别是更高级别的去中心化数据库,它们在这些存储原语之上构建或并行运行,以提供结构化数据模型、查询语言和对开发人员友好的抽象,类似于 Google Firestore 或 MongoDB 等服务。理解这些解决方案的细微差别对于架构师选择适合其去中心化应用程序的工具至关重要。
4.1 去中心化存储网络 (DSN):批量数据的基础
DSN 是混合架构的主力,旨在处理大量无法在链上存储的数据。它们提供数据栈的“链下”组件,专注于文件和数据对象的弹性、抗审查和经济高效的存储。
4.1.1 Filecoin (FIL):激励型存储市场
- 架构: Filecoin 是一个去中心化存储网络,构建在星际文件系统 (IPFS) 之上,作为激励层。虽然 IPFS 提供了内容寻址 P2P 文件共享协议,但它缺乏原生激励机制来保证节点会随着时间的推移继续存储数据。Filecoin 通过创建一个竞争性、开放的市场来解决这个问题,用户以 FIL 代币支付存储提供商(矿工)以在指定期限内存储他们的数据。
- 共识/证明机制: Filecoin 的完整性由两个新颖的加密证明维护。复制证明 (PoRep) 要求矿工证明他们已存储了客户端数据的物理唯一副本。这可以防止矿工通过将相同的磁盘空间分配给多个客户端来作弊。时空证明 (PoSt) 是一种机制,矿工必须通过该机制持续证明他们在整个存储合同期间仍在存储数据。网络随机挑战矿工,矿工必须提供有效证明才能继续获得奖励。
- 经济模型: 该模型是市场驱动且灵活的,类似于传统的租赁安排。用户和存储提供商根据价格、持续时间和冗余协商存储“交易”。这种按需付费模型允许动态存储需求,数据可以更新、续订或允许过期。
- 用例: Filecoin 非常适合需要可扩展、经济高效的存储,用于大型数据集,其中永久性不是严格要求,并且数据可能需要修改或删除的应用程序。 包括 dApp 前端、用户生成内容和去中心化计算的数据集。
4.1.2 Arweave (AR):永久、不可变的网络(“永存网”)
- 架构: Arweave 采取了根本不同的方法,旨在提供永久、不可变的数据存储。其核心创新是“块编织 (blockweave)”,这是一种修改了传统区块链概念的数据结构。在块编织中,每个新块不仅链接到紧邻的前一个块,还链接到从网络过去随机选择的历史块(“召回块”)。这种结构极大地激励矿工存储尽可能多的网络历史,因为访问更多历史块会增加他们挖掘下一个块的机会。
- 共识/证明机制: 共识机制是访问证明 (PoA)。要挖掘新块,矿工必须证明他们有权访问网络协议选择的特定召回块。这直接将挖矿奖励与数据存储联系起来,确保整个数据集在网络中的长期复制和可用性。
- 经济模型: Arweave 的经济模型旨在实现永久性。用户支付一次性预付费用即可永久存储数据。这笔费用的一部分用于支付矿工的初始存储费用,其余部分则存入存储“捐赠基金”。该捐赠基金旨在随着时间的推移产生收益,随着物理存储成本的降低,无限期地覆盖存储成本。
- 用例: Arweave 专为必须不可变且永久保存的 据而构建。这使其成为存档历史记录、法律文件、学术研究以及最值得注意的是 NFT 的元数据和资产的首选,确保它们不会随着时间的推移而消失。
4.2 去中心化数据库:向上层移动到结构化数据
虽然 DSN 擅长存储文件,但大多数应用程序需要具有索引、查询和访问控制等功能的结构化数据库。新一代去中心化数据库正在涌现,以提供这些功能,通常侧重于弥合 Web2 和 Web3 之间显著的用户体验 (UX) 和开发人员体验 (DX) 差距。
4.2.1 WeaveDB:Arweave 上的 NoSQL“Firestore”
- 架构: WeaveDB 将自己定位为去中心化 NoSQL 数据库,类似于 Google 的 Firestore,但基于 Web3 原则构建。其核心架构是使用 Warp Contracts(高性能 SmartWeave 实现)在 Arweave 网络上实现的智能合约数据库。它采用混合模型,模拟现代日志结构合并 (LSM) 存储引擎。写入永久存储在 Arweave 上,而链下节点(副本)和网关提供用于缓存和查询处理的快速层,从而实现 10-200 毫秒的响应时间。
- 主要功能: WeaveDB 的主要目标是提供类似 Web2 的开发人员体验。它提供灵活的 JSON 文档数据模型、跨链身份验证(EVM、DFINITY、Arweave)和模仿 Firestore 的去中心化 API。其 具创新性的方面是新颖的原语,例如 FPJSON,它允许开发人员使用 JSON 格式的函数式编程定义复杂的访问控制规则,而无需编写自定义智能合约,以及 zkJSON,它可以使用零知识证明实现可验证的、保护隐私的查询。
- 定位: WeaveDB 定位为吸引寻求构建复杂、全栈 dApp 的开发人员,这些 dApp 需要去中心化后端的永久性和可验证性以及现代云数据库的性能和可用性。
4.2.2 IceFireDB:Web2 和 Web3 之间的桥梁
- 架构: IceFireDB 是一个多模型数据库,明确设计用于“填补 Web2 和 Web3 之间的空白”。它具有复杂的分层架构。为了在单个站点或可用区内保持一致性,它可以使用 Raft 共识算法。为了在地理上分布的站点之间进行去中心化同步,它采用基于 libp2p 构建的 P2P 网络。
- 主要功能: 其突出特点是其多协议支持,提供与 SQL(通过 MySQL 代理)和 RESP 协议(用于 Redis 兼容性)的兼容性。这使得具有现有 Web2 专业知识的开发人员可以更轻松地集成去中心化功能。它使用无冲突复制数据类型 (CRDT) 和仅追加日志结构 (IPFS-Log) 来管理来自不同节点的并发更新,并确保去中心化网络中的最终一致性。它还提供了一个灵活的存储层,可以使用传统磁盘存储、云对象存储 (OSS) 或 IPFS 等去中心化存储作为其后端。
- 定位: IceFireDB 充当一个多功能数据库和中间件层,使传统应用程序能够实现去中心化和数据不可变性,而无需进行完整的架构改造。它是一个务实的“Web2.5”解决方案,适用于希望逐步采用 Web3 技术的企业和开发人员。
4.2.3 Verida Network:用于私有、自 主权数据的 DePIN
- 架构: Verida 最好不要理解为单个数据库,而是作为用于私有数据的零层去中心化物理基础设施网络 (DePIN)。它促进了一个由用户操作的存储节点网络,这些节点提供加密的私有数据库存储。用户在个人“数据保险库”中控制自己的数据,并直接向节点运营商支付存储服务费用。
- 主要功能:: Verida 的架构专为私有、敏感数据而构建。它强调客户端加密,确保只有用户持有其数据的密钥。与为公共、静态文件设计的 DSN 不同,Verida 针对具有实时数据同步的高性能数据库操作进行了优化。其最显著的区别在于机密计算环境,它允许个人 AI 应用程序处理用户的加密数据,而无需向 AI 模型所有者或节点运营商暴露原始数据。
- 定位: Verida 独特地 位在 Web3、自 主权身份和人工智能的交汇处。它为新一代个人 AI 代理提供了关键基础设施,这些代理可以安全地利用用户拥有的数据来提供个性化服务,解决了新兴 AI 领域中的主要隐私挑战。
4.2.4 OrbitDB:最终一致的 P2P 数据库
- 架构: OrbitDB 是一个无服务器、分布式、点对点数据库,直接构建在 IPFS 之上。它不是区块链。它使用 IPFS 作为底层数据存储,并使用 libp2p Pubsub 协议自动广播更新并在连接的对等点之间同步数据库状态。一个 OrbitDB“数据库”本质上是一个日志条目的有向无环图 (DAG),其中每个条目都是一个包含数据和指向先前条目的指针的 IPFS 对象。
- 主要功能: OrbitDB 功能的核心在于其使用 Merkle-CRDTs。这种数据结构允许不同对等点在没有协调的情况下进行并发、独立的更新。CRDTs 提供了一种数学上可靠的方式来合并这些更新,确保所有对等点最终会收敛到相同的状态(最终一致性)。它支持各种数据模型,包括仅追加日志、提要、键值存储和文档存储。
- 定位: OrbitDB 是完全去中心化、离线优先和本地优先应用程序的绝佳选择,其中最终一致性是可接受的权衡。它使开发人员能够构 无需持续互联网连接或依赖任何中央服务器即可运行的应用程序,使其成为 P2P 消息应用程序、协作文档以及不需要全局有序、规范账本(即区块链)的其他应用程序的理想选择。
平台 | 核心架构 | 共识/证明机制 | 数据模型 | 成本结构 | 一致性模型 | 主要用例 |
---|---|---|---|---|---|---|
Filecoin | IPFS 上的去中心化存储市场。 | 复制证明 (PoRep) 和时空证明 (PoSt)。 | 非结构化文件/Blob。 | 按需付费,市场驱动的租赁模型。 | 不适用(存储完整性)。 | 可扩展、临时或可变数据存储;dApp 资产。 |
Arweave | 具有永久数据存储捐赠的“块编织”。 | 访问证明 (PoA)。 | 非结构化文件/Blob。 | 一次性预付费用用于永久存储。 | 不适用(永久存储)。 | 存档、永久数据;NFT 元数据、历史记录。 |
WeaveDB | Arweave 上的智能合约数据库;具有链下副本的混合 LSM 引擎。 | Arweave PoA 用于持久性;链下验证用于查询。 | NoSQL (JSON 文档)。 | Arweave 写入费用(可补贴);副本查询费用。 | 强(在 Arweave 上);最终(副本)。 | 需要高性能和类似 Web2 DX 的复杂、全栈 dApp。 |
IceFireDB | 具有 Raft(本地)和 P2P/CRDTs(全局)的分层架构。 | Raft(站点内);基于 CRDT 的复制(站点间)。 | 多模型(SQL、NoSQL/Redis)。 | 基础设施相关(自托管或基于提供商)。 | 强(在 Raft 集群内);最终(跨 P2P 网络)。 | 连接 Web2 和 Web3;为现有应用程序实现去中心化。 |
Verida | 用户拥有的私有数据保险库的 DePIN,具有机密计算。 | 不适用(独立节点网络)。 | 加密文档数据库 (NoSQL)。 | 用户为网络上的存储付费。 | 强(在用户的数据保险库内)。 | 私有、自 主权数据管理;个人 AI 应用程序。 |
OrbitDB | IPFS 上的无服务器 P2P 数据库,使用 Pubsub 进行同步。 | 不适用(基于 CRDT 的合并)。 | 多模型(日志、提要、键值、文档)。 | IPFS 存储成本(用户运行节点)。 | 最终一致性。 | 离线优先、本地优先、P2P 应用程序;协作工具。 |
第五节:索引和查询层 - 使去中心化数据可访问
去中心化存储数据,无论是在区块链还是 DSN 上,都解决了所有权、永久性和抗审查性问题。然而,它也带来了新的重大挑战:数据可访问性。这些系统的原始数据结构并未针对现代应用程序所需的复杂、高性能查询进行优化。这催生了 Web3 栈中一个关键的中间件层,专门用于索引和查询,它将原始的、难以访问的区块链数据转换为可用且高性能的资源。
5.1 直接查询区块链数据的挑战
直接从区块链节点读取数据是一个众所周知的困难且低效的过程。区块链本质上是写入优化、仅追加的日志。其架构旨在就新交易的有效性和顺序达成全球共识,而不是高效地服务复杂的读取查询。要构建 dApp 前端——例如,显示用户的交易历史或特定 NFT 集合的持有者——开发人员需要:
- 从链的开头处理每个块。
- 监听并解码特定的智能合约事件。
- 可能从 IPFS 等外部源获取额外的元数据。
- 手动聚合并将此数据转换为所需的格式。
这个过程计算密集、缓慢,并且需要复杂的自定义基础设施,从而造成主要的性能瓶颈和构建响应式用户界面的重大障碍。这个问题揭示了一个基本的架构真理:原始区块链不是传统意义上的数据库,而是一个写入优化、全局有序的交易日志。因此,一个单独的、读取优化层是构建可用应用程序的不可协商的要求。
5.2 The Graph 协议 (GRT):去中心化索引协议
The Graph 协议已成为解决此问题的实际解决方案,将自己确立为 Web3 基础设施的重要组成部分。它充当用于索引和查询区块链和存储网络数据的去中心化协议。本质上,它充当一个去中心化查询层,通常被比喻为“区块链的谷歌”,使链上数据可供 dApp 和开发人员随时访问。通过将区块链数据索引为更具性能、可查询的格式,The Graph 解决了数据可访问性问题,而无需重新引入中心化故障点。
5.3 The Graph 的架构:子图、索引器、策展人和委托人
The Graph 的强大功能来自于其去中心化的参与者网络,这些参与者通过协议的原生实用代币 GRT 获得经济激励,以集体提供数据索引和查询服务。这种架构将区块链上被动、难以查询的数据转换为活跃的双边市场。
- 子图: The Graph 的核心是“子图”,一个开放 API,它定义了要从区块链中提取哪些数据以及如何构造和存储数据以进行高效查询。开发人员创建子图清单,这是一个配置文件,指定要监视的智能合约、要监听的这些合约中的事件以及将该事件数据转换为结构化模式的映射逻辑。
- 网络角色: 该协议通过一组不同的角色协调独立服务提供商的市场:
- 索引器: 这些是网络的节点运营商。他们质押 GRT 作为抵押品,以提供索引和查询处理服务。索引器根据策展人的信号选择要索引的子图,处理数据,并向消费者提供查询以换取查询费用。
- 策展人: 策展人是数据消费者、子图开发人员或其他社区成员,他们识别并发出哪些子图是高质量和有价值的信号。他们在一个特定的子图上质押 GRT,以向索引器表明其重要性,并从中获得该子图的部分查询费用。他们有效地充当网络的质量控制和发现机制。
- 委托人: 这些是希望为网络安全做出贡献但不想自己运行索引器节点的个人。他们将 GRT 质押委托给现有索引器,并获得该索引器捕获的部分查询费用和奖励,而无需管理技术基础设施。
- 消费者: 这些是网络的最终用户,通常是 dApp 或开发人员,他们向索引器支付查询费用以检索其应用程序所需的特定区块链数据。
这种经济模型创建了一个去中心化且无需许可的数据市场,摆脱了 Web2 中常见的中心化基础设施即服务 (IaaS) 模型,转向了一个通过代币激励协调服务提供的基于协议的系统。
5.4 GraphQL 在灵活高效数据检索中的应用
The Graph 使用 GraphQL 作为 查询语言,这一选择为 dApp 开发人员提供了显著优势。与传统的 REST API 不同,传统的 REST API 通常需要对不同端点进行多次请求才能收集单个视图所需的所有数据,GraphQL 允许开发人员在单个声明性查询中指定他们所需数据的确切形状。然后服务器返回一个与该形状精确匹配的 JSON 对象。这消除了过度获取(接收比所需更多的数据)和不足获取(必须发出额外请求)的问题,从而实现高效的数据检索、减少带宽使用,并为构建复杂前端提供更简单的开发体验。
第六节:应用、挑战和未来轨迹
Web3 数据库和存储系统的演进为去中心化应用程序开辟了新的设计空间。然而,主流采用之路充满了重大的技术、可用性和监管挑战。本报告的最后一节通过审视关键应用领域、分析生态系统必须克服的持续障碍,并预测可能定义下一代去中心化数据栈的未来轨迹来综合报告的发现。
6.1 关键应用领域
本报告中讨论的架构模式和平台并非理论性的;它们正在积极部署,为各个领域不断增长的 dApp 生态系统提供支持。
- 去中心化金融 (DeFi): 这仍然是 Web3 最成熟的应用领域。用于借贷、借款和交易的 DeFi 平台依赖于区块 账本的透明和可审计性质来管理金融交易,而无需传统中间人。像 The Graph 这样的索引协议对于提供为 DeFi 仪表板和分析提供支持的实时市场数据至关重要。
- 去中心化自治组织 (DAO): DAOs 使用区块链和智能合约来创建社区治理的组织。链上存储用于不可变地记录治理提案、投票记录和资金管理,确保透明和可验证的决策过程。
- 创作者经济和 NFT: 不可替代代币 (NFT) 的爆发凸显了永久、去中心化存储的重要性。将 NFT 元数据和相关数字资产(例如图像或视频)存储在 Arweave 等 DSN 上,可确保资产不会被中央方更改或删除,从而保护所有者免受“拉地毯”骗局的影响,即底层资产消失,导致代币一文不值。
- 去中心化社交媒体: Web3 数据库支持创建社交媒体平台,用户真正拥有其内容、数据和社交图谱。通过将这些数据存储在用户控制的保险库或去中心化网络上,这些平台可以实现抗审查,并摆脱单一公司的控制。
- 游戏: 基于区块链的游戏正在开创“边玩边赚”模式,其中游戏内资产(例如角色、物品和虚拟土地)以玩家拥有的 NFT 形式表示。这促进了真正的所有权,并允许开放的、玩家驱动的经济,其中资产可以自由交易在二级市场上。
6.2 持续挑战:大规模采用之路
尽管前景广阔,但 Web3 生态系统面临着严峻的挑战,这些挑战目前阻碍了其广泛采用。主要障碍不是技术可能性不足,而是糟糕的用户体验和源于技术固有权衡的负面性能外部性的结合。
- 区块链三难困境: 这是区块链设计中的基本挑战,它认为很难创建一个同时实现最佳去中心化、安全和可扩展性的系统。大多数协议被迫做出妥协,例如,牺牲一些去中心化以实现更高的交易吞吐量。这个三难困境是许多其他挑战的根本原因。
- 可扩展性和性能瓶颈: 以太坊等公共区块链的交易吞吐量(12-30 TPS)与 Visa 等中心化支付系统(超过 24,000 TPS)相比非常低。这种限制导致网络拥塞、确认时间长以及在需求高峰期交易费用波动且通常高得令人望而却步。区块链数据不断增长的大小也带来了挑战,一个完整的以太坊归档节点需要数十 TB 的存储空间,这使得普通用户难以运行自己的节点并威胁到去中心化。
- 用户体验 (UX) 障碍: 对于非技术用户来说,Web3 体验通常繁琐且令人生畏。安全管理私钥、设置和资助加密钱包以及理解 gas 费概念的需求 成了陡峭的学习曲线和显著的摩擦点,阻碍了主流采用。
- 数据隐私: 大多数公共区块链默认透明的性质是涉及敏感个人或商业数据的应用程序的一个主要问题。虽然这种透明度是审计和验证的一个特性,但它对隐私来说是一个缺陷。
- 监管不确定性: 数字资产、DAO 和去中心化数据的法律和监管环境仍处于萌芽阶段,并且在不同司法管辖区之间差异很大。这种模糊性给希望在 Web3 技术上构建的开发人员、投资者和企业带来了风险和不确定性。
6.3 未来趋势和轨迹
Web3 数据生态系统正在迅速发展以应对这些挑战。未来可能由模块化和互操作性定义,开发人员将从各种专业化、相互连接的协议中组合他们的数据栈,而不是依赖单一的、赢家通吃的解决方案。
- 与 AI 的融合: 对可信赖和私有数据以训练和与 AI 模型交互的需求是创新的强大催化剂。提供机密计算环境并允许用户安全地利用其个人数据与 AI 代理的解决方案,例如 Verida Network,有望成为关键的基础设施层。
- 零知识证明 (ZKPs): ZKPs 是一种变革性的加密技术,将在 Web3 的未来中发挥核心作用。它们允许一方在不透露任何超出声明本身有效性的 息的情况下向另一方证明声明是真实的。这对隐私(在不透露身份属性的情况下验证身份属性)和可扩展性(zk-Rollups 捆绑数千个链下交易并生成可在链上验证的单个证明)都具有深远的影响,解决了生态系统最大的两个挑战。
- 专注于互操作性: 随着格局多样化为众多 Layer 1 区块链、Layer 2 扩展解决方案和应用链,对健壮的跨链通信协议的需求将变得至关重要。Web3 的未来取决于数据、资产和状态在这些不同生态系统之间无缝安全移动的能力,从而创建一个真正互联的“区块链互联网”。
- 抽象化和改进的开发人员工具: 一个持续且关键的趋势是抽象化 Web3 栈底层复杂性的驱动力。像 WeaveDB 和 IceFireDB 这样提供熟悉的类似 Web2 数据库接口和协议的项目,体现这一运动。长期目标是为开发人员提供强大、直观的工具,使他们能够利用去中心化的优势,而无需成为密码学或分布式系统专家,最终使 Web3 用户体验与 Web2 的无缝性无法区分。