Hotdry.
systems

从 DOJ 裁决看垂直搜索索引架构设计:数据新鲜度与工程权衡

分析 Google 反垄断裁决背后的搜索索引工程现实,解读爬虫架构、数据新鲜度策略与垂直搜索场景的设计权衡。

当美国司法部在 2024 年 8 月裁定 Google 违反《谢尔曼法案》第二章时,外界的讨论大多集中在市场份额和商业竞争上。但对于系统工程师而言,这个裁决揭示了一个更深层的结构性问题:Web 索引作为数字时代的关键基础设施,其访问权被一家公司垄断了将近二十年。Kagi 联合创始人 Vladimir Prelovac 在 2026 年 1 月的博客中详细披露了他们试图获取 Google 和 Bing 索引授权的努力,以及最终失败的全过程。这篇文章将从工程视角出发,剖析构建一个具有竞争力的搜索索引需要面对的技术挑战、数据新鲜度策略,以及 DOJ 裁决为行业带来的潜在变化。

为什么搜索索引是不可复制的基础设施

在所有互联网服务中,搜索索引的构建门槛是独一无二的。与云计算或社交网络不同,搜索索引的价值高度依赖于覆盖广度、更新频率和相关性算法的持续优化。Google 在 2025 年第四季度占据全球搜索市场 90.06% 的份额,这不是因为它的品牌营销做得更好,而是因为它的索引在过去二十五年年里积累了难以撼动的工程优势。微软在 1998 年推出 MSN 搜索,后将其更名为 Bing,在随后的二十多年里累计投入了近 100 亿美元,却仍然只能在美国市场守住 9% 的份额。这个数字本身就是对搜索索引壁垒的最佳注脚:即使是拥有全球最大软件公司之一财务资源的玩家,也无法在合理时间内缩小与 Google 的差距。

从工程角度来看,搜索索引的护城河由三个相互交织的维度构成。第一是规模维度,一个全面的索引需要覆盖数十亿个独立 URL,每个 URL 的内容、修改时间、反向链接关系都需要被记录和更新。第二是时间维度,索引不是一次性构建的静态数据库,而是需要持续爬取、解析、增量更新的动态系统,这意味着过去二十年里每一天的抓取历史都构成了竞争优势的一部分。第三是质量维度,包含页面权威性计算、垃圾内容识别、语言理解和领域适配等算法层的工作,这些都需要在海量数据上进行迭代和验证。当这三个维度叠加在一起时,后来者面临的不是「能否做到」的问题,而是「需要多长时间、多少资源才能接近」的问题。

理解这些壁垒对于评估 DOJ 裁决的工程意义至关重要。裁决要求 Google 向「合格竞争者」提供索引数据访问,定价不得高于边际成本,且不能强制捆绑广告系统。如果这些条款能够真正落地,它改变的不仅是商业授权模式,更是整个搜索技术栈的准入门槛。但在此之前,我们需要先理解一个完整的搜索索引系统究竟由哪些工程组件构成,以及每个组件的关键设计决策是什么。

爬虫系统架构:从 URL 边界到内容解析

构建一个搜索索引的第一步是建立可靠的爬虫系统,也就是 Web Crawler。在系统设计面试中,爬虫是一个经典题目,但当它从理论走向生产环境时,复杂度会呈指数级上升。一个工业级爬虫的核心架构由五个主要组件构成:URL 边界(URL Frontier)、抓取器(Fetcher)、解析器(Parser)、存储系统(Storage)和索引器(Indexer)。每个组件都有其独特的设计权衡和工程挑战,理解这些细节是评估搜索索引可行性的基础。

URL 边界是整个爬虫系统的调度中枢,它决定了接下来应该抓取哪个页面、以什么顺序、抓取频率如何。在 Kagi 的技术博客中,他们提到自己维护着一个「Small Web Index」,这个索引专注于高质量内容源,而不是试图覆盖整个开放 Web。这种策略选择反映了一个重要的工程原则:在资源有限的情况下,与其追求广度而牺牲质量,不如在一个有限的范围内做到极致。URL 边界通常采用优先级队列实现,优先级的计算因素包括页面历史更新频率、来自高权威站点的链接数量、以及与目标查询主题的相关性预估。对于新闻网站等高频更新源,系统需要更频繁地将其放入抓取队列;而对于静态内容占比高的站点,则可以延长重新抓取的间隔。

抓取器负责实际的网络请求,它需要在遵守 robots.txt 协议、尊重站点速率限制的前提下,尽可能高效地下载页面内容。这里的「礼貌性」(Politeness)是工程实现的重点之一。如果爬虫对某个域名发起过高频率的请求,不仅可能被目标站点封禁,还会影响该站点的正常用户访问。常见的解决方案包括域级请求队列、请求间隔控制、以及基于站点反馈的动态速率调整。在 2025 年 12 月 Google 对 SerpApi 提起诉讼的背景下,如何在法律和道德边界内获取大规模网页数据,成为搜索领域一个日益敏感的话题。Kagi 在博客中提到,他们目前使用的第三方 API 提供商包括 Nvidia、Adobe、Stanford、DeepMind 等机构,这一事实表明即使是拥有强大技术资源的组织,也不得不依赖灰色地带的解决方案来获取搜索结果数据。

解析器将原始 HTML 转换为结构化数据,提取文本内容、元数据(标题、描述、关键词)、以及页面中的超链接。解析环节的工程挑战主要来自两个方面:一是 HTML 的不规范性和兼容性处理,实际抓取的大量页面存在语法错误、缺失标签或编码问题,解析器需要足够鲁棒以处理这些异常情况;二是动态内容处理,现代网页大量使用 JavaScript 渲染,传统的 HTTP GET 请求只能获取初始 HTML 而无法执行脚本,这意味着爬虫可能需要集成无头浏览器(如 Chromium)来执行 JavaScript,但这会显著增加计算成本和系统复杂度。Kagi 在其 Small Web Index 中采用了一个务实策略:优先索引那些能够可靠获取静态内容的源,而不是试图解决所有动态页面的抓取问题。

数据新鲜度策略:平衡覆盖广度与更新成本

对于任何搜索索引而言,数据新鲜度都是一个核心质量指标。用户期望搜索结果能够反映当前 Web 的真实状态,尤其是对于新闻、事件、股价、天气等时效性强的查询。但保持高新鲜度需要付出巨大的工程和计算成本,这迫使系统在设计时做出明确的权衡取舍。

新鲜度策略的第一个维度是页面级别的更新频率估计。并非所有页面都需要同等频率的重新抓取,一个静态的个人博客可能几个月都不会有内容变化,而一个新闻门户的首页可能在几分钟内就会刷新多次。工业级爬虫通常会维护一个页面更新历史模型,基于历史数据预测每个 URL 的下次修改时间,预测结果直接影响该 URL 在抓取队列中的优先级。Google 的索引之所以在时效性上保持优势,很大程度上得益于其在预测模型和抓取资源配置上的长期投入。Kagi 的 Small Web Index 则采用了不同的策略:他们专注于经过人工筛选的高质量源,这些源的更新模式相对可预测,因此可以用更少的资源维持较高的整体新鲜度。

新鲜度策略的第二个维度是抓取资源的动态分配。在一个理想的无限资源世界中,系统可以对所有已知 URL 持续进行高频抓取;但在现实环境中,计算带宽、存储空间和爬虫礼貌性限制共同构成了硬性约束。常见的资源分配算法基于页面重要性加权,重要性高的页面获得更多抓取配额,重要性低的页面则被降级到较低频率的批量抓取批次中。这种设计的一个隐含假设是:用户查询的分布高度不均匀,大部分搜索流量集中在少数「头部」站点和页面上。对于垂直搜索场景(如技术文档、专业论坛、学术论文),这种假设可能更加成立,因为用户的查询意图本身就带有明确的领域特征。

新鲜度策略的第三个维度是增量更新与全量更新的平衡。全量重新爬取(Full Re-crawl)能够确保索引与实际 Web 状态完全一致,但其成本过高,无法频繁执行。更常见的做法是增量更新(Incremental Update),只抓取发生过变化的页面,这需要维护每个页面的指纹信息(如 MD5 或 SimHash),通过比对指纹判断内容是否变化。现代搜索引擎通常采用混合策略:对高价值页面执行高频增量抓取,对长尾页面执行低频批量刷新,对极端长尾页面则只在收到用户查询时按需抓取(On-demand Fetching)。

索引质量与相关性排序:超越基础架构的工程挑战

拥有一个大范围的爬虫系统和及时更新的数据,只是构建有竞争力搜索索引的必要条件,而非充分条件。用户最终感知到的是搜索结果的质量,而质量的核心是相关性排序。在这方面,Google 过去二十年的技术积累构成了另一个难以逾越的壁垒。

相关性排序涉及数百个信号的综合计算,包括但不限于:页面文本与查询词的语言匹配度、页面在 Web 图中的链接结构(PageRank 及其变体)、页面所在域名的权威性、用户行为信号(如点击率、停留时间)、内容的时效性和地理位置相关性、以及针对特定领域(如医学、金融、技术)的专业知识。Kagi 在博客中特别强调了他们的多源融合策略:通过整合来自 Mojeek、Brave、Yandex、Wikipedia、TripAdvisor、Apple、Wolfgram Alpha 等多个提供商的索引数据,并在此基础上应用自己的相关性算法,来构建差异化的搜索体验。这种策略的优势在于避免了从零开始构建索引的巨大投入,劣势则在于对第三方数据质量和一致性的依赖,以及在结果排序上的受限。

在垂直搜索场景中,索引质量还需要考虑领域特异性问题。以技术文档搜索为例,用户可能搜索特定 API 的使用方法、某个开源项目的安装步骤、或者一段错误代码的解决方案。这些查询的语义理解需要结合代码语法、文档结构和技术术语知识库,简单的文本匹配往往无法返回最相关的结果。Kagi 的 Small Web Index 正是针对这一痛点进行设计,他们通过人工策展的方式收录高质量技术源,并针对技术查询优化排序算法。这种策略在特定领域可以取得很好的效果,但其可扩展性受限于策展成本和领域专家资源的可用性。

DOJ 裁决的工程解读:从垄断到开放的可能路径

2025 年 9 月和 12 月,美国司法部陆续公布了针对 Google 搜索垄断案的补救措施细节。如果这些措施能够得到有效执行,它们将从根本上改变搜索领域的工程格局。

从工程角度来看,最重要的补救条款是以下几项。第一是强制索引数据访问:Google 必须以边际成本向「合格竞争者」提供 Web 搜索索引数据,包括 URL、爬取元数据和垃圾分数。这意味着一旦一个实体被认定为「合格竞争者」,它就可以获得与 Google 自建索引几乎同等质量的数据源,而无需承担二十五年的爬取投入。第二是禁止广告捆绑:Google 不能将搜索结果访问与广告服务强制绑定,竞争者可以自由选择自己的变现模式。这对于 Kagi 这样的订阅制搜索服务商至关重要,因为它们无法接受将用户查询数据导流到 Google 广告系统的条款。第三是强制搜索结果分发(Syndication):Google 必须向竞争者提供基于查询的搜索结果分发服务,且条款不得比对现有合作伙伴(如 Apple)更差。

这些补救措施如果能够落地,将为搜索领域带来新的工程可能性。创业者和研究者将有机会在 Google 和 Bing 的索引基础上构建差异化的搜索体验,而无需从零开始解决爬虫和索引的基础设施问题。垂直搜索、专业搜索、隐私导向搜索等细分领域可能会迎来一波创新浪潮。但同时,补救措施的实际执行还面临诸多不确定性。Google 已经表示将对补救细节提起上诉,最终条款可能会在法庭博弈中发生变化。此外,「合格竞争者」的定义、边际成本的计算方式、数据访问的技术接口等实操层面的问题,都需要在后续的监管和诉讼过程中逐步明确。

从 Kagi 的案例中,我们可以看到这种开放访问对于后来者的意义。Kagi 明确表示,他们「一直希望获得直接授权,愿意按市场价格支付干净的合同访问」。但在裁决之前,这种合法的商业路径根本不存在。Kagi 以及其他竞争者被迫依赖第三方 API 提供商,这些提供商本身也在法律灰色地带运营,随时面临被起诉或服务中断的风险。2025 年 12 月 Google 对 SerpApi 的诉讼正是这种风险的体现:如果连这些灰色地带的「后门」都被关闭,而「前门」仍然紧闭,那么竞争者将陷入真正的困境。

垂直搜索的工程启示:如何在受限生态中构建差异化

对于希望进入搜索领域的工程师和创业者,Kagi 的经历提供了一系列有价值的工程启示。

第一个启示是关于索引策略的选择。Kagi 没有试图复制 Google 的全 Web 索引路线,而是专注于经过策展的高质量源,这种「Small Web」策略在资源有限的情况下是明智的。对于垂直搜索场景,这个原则同样适用:确定目标领域的核心信息源,建立可靠的抓取和更新机制,在这些源的基础上构建针对性的相关性算法,往往比追求全面覆盖更有效。

第二个启示是关于多源融合的工程实现。Kagi 整合了来自多个供应商的索引数据,这需要在数据格式统一、结果去重、排序融合等方面进行大量工程工作。多源融合本身是一种有效的竞争策略,但它也带来了额外的复杂性和对第三方的依赖。在 DOJ 裁决落地后,这种融合策略可能会变得更加可行和普遍,因为更多竞争者将获得类似的数据访问权限。

第三个启示是关于长期基础设施投资的必要性。即使 DOJ 裁决为竞争者打开了索引访问的大门,构建一个有竞争力的搜索服务仍然需要大量的工程投入。用户界面、查询理解、结果展示、隐私保护、付费订阅系统 —— 这些组件都需要独立开发和维护。索引数据访问只是消除了一个巨大的前置障碍,而不是消除了所有工程挑战。

第四个启示是关于合规与风险管理的平衡。在当前的法律环境下,任何依赖 Google 或 Bing 数据的搜索服务都面临合规风险。Kagi 选择通过第三方 API 提供商获取数据,这是一个务实的选择,但也意味着在不确定性中运营。DOJ 补救措施的一个重要价值,在于将这种灰色地带的不确定性转化为可预期的合规路径。

结语:搜索基础设施开放的工程意义

2026 年 1 月 Kagi 博客的发布,恰好处于 Google 反垄断案补救措施进入执行阶段的关键时间点。这个时间点为搜索领域的工程讨论提供了一个独特的视角:我们不仅可以从技术层面分析索引构建的复杂性,还可以从制度和商业层面探讨竞争格局变化的可能性。

对于系统工程师而言,搜索索引的构建是一个极具挑战性的分布式系统问题,涉及爬虫调度、网络请求处理、大规模数据存储、文本索引、相关性计算等多个技术领域的交叉。Google 过去二十五年的投入所积累的,不仅仅是代码和数据,更是一套经过无数次迭代和优化的工程实践知识。这些知识中的一部分可以通过阅读论文和专利来获取,但很大一部分是隐性知识,存在于团队的日常工程决策和问题解决过程中。

DOJ 补救措施的最终落地,将为搜索领域带来一次重新洗牌的机会。但机会本身不会自动转化为现实 —— 它需要创业者、工程师和研究者的共同努力。在一个更开放的搜索生态中,我们可能会看到更多差异化的搜索产品出现:专注于特定领域的垂直搜索、强调隐私保护的匿名搜索、针对特定用户群体的定制化搜索、以及与 AI 系统深度集成的智能搜索助手。这些可能性本身就值得我们期待和探索。


参考资料

查看归档