2025年10月14日 data-engineering

构建可扩展的请求日志管道：ClickHouse、Kafka 与 Vector 集成实践

本文探讨如何利用 Vector、Kafka 和 ClickHouse 构建一个高性能、可扩展的请求日志处理管道，实现从日志采集、清洗、传输到近实时分析的全流程落地实践。

内容加载中...

在数字化服务高速发展的今天，应用程序请求日志已成为洞察用户行为、排查系统问题和保障业务稳定的核心数据资产。然而，随着业务流量的激增，每日产生的日志量可达百亿甚至千亿级别，传统的日志处理方案（如 ELK Stack）在面对如此巨大的数据洪流时，往往会在成本、性能和运维复杂度上遇到瓶颈。为了应对这一挑战，我们需要一个更现代化、更具扩展性的架构。

本文将详细介绍如何整合 Vector、Apache Kafka 和 ClickHouse 这三大开源组件，构建一个高性能、高可用且成本可控的请求日志处理管道，以满足近乎实时的海量数据分析需求。

核心架构：解耦、缓冲与高性能分析

我们设计的日志管道遵循“采集-传输-存储/分析”的经典流程，但每个环节都选用了当前场景下的最优解：

采集层 (Vector)：Vector 是一个用 Rust 编写的高性能可观测性数据管道。它轻量、快速且资源占用极低，非常适合作为部署在成千上万台服务器上的日志采集代理。它负责从日志源（如 Nginx 的访问日志文件）实时拉取数据，并进行初步的解析和结构化。
缓冲传输层 (Apache Kafka)：Kafka 在此架构中扮演着至关重要的“数据总线”角色。所有由 Vector 采集到的日志数据都会被发送到 Kafka 集群。这层缓冲极大地增强了系统的弹性和健壮性，实现了采集端与存储端的解耦。即使下游的 ClickHouse 集群出现短暂故障或维护，日志数据也会在 Kafka 中安全积压，不会丢失，待 ClickHouse 恢复后再继续消费。同时，Kafka 能够轻松应对流量洪峰，有效削峰填谷，保护后端数据库免受冲击。
存储与分析层 (ClickHouse)：ClickHouse 是一个为在线分析处理（OLAP）而生的列式数据库管理系统。其闪电般的查询速度使其成为日志分析场景的理想选择。通过其独特的表引擎设计，ClickHouse 可以高效地从 Kafka 中消费数据，并提供强大的 SQL 接口供用户进行即时的数据探索和可视化分析。

整套架构的数据流如下：Web 服务器 (Nginx) -> Vector Agent -> Kafka 集群 -> ClickHouse 集群。

实践步骤：从零到一搭建管道

步骤一：配置日志源 (以 Nginx 为例)

为了便于后续处理，建议将 Nginx 的日志格式配置为 JSON。这不仅能消除模糊的正则表达式解析，还能使日志结构更加清晰。

log_format json_analytics escape=json
  '{'
    '"msec": "$msec", '
    '"time_local": "$time_local", '
    '"request_time": "$request_time", '
    '"remote_addr": "$remote_addr", '
    '"status": "$status", '
    '"body_bytes_sent": "$body_bytes_sent", '
    '"request_uri": "$request_uri", '
    '"request_method": "$request_method", '
    '"http_user_agent": "$http_user_agent", '
    '"http_referer": "$http_referer"'
  '}';

access_log /var/log/nginx/access.log json_analytics;

步骤二：配置 Vector (采集与转发)

在每台 Nginx 服务器上安装并配置 Vector。其配置文件 vector.toml 清晰地定义了数据输入、转换和输出。

# /etc/vector/vector.toml

# 1. 定义数据源 (Source)
[sources.nginx_logs]
  type = "file"
  include = ["/var/log/nginx/access.log"] # 监控Nginx日志文件
  read_from = "end" # 从文件末尾开始读取

# 2. 定义数据转换 (Transform)
[transforms.parse_and_structure]
  type = "remap"
  inputs = ["nginx_logs"]
  # 使用VRL (Vector Remap Language) 进行数据处理
  source = '''
    # 解析JSON格式的日志行
    . = parse_json!(.message)

    # 对字段进行类型转换，确保数据规整
    .status = to_int!(.status)
    .body_bytes_sent = to_int!(.body_bytes_sent)
    .request_time = to_float!(.request_time)
  '''

# 3. 定义数据输出 (Sink)
[sinks.kafka_sink]
  type = "kafka"
  inputs = ["parse_and_structure"] # 输入来自转换后的数据
  bootstrap_servers = "your-kafka-broker-1:9092,your-kafka-broker-2:9092"
  topic = "nginx_request_logs" # 指定Kafka主题
  encoding.codec = "json" # 发送到Kafka时使用JSON编码

这段配置指示 Vector 监控 Nginx 日志，将每行日志解析为 JSON，进行简单的类型转换，然后将结构化后的数据发送到名为 nginx_request_logs 的 Kafka 主题。

步骤三：在 ClickHouse 中接收数据

ClickHouse 提供了强大的 Kafka 表引擎，可以直接订阅 Kafka 主题。我们通过“两张表 + 一个物化视图”的经典模式来完成数据的高效、可靠摄入。

创建 Kafka 引擎表：这张表是 Kafka 主题的一个只读代理，实时流式读取数据。

CREATE TABLE default.request_logs_kafka (
    `msec` Float64,
    `time_local` DateTime,
    `request_time` Float32,
    `remote_addr` String,
    `status` UInt16,
    `body_bytes_sent` UInt64,
    `request_uri` String,
    `request_method` String,
    `http_user_agent` String,
    `http_referer` String
) ENGINE = Kafka
SETTINGS
    kafka_broker_list = 'your-kafka-broker-1:9092',
    kafka_topic_list = 'nginx_request_logs',
    kafka_group_name = 'clickhouse_ingestion_group',
    kafka_format = 'JSONEachRow',
    kafka_num_consumers = 4; -- 消费者数量可根据分区数调整

创建最终存储表 (MergeTree)：这是数据最终落地的表，使用 ClickHouse 最强大的 MergeTree 引擎，为分析查询高度优化。

CREATE TABLE default.request_logs_dist (
    -- 与Kafka表相同的结构
    `msec` Float64,
    `time_local` DateTime,
    `request_time` Float32,
    `remote_addr` IPv4, -- 使用专用类型优化IP存储与查询
    `status` UInt16,
    `body_bytes_sent` UInt64,
    `request_uri` String,
    `request_method` String,
    `http_user_agent` String,
    `http_referer` String
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(time_local)
ORDER BY (time_local, status, request_method);

我们通过 PARTITION BY 按月分区，并通过 ORDER BY 定义主键，这对查询性能至关重要。

创建物化视图 (Materialized View)：这是连接两张表的“胶水”。它在后台自动运行，一旦 request_logs_kafka 表中出现新数据，就立即将其拉取并插入到 request_logs_dist 表中。
```
CREATE MATERIALIZED VIEW default.kafka_to_mergetree_mv TO default.request_logs_dist AS
SELECT * FROM default.request_logs_kafka;
```

至此，整个数据管道已经贯通。Nginx 产生的每一条日志都会在几秒钟内流经 Vector 和 Kafka，最终出现在 ClickHouse 的 request_logs_dist 表中，可供随时查询。

性能与扩展性考量

高并发写入：对于极高的日志吞吐量，可以在物化视图和最终的 MergeTree 表之间再增加一个 Buffer 表，将数据在内存中攒批后批量写入磁盘，进一步降低 I/O 压力。
水平扩展：该架构的每个组件都具备良好的水平扩展能力。当流量增长时，你可以轻松地增加 Vector 节点、Kafka Broker 或 ClickHouse 节点来分摊负载。
监控：务必建立对关键指标的监控，例如 Kafka 的消费延迟（Consumer Lag），它可以告诉你 ClickHouse 是否能跟上数据产生的速度；以及 Vector 的内部缓冲区大小和发送速率。

结论

通过将 Vector 的轻量高效、Kafka 的可靠解耦以及 ClickHouse 的极致查询性能相结合，我们构建了一个能够从容应对海量请求日志的现代化数据管道。该架构不仅解决了高并发下的数据采集与写入难题，更为业务提供了近乎实时的深度分析能力，是将原始日志数据转化为高价值业务洞察的坚实基础。