免费 LLM API 资源全解析：速率限制、模型覆盖与生产可用性对比

在构建 AI 应用时，API 调用成本往往是决定业务可行性的关键因素。GitHub 上由开发者 cheahjs 维护的免费 LLM API 资源聚合列表，整理了当前市场上主要的免费推理资源，为成本敏感型项目提供了有价值的参考。然而，免费并不意味着「开箱即用」，不同提供商在速率限制、模型多样性与生产可用性上存在显著差异，理解这些差异是制定合理接入策略的前提。

免费资源的两大类别

首先要明确的是，市面上的「免费」LLM API 实际分为两类：真正意义上的免费层（无需绑定信用卡）与试用积分层（需要注册但提供额度）。前者以 OpenRouter、Google AI Studio、Groq、Cerebras 为代表，后者则包括 Fireworks（$1）、Baseten（$30）、Modal（$5-30）等多种方案。前者的优势在于零成本起步，适合原型验证与个人项目；后者的额度更高，通常能支撑更长期的开发测试，但需要投入时间完成账号注册与额度兑换流程。

速率限制与配额深度对比

在真正的免费层中，各家的限制策略差异显著。OpenRouter 采取通用配额模式，所有免费模型共享 20 请求每分钟、50 请求每天的额度，充值 $10 可提升至每日 1000 请求。Google AI Studio 则针对具体模型设置了不同的限制：Gemini 3 Flash 提供每分钟 25 万 tokens 的高吞吐，但每日仅 20 次请求、每分钟 5 次请求；相比之下 Gemma 3 系列的限制更为宽松，每日 14400 次请求、每分钟 30 次请求，适合需要高并发但模型规模较小的场景。

Groq 的免费层采用模型级独立配额，这是一个重要的差异化特征：Llama 3.1 8B 每日可调用 14400 次、每分钟 6000 tokens，而 Llama 3.3 70B 虽然每秒 tokens 限制提升到 12000，但每日请求数降至 1000 次。这种差异化意味着开发者需要根据具体模型的速率特征来规划流量分配。Cerebras 则以高 tokens 配额著称，GPT-OSS-120B 与 Llama 3.1 8B 均可享受每日 100 万 tokens 与 14400 次请求的配额，对于大规模批处理任务尤为友好。

Cloudflare Workers AI 的限制方式最为独特：按「神经元」计费而非直接按请求或 tokens 计数。每日 10000 神经元的配额转换为实际的请求能力取决于模型大小与输入输出长度，但总体而言更适合轻量级推理任务。NVIDIA NIM 同样提供免费层，但需要手机号验证，且模型上下文窗口普遍受限，更适合探索性实验而非生产部署。

模型覆盖与多模型能力

从模型多样性角度评估，OpenRouter 聚合了超过 30 个免费模型，涵盖 Google Gemma 系列、NVIDIA Nemotron、Meta Llama 系列、Qwen3 以及国产的 MiniMax 等，是目前免费层模型最丰富的聚合平台。这种多样性允许开发者在不同任务间灵活切换，例如用小模型处理简单查询、大模型处理复杂推理，从而在免费配额内实现更高的综合吞吐。

Cloudflare Workers AI 的模型列表更为庞大，官方支持超过 60 个模型，包括 DeepSeek R1、Llama 3.3 70B、Qwen2.5 等热门开源模型。但由于神经元配额的整体限制，实际可用量受到约束。GitHub Models 的模型库最为全面，涵盖 OpenAI 全系列、DeepSeek、Meta Llama 4、Mistral 等，但免费层的输入输出 token 限制极为严格，更适合快速原型验证而非规模调用。

生产环境可用性评估

必须强调的是，所有免费层均为「尽力而为」（best-effort）容量，不提供 SLA 保障。速率限制可能随时收紧，API 可能因负载波动而响应变慢，更关键的是部分提供商会在免费层使用数据用于模型训练。Google AI Studio 明确指出，在英国、瑞士、欧洲经济区及欧盟以外地区使用时，数据将用于训练；OpenCode Zen 等网关也声明免费模型可能使用数据改进。这些限制对于面向用户的生产应用而言是不可忽视的风险。

基于上述分析，生产级接入策略应遵循以下原则：将免费 API 定位为非关键工作负载的补充而非唯一依赖；实现请求级熔断机制，当提供商返回限流错误时自动切换至备用模型或付费层；实施严格的配额监控，在每日配额耗尽前触发告警；最后，对涉及敏感数据的场景，优先选择明确声明不使用数据训练的提供商，或确保使用区域符合数据合规要求。

场景化接入建议

针对不同业务场景，推荐以下策略矩阵：原型验证与内部工具开发可直接使用 OpenRouter 或 Google AI Studio，利用其高模型多样性快速迭代；需要高并发批处理时，优先选择 Cerebras 或 Groq 的高 tokens 配额层；面向用户的生产应用则建议将免费层仅作为 Overflow 容量，主链路采用付费提供商，并通过配额监控与熔断实现自动 failover。

资料来源：免费 LLM API 资源聚合列表（GitHub cheahjs）

ai-systems