Hotdry.

Article

自托管开源 AI 图像生成平台:无审查、全本地、200+ 模型支持

深入解析 Open Generative AI 的工程架构:MIT 许可证、200+ 模型、即装即用桌面端、无内容过滤的自托管方案。

2026-04-25ai-systems

在当前的 AI 图像与视频生成领域,云端闭源服务占据主导地位。以 Higgsfield AI、Freepik AI、Krea AI、Openart AI 为代表的商业平台虽然在功能上不断迭代,但普遍存在内容审查严格、订阅费用高昂、厂商锁定等问题。对于需要更宽松创作环境或对数据隐私有严格要求的开发者而言,自托管开源方案正成为一条可行的替代路径。

本文聚焦 Open Generative AI 项目 —— 一个声称提供无内容过滤器、支持 200+ 模型、可完全本地部署的开源生成平台,从技术架构、部署方式、本地推理能力、模型生态四个维度进行深度解析,并给出生产环境的实践建议。

项目定位与核心理念

Open Generative AI 将自身定位为「Higgsfield AI、Freepik、Krea、Openart AI 的开源替代品」,其核心主张可以归结为三点:

无审查创作。项目文档明确标注「No content filters, no nanny guardrails, no prompt rejections」,即平台层面不实施任何内容过滤或提示词拦截。这与主流商业平台形成了鲜明对比 —— 后者通常内置 NSFW 检测、版权敏感词过滤、政治内容审查等多层 guardrails,可能导致正常创作被误拦截。

完全自托管。区别于仅提供 API 调用的云服务,该项目支持在本地机器上完整运行。这意味着用户的创作数据、提示词、生成的图像 / 视频全程留在本地,不会上传至第三方服务器。

模型中立。项目并非自研模型,而是通过统一 API 层整合了 Flux、Midjourney、Kling、Sora、Veo 等 50+ 图像模型与 40+ 视频模型,同时提供本地推理能力。许可证采用 MIT,允许商业使用与二次开发。

技术架构:Next.js Monorepo 与 Electron 桌面端

从代码组织来看,Open Generative AI 采用 Next.js 14 Monorepo 结构,核心代码位于 packages/studio 共享组件库中。这一架构设计使得自托管版本与官方托管版本(muapi.ai/open-generative-ai)共享同一套模型定义与 UI 组件,保证了两者的功能同步更新。

具体目录结构如下:

Open-Generative-AI/
├── app/                        # Next.js App Router
│   └── studio/page.js          # 主应用入口
├── components/                 # 页面级组件
│   └── StandaloneShell.js      # 标签导航 + API Key 管理
├── packages/studio/            # 共享 React 组件库
│   └── src/
│       ├── models.js           # 200+ 模型定义(单一数据源)
│       ├── muapi.js            # API 客户端封装
│       └── components/
│           ├── ImageStudio.jsx
│           ├── VideoStudio.jsx
│           ├── LipSyncStudio.jsx
│           ├── CinemaStudio.jsx
│           └── WorkflowStudio.jsx
└── release/                    # Electron 构建产物

项目同时提供 Web 版桌面应用两种运行形态。桌面应用基于 Electron 构建,官方提供了 macOS(Intel + Apple Silicon)、Windows(x64 + ARM64)的一键安装包,Linux 用户则需通过 npm 命令行构建。值得注意的是,macOS 用户首次运行需绕过 Gatekeeper 限制(执行 xattr -cr 命令),Windows 用户会收到 SmartScreen 警告(需点击「更多 → 仍然运行」),这在未代码签名的小型开源项目中属于常见情况。

在 API 交互层面,应用采用提交 - 轮询模式:先向 POST /api/v1/{model-endpoint} 提交生成任务,再通过 GET /api/v1/predictions/{request_id}/result 轮询结果直至完成。认证方式为 HTTP 头 x-api-key,本地开发时由 Vite 代理处理 CORS 问题。

本地推理能力:stable-diffusion.cpp 与 Metal GPU 加速

项目最具技术特色的功能之一是本地模型推理。桌面应用内置了基于 stable-diffusion.cpp 的本地生成引擎,可在无网络、无 API Key 的情况下完全离线生成图像。

当前支持的本地模型如下:

模型 类型 参数量 推荐用途
Z-Image Turbo Diffusion Transformer 2.5 GB + 2.7 GB 辅助 8 步快速生成
Z-Image Base Diffusion Transformer 3.5 GB + 2.7 GB 辅助 50 步高质量输出
Dreamshaper 8 SD 1.5 2.1 GB 通用风格
Realistic Vision v5.1 SD 1.5 2.1 GB 写实风格
Anything v5 SD 1.5 2.1 GB 动漫 / 插画风格
SDXL Base 1.0 SDXL 6.9 GB 高分辨率输出

其中 Z-Image 系列模型需要额外下载共享辅助文件(Qwen3-4B 文本编码器 2.4 GB + FLUX VAE 335 MB),下载后可在 Turbo 与 Base 两个变体之间共享使用。

硬件层面,本地推理支持 **CPU(跨平台)** 与 **Metal GPU(macOS Apple Silicon)** 两种模式。Metal 加速内置于 macOS 桌面应用中,官方建议使用 16 GB 内存以满足 Z-Image 模型的运行需求(7.4 GB 权重 + 2.4 GB 计算缓冲区)。生成过程中系统可能会出现明显卡顿,因为推理会占用所有可用的 CPU 核心。

本地推理的使用流程极为简洁:打开桌面应用 → 进入 Settings → Local Models → 安装 sd.cpp 推理引擎(自动下载)→ 下载目标模型 → 在 Image Studio 中切换至「⚡ Local」模式即可开始生成。

模型生态与工作室功能

项目将功能划分为五个独立工作室,每个工作室针对特定创作场景进行优化:

Image Studio 支持 50+ 文本生成图像模型与 55+ 图像编辑模型,系统会根据是否上传参考图自动切换模式。近期新增的模型包括 Nano Banana 2(支持 Google Search 增强、1K/2K/4K 分辨率)、Seedream 5.0(字节跳动、8 种宽高比、最高 4K)、MiniMax Image 01(单次请求最多 4 张图像、1500 字符提示词)。多图像输入功能允许最多上传 14 张参考图(Nano Banana 2 Edit),在多选模式下会显示带序号的复选框与批量上传按钮。

Video Studio 提供 40+ 文生视频模型与 60+ 图生视频模型。Seedance 2.0(字节跳动)支持 5/10/15 秒时长与多种宽高比,Seedance 2.0 Extend 可无缝续接已有生成。Grok Imagine T2V/I2V(xAI)提供 fun/normal/spicy 三种模式,最长支持 15 秒生成。

Lip Sync Studio 是项目的一大差异化功能,可基于肖像图或现有视频配合音频生成口型同步视频。9 个专用模型分为两类:图像模式(Portrait Image + Audio → Video)包括 Infinite Talk、Wan 2.2 Speech to Video、LTX 2.3 Lipsync 等;视频模式(Video + Audio → Lipsync Video)包括 LatentSync、Creatify Lipsync、Veed Lipsync 等。

Cinema Studio 提供专业级相机控制,将镜头选择、焦距、光圈等参数自动转化为优化后的提示词修饰器。支持的相机类型从 8K 数字到 70mm 胶片不等,镜头风格涵盖变形、复古、旋焦人像等十一种预设。

Workflow Studio 是面向高级用户的可视化 pipeline 构建器,支持将图像、视频、音频模型链式组合为自动化流程。提供社区模板与自定义节点编辑器,每个工作流同时可通过 Muapi API 以编程方式调用。

部署选项与选型建议

根据不同的技术能力与使用场景,部署 Open Generative AI 存在三种可行路径:

直接使用桌面应用适合非技术用户与快速原型验证。官方提供 macOS/Windows 一键安装包,无需配置 Node.js 环境,下载安装后登录 Muapi.ai API Key 即可使用。本地推理模式下甚至无需 API Key。

自托管 Web 版适合有 Node.js 部署能力的团队。只需一行命令克隆仓库、执行 npm install && npm run dev,然后通过 Nginx 反向代理或 Cloudflare Tunnel 对外暴露服务。此模式下无法使用本地推理(仅支持云端 API 调用),但可完全控制数据流。

本地离线部署适合对安全性要求极高的环境(如企业内部网络、研究机构)。通过桌面应用的本地推理模式实现完全离线运行,所有生成在本地 GPU/CPU 上完成,无需互联网连接。

需要特别指出的是,该项目的云端 API 调用依赖 Muapi.ai 服务 —— 即项目维护者搭建的模型聚合 API 网关。这意味着即使选择自托管 Web 版,生成请求仍会发送至 muapi.ai 服务器。若追求完全离线,需使用桌面应用的本地推理功能。

总结与展望

Open Generative AI 作为一个开源聚合平台,其工程价值在于降低了自托管 AI 生成工具的门槛:通过统一的 UI 层与 API 抽象,将原本需要分别配置数十个模型 API 的复杂工作简化为开箱即用的桌面应用。MIT 许可证与本地推理能力的组合,为关注数据隐私、创作自由度或成本控制的团队提供了一个值得评估的选项。

然而,该项目也存在明确的局限:云端模式依赖第三方 API 服务(Muapi.ai),本地模型的数量与质量与商业闭源方案仍有差距,200+ 模型中相当比例为商业 API(如 Midjourney、Kling、Sora),并非完全开源。在选型时,团队需根据自身对模型质量、离线能力、审查政策的需求进行权衡。

资料来源:项目 GitHub 仓库(github.com/Anil-matcha/Open-Generative-AI)

ai-systems