如果把生成式艺术的历史压缩成一条曲线,会看到一条从确定性规则逐渐滑向概率噪声的轨迹。这条轨迹的背后不是艺术的衰退,而是计算范式的根本转移 —— 从程序员手写的显式指令,走向 GPU 并行运算驱动的隐式表达。理解这一转变的关键,在于两个相互缠绕的技术变量:GPU 可编程性的提升,以及采样算法的范式迭代。

规则之末:算法艺术的确定性与边界

生成式艺术的技术起点可以追溯到二十世纪六十年代的计算机绘图实验。彼时的创作依赖于确定性算法 —— 艺术家编写绘图指令,机器忠实地执行这些指令生成视觉输出。1970 年代 Harold Cohen 开发的 AARON 系统是这一范式的典型代表:通过编码一系列艺术规则,AARON 能够 “创作” 出具有原创外观的线条与形状,但这些输出本质上仍是规则的可预测延伸。这种规则驱动的方式有一个根本限制:艺术表达的丰富度被程序员编码的逻辑容量所框定。当规则集合足够复杂时,维护和扩展变得不可持续,创作的边际收益迅速递减。

与此同时,GPU 架构在这一时期悄然演进。从早期的固定功能图形管线到可编程着色器的出现,GPU 从单纯的渲染硬件转变为通用并行计算平台。这一转变的深层意义在于:它第一次让大规模数值运算变得足够廉价,使得艺术家可以在可接受的时间成本内探索参数化创作的无限可能性。Processing、OpenFrameworks 等创意编程工具的兴起,正是建立在这一硬件基础之上。

深度学习入场:从规则到学习的范式断裂

2010 年代深度学习的突破不是对算法艺术范式的渐进改进,而是彻底的范式断裂。神经风格迁移和 DeepDream 的出现,首次将 “学习” 而非 “编码” 引入视觉生成 —— 模型从大规模图像数据中提取视觉特征,将这些特征重新组合生成全新作品。2014 年 GANs(生成对抗网络)的提出进一步深化了这一转变:对抗训练机制让生成器和判别器在零和博弈中相互提升,产出质量远超传统算法。

然而,GANs 的训练不稳定性长期以来制约着其实际应用。模式崩溃、训练震荡、难以扩展到高分辨率等问题,使得工业级图像生成始终面临瓶颈。这一困境在 2020 年被扩散概率模型(DDPM)打破。扩散模型的核心思想简洁而优雅:学习从纯噪声逐步恢复出清晰图像的反向过程。每一步去噪都是一次条件概率估计,而整个采样链条通过数百甚至上千次的迭代完成。这一过程中蕴含的计算需求是巨大的 —— 如果没有 GPU 可编程性的持续进步,扩散模型将仅仅停留在理论层面。

扩散纪元:GPU 并行与采样算法的协同进化

2020 年后的生成式艺术演进,本质上是 GPU 架构能力与采样算法设计共同驱动的结果。扩散模型庞大的推理预算要求,促使工程界在两个方向上同时发力。

第一个方向是采样加速。原始的 DDPM 需要数百到上千步去噪才能生成高质量图像,这一成本在实时应用中几乎不可接受。DDIM(Denoising Diffusion Implicit Models)通过引入非马尔可夫推理路径,将采样步数压缩至数十步级别而不显著损失质量。此后,LCM(Latent Consistency Models)、Consistency Models 等工作进一步将单图生成时间推向数百毫秒区间。这些采样算法的迭代,本质上是在 “计算预算” 与 “输出质量” 之间寻找更优的权衡曲线。对于生成式艺术而言,这意味着创作者可以在创作迭代中更快地看到结果,从而显著缩短从想法到作品的反馈周期。

第二个方向是潜在空间压缩。2022 年 Stable Diffusion 的发布标志着潜在扩散(Latent Diffusion)范式的成熟。其核心洞察是:直接在像素空间进行扩散计算是不必要的,图像的语义信息可以压缩到一个更低维的潜在空间中完成去噪过程,再通过解码器映射回像素空间。这一设计直接受益于 GPU 显存带宽的持续改善 —— 更高效的潜在表示意味着更少的显存占用和更高的吞吐量,使得消费级 GPU 也能运行高质量的文本到图像模型。潜在扩散的普及直接催生了 ControlNet、IP-Adapter、LoRA 等生态工具链的爆发,艺术家得以通过结构控制、风格注入和轻量微调等方式,在扩散模型的基座上构建个性化的创作工作流。

范式转移的创作启示

从算法艺术到扩散模型的演进,核心转变可以概括为从 “显式规则编码” 到 “隐式分布采样” 的迁移。前者要求创作者精确描述生成逻辑,后者则通过数据驱动的潜在分布间接控制输出。这种转变带来了两个深远的创作层面的变化。

其一,创作的随机性从需要被控制的副作用,转变为可以被利用的工具。扩散模型的有序去噪过程天然引入随机性,不同的噪声种子或采样路径会产生截然不同的视觉结果。艺术家不再需要编写复杂的随机逻辑,而是学会与这种内置的随机性共舞,将其作为创意探索的触媒。

其二,GPU 可编程性使得生成式艺术从专家工具走向大众创作平台。WebGPU 的成熟让浏览器端运行扩散模型成为可能,配合 LoRA 的轻量微调机制,个体创作者可以在消费级硬件上构建定制化的生成管线。这不是算法艺术的终结,而是其民主化的新起点 —— 当规则编写不再是门槛,创意本身的价值反而更加凸显。


参考资料

  • Wikipedia. "Diffusion model"
  • ZSky AI. "The History of AI Art: From 1960s to 2026"
  • Jeffrey Barry. "Diffusion Research Timeline" (GitHub)