Hotdry.

Article

用底层绘制提升AI图像文本渲染精度:underdrawing技术实战

面向AI图像生成中的文本渲染精度问题,介绍底层绘制(underdrawing)技术原理与工程化参数,规避抗锯齿偏差。

2026-05-03ai-systems

在 AI 图像生成领域,文本和数字的准确呈现一直是一个棘手的问题。即便是当前最先进的图像生成模型,在处理精确的文字布局和数字序列时,仍然频繁出现字符变形、顺序错乱等问题。底层绘制(underdrawing)技术提供了一种务实且高效的解决思路:通过将确定性渲染与生成式渲染分离,让擅长数学精度的工具处理文本布局,让擅长视觉美学的模型负责风格化渲染,从而在最终输出中兼顾准确性与艺术性。

底层绘制的核心原理

底层绘制技术的核心理念建立在对两种计算范式的清晰认知之上。SVG、HTML、Canvas 等基于向量描述的渲染工具本质上是确定性的 —— 给定相同的输入参数,它们总是产生像素级一致的输出。这种特性使得它们非常适合处理需要精确几何计算的任务,包括文字排版、数字定位、坐标映射等。而扩散模型等图像生成器虽然在视觉质量上表现出色,但其本质是概率采样,对精确数值的表现极不稳定,常常在生成过程中 “扭曲” 所描绘的数字或文字。

基于这一观察,底层绘制方法将图像生成流程拆分为两个明确的阶段。第一阶段是底层绘制层,使用 SVG 等确定性工具生成文本和数字的精确轮廓,这个层面不追求视觉美感,只要求位置准确、形态清晰。第二阶段是生成式渲染层,将底层绘制作为参考输入(control signal),要求图像模型在其基础上进行风格化 “涂绘”,同时保持底层元素的完整性。这种分工机制本质上是一种约束解码(constrained decoding)的工程化实现,通过在像素层面提供强信号来抑制模型的自由发挥。

从技术实现角度看,底层绘制层只需要输出一张包含目标文字或数字的灰度图像。这张图像通常采用高对比度设计,文字呈现为黑色前景色,背景为纯白或透明。这样的输入格式对主流的图像生成模型(如 Gemini 系列、Stable Diffusion 等)都具有良好的兼容性,因为模型能够清晰识别出文字的边缘位置与结构轮廓。关键在于底层绘制必须足够精确 —— 字体选择、字号大小、行间距、排列方向等参数都应在这一层确定,后续的生成阶段不再修改这些核心布局。

规避抗锯齿偏差的工程实践

在底层绘制技术的实际部署中,抗锯齿处理是一个容易被忽视但影响显著的因素。当使用 SVG 生成文字轮廓时,浏览器或渲染引擎通常会对边缘进行抗锯齿处理,以获得更平滑的视觉观感。然而,这种经过抗锯齿处理的图像在作为图像生成模型的输入时,可能导致模型对文字边缘的判断产生偏差 —— 模型可能将抗锯齿产生的半透明像素误认为是文字的一部分,从而在风格化过程中产生不必要的模糊或晕染。

为规避这一问题,工程实践中有几种推荐方案。第一种方案是在 SVG 输出时禁用抗锯齿,通过设置 shape-rendering 属性为 crisp-edges 或 crisp-edges-no-antialias,可以强制渲染引擎输出边缘锋利的像素化轮廓。这种方式生成的底层绘制虽然视觉上显得生硬,但能够为图像模型提供清晰无歧义的边缘信号。第二种方案是在生成 SVG 后进行后处理,通过阈值化(thresholding)操作将抗锯齿产生的中间像素强制二值化,消除灰度过渡带来的不确定性。第三种方案则是利用 PDF 或 PostScript 格式作为中间载体,这类格式在转换为位图时可以指定分辨率和采样方式,便于精确控制输出质量。

在具体参数配置上,底层绘制图像的分辨率选择也需要权衡。较低的分辨率可能导致文字细节丢失,特别是在需要呈现较小字号或密集文字排版时。较高的分辨率则可能引入过多的图像噪声,增加模型正确识别底层结构的难度。根据实际测试经验,底层绘制图像的分辨率设置为最终输出分辨率的百分之五十到七十是一个相对稳健的区间 —— 既能保留足够的结构信息,又不会因为细节过多而干扰模型的注意力机制。

提示词工程与模型配置参数

将底层绘制与生成式渲染结合时,提示词的措辞方式对最终效果有显著影响。核心原则是明确传达 “保留底层元素、仅做风格化转换” 的意图。实践中常用的提示词模式包括 “transform this image into” 和 “maintain the text/numbers while applying” 等表达方式。示例提示词如下:Transform this image into a photographed claymation diorama, maintaining all numbers and text exactly as they appear, arranged in the specified layout. 这样的表述既描述了目标风格,又强调了底层元素的不可变性。

模型选择方面,支持图像加文本多模态输入的模型是底层绘制技术的必要条件。Gemini 系列模型在这方面具有原生优势,因为其架构设计允许图像与文本 token 在同一空间中交互处理。ChatGPT Images 系列同样支持此类输入。值得注意的是,即使模型本身已具备较强的文字渲染能力(如 GPT-4o 时期的更新),底层绘制方法仍然能够提供额外的精度保障 —— 在 Sam Collins 的对比测试中,加入底层绘制后 Gemini 3.0 Pro 的数字准确率仍然优于不使用底层绘制的基准水平。这说明底层绘制提供的是一种正交增益,不依赖于模型本身的文字生成能力。

在生成参数上,图像强度的控制(guidance scale)需要适度调低,以避免模型过度自由发挥而侵蚀底层文字。一般建议将 guidance scale 设置在七到九之间,低于默认的十到十二。此外,生成迭代次数(steps)不需要特别增加,因为底层绘制已经提供了充分的结构约束,额外的迭代步数只会增加计算成本而不会显著提升质量。

监控指标与失败模式识别

部署底层绘制方案时,需要建立相应的质量监控体系。最直接的评估指标是文字准确率(Character Accuracy Rate),即最终输出图像中正确呈现的字符数量与底层绘制中字符总量的比值。对于需要呈现序列数字的场景,还应额外关注顺序准确率(Sequence Accuracy Rate),确保数字的排列顺序未被篡改。在自动化评估流程中,可以利用 OCR 工具(如 Tesseract 或云服务 API)提取输出图像中的文字,再与底层绘制的原始文本进行逐字符比对。

常见的失败模式包括几种情况。第一种是底层元素被部分覆盖 —— 模型在风格化过程中对某些文字区域进行了过度渲染,导致底层信息被遮蔽。这种情况通常发生在底层绘制与目标风格的颜色对比度不足时,解决思路是增强底层绘制的对比度或在提示词中明确标注需要保留的区域。第二种失败模式是文字形态被轻微扭曲但仍可识别 —— 这种情况更难通过自动化手段检测,往往需要人工抽检。第三种是完全失败,即模型完全忽略了底层绘制,重新生成了自己的文字版本,这通常意味着输入的底层绘制图像未被模型正确识别,可能需要检查图像格式或尺寸是否符合模型的输入要求。

为实现可靠的规模化生产,建议将底层绘制方案与版本化的测试用例库结合。每个新模型或新版本上线前,都应通过标准化的测试集验证底层绘制方法的兼容性。测试集应覆盖不同的文字数量、字体风格、排列复杂度等维度,形成量化的兼容性评分。

资料来源

本文技术细节主要参考 Sam Collins 在个人博客中分享的底层绘制方法实践(samcollins.blog/underdrawings),该方法在对比测试中展现出优于 Gemini 3.0 Pro 和 ChatGPT Images 2 的文本渲染精度。

ai-systems