Hotdry.

Article

欧洲葡萄牙语 LLM 训练管线:AMÁLIA 项目的数据策略与 tokenization 优化

从 AMÁLIA 项目看小语种群模型训练:如何通过数据配比、tokenization 优化与 dialect-specific training 策略,在有限语料下构建高质量欧洲葡萄牙语大模型。

2026-05-11ai-systems

在大型语言模型领域,英语与汉语凭借海量语料占据绝对优势,而葡萄牙语这类欧洲小语种面临着截然不同的工程挑战。AMÁLIA 作为葡萄牙政府主导的欧洲葡萄牙语 LLM 项目,在 €5.5M 国家投资支持下走出了一条 dialect-specific training 的技术路径。本文从工程化视角剖析其数据策略与 tokenization 优化,为小语种 LLM 训练提供可复用的参数参考。

项目背景与技术选型

AMÁLIA 并未从零开始训练基础模型,而是选择对 EuroLLM 进行继续预训练(continuation pretraining)。这一决策背后有着清晰的数据逻辑:从头训练需要数十万亿 tokens 的高质量语料,而欧洲葡萄牙语作为仅有约 1000 万母语使用者的语种,其可用语料规模远不足以支撑充分的基础训练。继承 EuroLLM 的预训练权重,在其基础上注入针对性的方言数据,成为一条更为务实的工程路径。

架构层面,AMÁLIA 沿用了 EuroLLM 的基础设计,仅对上下文长度和 RoPE(Rotary Position Embedding)缩放参数进行了微调。上下文扩展在方言模型中尤为重要 —— 欧洲葡萄牙语中大量包含长程回指的文化文本、法律条文和新闻报道,需要模型具备足够的上下文窗口来捕捉跨句甚至跨段的语义关联。

数据配比策略:预训练阶段的 5.5% 困境

预训练数据的配比是决定方言模型质量的核心工程问题。根据 AMÁLIA 技术报告,其扩展预训练阶段共使用 107B tokens,其中明确标注为欧洲葡萄牙语的 Arquivo.pt 数据仅占 5.8B tokens,比例约为 5.5%。这一数字在工程社区引发了讨论:对于一个 “葡萄牙语模型” 而言,这一比例是否足够?

从数据工程角度看,5.5% 的比例意味着模型在 94.5% 的训练步中接触的是多语言混合语料。这种设计有其合理性 —— 多语言联合训练可以让模型从其他语言中迁移通用知识和推理能力,避免小语种模型常见的 “知识窄化” 问题。但风险同样存在:如果方言特定知识的注入比例过低,模型可能难以形成对欧洲葡萄牙语语音语调、语法结构和文化背景的深度内化。

实践中,AMÁLIA 团队在预训练阶段采用了渐进式数据注入策略:初期使用更偏向多语言通用数据建立基座能力,中后期逐步增加葡萄牙语数据的采样权重。这种策略有效缓解了 “方言漂移” 问题,但具体的权重调度曲线和切换时间点属于未公开的工程细节。

SFT 阶段的数据工程:17-18% 的合成数据路径

进入监督微调(Supervised Fine-Tuning)阶段,AMÁLIA 的葡萄牙语数据比例提升至 17-18%。这一跃升背后的主要手段是合成数据生成 —— 团队通过高质量种子数据引导,生成了大量结构化的葡萄牙语训练样本。

合成数据在小语种场景下是重要的工程杠杆。其优势在于:可以精确控制语法复杂度、主题分布和方言特征;可以生成在真实语料中稀缺的高质量指令 - 响应对;可以通过数据增强技术覆盖更多边缘用例。但合成数据也带来了质量评估的挑战 —— 如何确保生成的葡萄牙语既符合欧洲葡萄牙语的语法规范,又避免引入 “机器翻译腔”?

AMÁLIA 团队在合成数据生成中采用了多轮迭代过滤机制:首先使用种子数据微调生成模型,随后对生成的候选样本进行语法检查、风格一致性和文化准确性评估,最终保留通过所有过滤器的样本进入 SFT 训练集。这一流水线的具体参数 —— 如每轮过滤的接受率阈值、评估模型的选择 —— 是值得小语种 LLM 项目参考的工程细节。

Tokenization 优化:小词表与子词切分的工程权衡

Tokenization 是小语种 LLM 训练中最容易被忽视却影响深远的环节。主流 LLM 多采用基于 SentencePiece 或 BPE 的分词器,其词表大小和子词切分规则直接影响模型的训练效率和推理质量。

欧洲葡萄牙语在 tokenization 层面面临几个独特挑战。首先,葡萄牙语中存在大量动词变位形式(动词根据人称、时态和语气产生数十种变形),这使得基于频率的 BPE 分词器倾向于将动词的不同时态切分为不同 tokens,增加了模型需要学习的组合形式数量。其次,欧洲葡萄牙语与巴西葡萄牙语在词汇选择和语法细节上存在差异,共享词表设计需要考虑这种方言变体的兼容性。

从 AMÁLIA 的技术报告推断,项目采用了相对保守的词表策略 —— 未进行大规模词表扩展,而是在 EuroLLM 原有词表基础上通过继续训练让模型自适应。这种 “冻结词表 + 继续训练” 的方式避免了词表膨胀带来的参数量增加,但也意味着模型需要依赖更长的 token 序列来表示某些葡萄牙语特有的语义单元。

对于计划构建其他小语种 LLM 的团队,建议在项目初期进行 tokenization 效率基准测试:统计目标语言在固定词表下的平均 token 序列长度、与英语的 token 效率比值、以及高频词的覆盖情况。若发现 token 效率显著低于预期,可能需要考虑定制词表训练。

方言评测体系:从 ALBA 基准看评估设计

高质量的评测体系是方言模型迭代优化的指南针。AMÁLIA 团队为此开发了四套新的评测基准,其中最具代表性的是 ALBA(European Portuguese Language Benchmark)。ALBA 的设计理念聚焦于一个核心问题:模型是否对欧洲葡萄牙语和巴西葡萄牙语一视同仁,还是存在显著的方言偏见。

这一评测维度的设计极具工程价值。传统 benchmark 往往只关注语言理解的准确率,而忽视了方言公平性 —— 一个在巴西葡萄牙语数据上过度训练的模型,可能在葡萄牙语考试题上表现优异,却在实际欧洲葡萄牙语场景中频繁出现 “翻译腔” 或用词不当。ALBA 通过精心设计的测试集,专门检验模型对不同葡萄牙语变体的敏感度和适应性。

从 AMÁLIA 的评测结果来看,模型在多数葡萄牙语 benchmark 上优于 Qwen 3-8B 等竞品,但在 ALBA 上的表现仍落后于 Qwen 3-8B。这一结果提示:小语种方言模型的评估不能仅依赖通用的语言理解指标,需要建立与该语言文化背景深度绑定的专项评测。

工程复盘:小语种 LLM 的可落地参数建议

综合 AMÁLIA 的实践经验,为计划构建小语种 LLM 的团队提炼以下工程参数参考:

预训练阶段的数据配比,建议方言数据占比控制在 5-10%,过高会导致通用能力退化,过低则难以形成语言特色;词表若沿用多语言基座模型的原有设计,需通过继续训练周期补偿 tokenization 效率差距;SFT 阶段可适度引入合成数据,但必须建立严格的质量过滤流水线;评测体系应包含方言偏见检测维度,确保模型不会在特定变体上产生系统性偏差。

最后,AMÁLIA 案例印证了一个关键工程洞察:小语种 LLM 的质量瓶颈往往不在模型架构或训练算法,而在于数据工程 —— 语料的采集、清洗、标注和配比策略,才是决定最终模型能力天花板的根本因素。


资料来源

  • AMÁLIA 技术报告(arXiv:2603.26511)
  • Duarte Carmo, "AMÁLIA and the Future of European Portuguese LLMs", duarteocarmo.com

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com