欧洲葡萄牙语 LLM 训练管线：AMÁLIA 项目的数据策略与 tokenization 优化

在大型语言模型领域，英语与汉语凭借海量语料占据绝对优势，而葡萄牙语这类欧洲小语种面临着截然不同的工程挑战。AMÁLIA 作为葡萄牙政府主导的欧洲葡萄牙语 LLM 项目，在 €5.5M 国家投资支持下走出了一条 dialect-specific training 的技术路径。本文从工程化视角剖析其数据策略与 tokenization 优化，为小语种 LLM 训练提供可复用的参数参考。

项目背景与技术选型

AMÁLIA 并未从零开始训练基础模型，而是选择对 EuroLLM 进行继续预训练（continuation pretraining）。这一决策背后有着清晰的数据逻辑：从头训练需要数十万亿 tokens 的高质量语料，而欧洲葡萄牙语作为仅有约 1000 万母语使用者的语种，其可用语料规模远不足以支撑充分的基础训练。继承 EuroLLM 的预训练权重，在其基础上注入针对性的方言数据，成为一条更为务实的工程路径。

架构层面，AMÁLIA 沿用了 EuroLLM 的基础设计，仅对上下文长度和 RoPE（Rotary Position Embedding）缩放参数进行了微调。上下文扩展在方言模型中尤为重要 —— 欧洲葡萄牙语中大量包含长程回指的文化文本、法律条文和新闻报道，需要模型具备足够的上下文窗口来捕捉跨句甚至跨段的语义关联。

数据配比策略：预训练阶段的 5.5% 困境

预训练数据的配比是决定方言模型质量的核心工程问题。根据 AMÁLIA 技术报告，其扩展预训练阶段共使用 107B tokens，其中明确标注为欧洲葡萄牙语的 Arquivo.pt 数据仅占 5.8B tokens，比例约为 5.5%。这一数字在工程社区引发了讨论：对于一个 “葡萄牙语模型” 而言，这一比例是否足够？

从数据工程角度看，5.5% 的比例意味着模型在 94.5% 的训练步中接触的是多语言混合语料。这种设计有其合理性 —— 多语言联合训练可以让模型从其他语言中迁移通用知识和推理能力，避免小语种模型常见的 “知识窄化” 问题。但风险同样存在：如果方言特定知识的注入比例过低，模型可能难以形成对欧洲葡萄牙语语音语调、语法结构和文化背景的深度内化。

实践中，AMÁLIA 团队在预训练阶段采用了渐进式数据注入策略：初期使用更偏向多语言通用数据建立基座能力，中后期逐步增加葡萄牙语数据的采样权重。这种策略有效缓解了 “方言漂移” 问题，但具体的权重调度曲线和切换时间点属于未公开的工程细节。

SFT 阶段的数据工程：17-18% 的合成数据路径

进入监督微调（Supervised Fine-Tuning）阶段，AMÁLIA 的葡萄牙语数据比例提升至 17-18%。这一跃升背后的主要手段是合成数据生成 —— 团队通过高质量种子数据引导，生成了大量结构化的葡萄牙语训练样本。

合成数据在小语种场景下是重要的工程杠杆。其优势在于：可以精确控制语法复杂度、主题分布和方言特征；可以生成在真实语料中稀缺的高质量指令 - 响应对；可以通过数据增强技术覆盖更多边缘用例。但合成数据也带来了质量评估的挑战 —— 如何确保生成的葡萄牙语既符合欧洲葡萄牙语的语法规范，又避免引入 “机器翻译腔”？

AMÁLIA 团队在合成数据生成中采用了多轮迭代过滤机制：首先使用种子数据微调生成模型，随后对生成的候选样本进行语法检查、风格一致性和文化准确性评估，最终保留通过所有过滤器的样本进入 SFT 训练集。这一流水线的具体参数 —— 如每轮过滤的接受率阈值、评估模型的选择 —— 是值得小语种 LLM 项目参考的工程细节。

Tokenization 优化：小词表与子词切分的工程权衡

Tokenization 是小语种 LLM 训练中最容易被忽视却影响深远的环节。主流 LLM 多采用基于 SentencePiece 或 BPE 的分词器，其词表大小和子词切分规则直接影响模型的训练效率和推理质量。

欧洲葡萄牙语在 tokenization 层面面临几个独特挑战。首先，葡萄牙语中存在大量动词变位形式（动词根据人称、时态和语气产生数十种变形），这使得基于频率的 BPE 分词器倾向于将动词的不同时态切分为不同 tokens，增加了模型需要学习的组合形式数量。其次，欧洲葡萄牙语与巴西葡萄牙语在词汇选择和语法细节上存在差异，共享词表设计需要考虑这种方言变体的兼容性。

从 AMÁLIA 的技术报告推断，项目采用了相对保守的词表策略 —— 未进行大规模词表扩展，而是在 EuroLLM 原有词表基础上通过继续训练让模型自适应。这种 “冻结词表 + 继续训练” 的方式避免了词表膨胀带来的参数量增加，但也意味着模型需要依赖更长的 token 序列来表示某些葡萄牙语特有的语义单元。

对于计划构建其他小语种 LLM 的团队，建议在项目初期进行 tokenization 效率基准测试：统计目标语言在固定词表下的平均 token 序列长度、与英语的 token 效率比值、以及高频词的覆盖情况。若发现 token 效率显著低于预期，可能需要考虑定制词表训练。

方言评测体系：从 ALBA 基准看评估设计

高质量的评测体系是方言模型迭代优化的指南针。AMÁLIA 团队为此开发了四套新的评测基准，其中最具代表性的是 ALBA（European Portuguese Language Benchmark）。ALBA 的设计理念聚焦于一个核心问题：模型是否对欧洲葡萄牙语和巴西葡萄牙语一视同仁，还是存在显著的方言偏见。

这一评测维度的设计极具工程价值。传统 benchmark 往往只关注语言理解的准确率，而忽视了方言公平性 —— 一个在巴西葡萄牙语数据上过度训练的模型，可能在葡萄牙语考试题上表现优异，却在实际欧洲葡萄牙语场景中频繁出现 “翻译腔” 或用词不当。ALBA 通过精心设计的测试集，专门检验模型对不同葡萄牙语变体的敏感度和适应性。

从 AMÁLIA 的评测结果来看，模型在多数葡萄牙语 benchmark 上优于 Qwen 3-8B 等竞品，但在 ALBA 上的表现仍落后于 Qwen 3-8B。这一结果提示：小语种方言模型的评估不能仅依赖通用的语言理解指标，需要建立与该语言文化背景深度绑定的专项评测。

工程复盘：小语种 LLM 的可落地参数建议

综合 AMÁLIA 的实践经验，为计划构建小语种 LLM 的团队提炼以下工程参数参考：

预训练阶段的数据配比，建议方言数据占比控制在 5-10%，过高会导致通用能力退化，过低则难以形成语言特色；词表若沿用多语言基座模型的原有设计，需通过继续训练周期补偿 tokenization 效率差距；SFT 阶段可适度引入合成数据，但必须建立严格的质量过滤流水线；评测体系应包含方言偏见检测维度，确保模型不会在特定变体上产生系统性偏差。

最后，AMÁLIA 案例印证了一个关键工程洞察：小语种 LLM 的质量瓶颈往往不在模型架构或训练算法，而在于数据工程 —— 语料的采集、清洗、标注和配比策略，才是决定最终模型能力天花板的根本因素。

资料来源

AMÁLIA 技术报告（arXiv:2603.26511）
Duarte Carmo, "AMÁLIA and the Future of European Portuguese LLMs", duarteocarmo.com

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。