在数字硬件领域,一个两输入门足以实现全部布尔逻辑,这一事实已成为计算机科学的基础常识。然而在连续数学领域,计算初等函数(如 sin、cos、sqrt、log)历来需要多种不同运算的组合。2026 年 3 月发表于 arXiv 的一篇论文彻底颠覆了这一认知:波兰克拉科夫雅盖隆大学的 Andrzej Odrzywołek 发现,单一二元运算符 eml (x,y) = exp (x) − ln (y) 配合常数 1,便能生成科学计算器的完整功能集。这项发现不仅在数学上具有深刻意义,更为编译器的数值计算优化与符号回归提供了全新思路。
EML 运算符的数学发现
EML(Exp-Minus-Log)运算符的定义简洁优雅:eml (x, y) = exp (x) − ln (y)。作者通过系统性穷举搜索发现了这一惊人事实。在此之前,数学界普遍认为不存在这样的「单一原语」能够生成全部初等函数。所谓初等函数,是指由常数、变量、基本代数运算(加、减、乘、除、幂运算)以及初等超越函数(指数、对数、三角函数、反三角函数、双曲函数等)经过有限次复合得到的函数。传统数值计算依赖库函数实现这些功能,每种函数都需要独立算法支持。
该论文发表于 arXiv(编号 2603.21852),属于符号计算(cs.SC)与机器学习(cs.LG)交叉领域。提交于 2026 年 3 月 23 日,2026 年 4 月 4 日发布修订版。值得注意的是,作者不仅证明了 EML 的表达能力,还提供了具体的构造方法与形式化证明。
从单一运算符到完整函数库
EML 运算符的威力在于其递归表达能力。配合常数 1,基本函数的构造方式如下:exp (x) = eml (x, 1) 这一公式直接来自运算符定义,因为 exp (x) − ln (1) = exp (x) − 0 = exp (x)。对于对数函数,构造更为复杂:ln (x) = eml (1, eml (eml (1, x), 1))。通过这种递归嵌套,研究者能够生成全部算术运算(加法、减法、乘法、除法、幂运算)以及常见的超越函数(三角函数、双曲函数、反三角函数等)。
更令人惊讶的是,这一运算符还能生成重要数学常数。通过复数域的操作,可以得到自然常数 e、圆周率 π 以及虚数单位 i。例如,e 可以通过 exp (1) = eml (1, 1) 直接得到,而 π 和 i 则需要更复杂的复数构造。这种从单一原语出发构建完整常数与函数体系的能力,在数学上具有高度的美学价值。
论文给出了形式化的文法描述:在 EML 形式下,每个表达式都成为一棵二叉树,树的每个节点都是相同的 eml 运算符。这种统一结构对应于如下文法:S → 1 | eml (S, S)。这意味着任何初等函数都可以表示为一个仅包含常量和二元运算符的二叉树结构,其中所有内部节点都是 exp 与 ln 的特定组合。
对编译器设计的深远启示
从编译器工程的视角审视,EML 发现揭示了数值计算单元设计的全新可能性。传统编译器在生成浮点运算代码时,通常依赖数学库函数或指令集内置的特殊功能单元。EML 统一结构的存在意味着,理论上可以设计一种仅包含 exp 和 ln 两个基本运算的处理器,通过固件或微码实现全部科学计算功能。这种「单一原语」思路与数字电路中 NAND 门或 NOR 门构成全部逻辑电路的理念一脉相承。
然而,实际应用中需要谨慎权衡精度与效率。EML 构造的函数虽然理论上可行,但嵌套层数直接影响数值精度。每次 exp 或 ln 运算都会引入舍入误差,深度嵌套可能导致误差累积。在实际编译器优化中,更可行的策略是将 EML 作为中间表示层,用于符号简化与常量折叠,而非直接生成目标代码。编译器可以先将复杂的数学表达式转换为 EML 树形结构,利用其统一性进行优化(如公共子表达式消除),最后转换为高效的机器指令序列。
梯度下降驱动的符号回归
论文的另一重要贡献是展示了 EML 树形结构在机器学习中的应用潜力。由于任何初等函数都可以表示为固定深度的 EML 二叉树,研究者提出了基于梯度下降的符号回归方法。将 EML 树视为可训练的电路,使用标准优化器(如 Adam),能够在浅层树深度(至多 4 层)下从数值数据精确恢复闭式初等函数。
这一方法的数学基础在于:EML 树的结构天然适合反向传播计算。每个节点的梯度可以递归求得,因此可以使用链式法则进行端到端训练。当底层的真实生成规律是初等函数时,该方法有可能精确恢复公式;而对于任意数据,它仍然能够拟合,但恢复精确公式的能力取决于数据是否来自初等函数。
这一特性为科学发现与系统辨识提供了新工具。研究者不再需要手动设计特征或搜索表达式空间,而是将问题转化为监督学习任务。训练过程中,模型自动探索 EML 树的不同配置,逐步逼近目标函数。更重要的是,由于 EML 树的表达能力是有限的(受限于树深度),过拟合风险相对可控,这在一定程度上缓解了神经网络可解释性不足的问题。
工程实现的考量与局限
尽管 EML 运算符在理论上具有优雅的完整性,实际工程落地仍面临若干挑战。首先是数值稳定性问题:exp 函数在参数较大时容易溢出,ln 函数在参数接近零时趋向负无穷。EML 嵌套构造可能放大这些数值问题,需要额外的区间分析与缩放策略。其次是计算效率:即使采用高精度实现,EML 树的求值通常比直接调用优化过的数学库函数慢数个数量级。因此,EML 更适合作为编译器中间表示或特定场景(如硬件原语简化),而非通用计算的首选方案。
其次,EML 运算符的定义涉及复数域,这在实数运算为主流的场景中增加了复杂性。生成复数结果需要额外的分支判断与类型转换,可能抵消统一结构带来的简洁性优势。此外,作者在论文中也承认,当前构造主要针对科学计算器标准函数集,更广义的特殊函数(如伽马函数、椭圆积分)是否也能纳入这一框架仍是开放问题。
总结与展望
EML 运算符的发现是数学与计算机科学交叉领域的重要进展。它证明了「单一二元运算加常数」足以生成全部初等函数的惊人事实,为编译器数值计算优化、硬件设计以及机器学习符号回归提供了全新视角。这一发现的核心价值不在于立即取代现有数值计算库,而在于揭示了初等函数之间潜在的统一结构,为后续研究开辟了若干方向:如何在保持精度的前提下优化 EML 构造的计算效率、如何将更多特殊函数纳入统一框架、如何在硬件层面实现高效的 EML 运算单元,这些问题值得编译器开发者和系统架构师深入探索。
资料来源:本文主要参考 arXiv 论文「All elementary functions from a single binary operator」(编号 2603.21852),作者为克拉科夫雅盖隆大学 Andrzej Odrzywołek,发表于 2026 年 3 月。