Hotdry.

Article

PlayStation 硬件架构全解析:从内存映射到渲染管线的工程实践

深入剖析初代 PlayStation 的完整硬件架构设计,涵盖 MIPS R3000A CPU 流水线、内存映射策略、DMA 机制与 GPU 渲染管线,提炼可复用的嵌入式系统优化思路。

2026-06-03systems

引言:简单实用的设计哲学

1994 年发布的初代 PlayStation(PS1)标志着游戏主机从 2D 向 3D 时代的跃迁。与同期竞争对手 Sega Saturn 的复杂双 CPU 设计不同,Sony 选择了 "简单实用" 的架构路线 —— 单颗 MIPS R3000A 兼容核心配合专用协处理器,通过精心设计的内存子系统和 DMA 机制,在有限成本内实现了流畅的 3D 渲染能力。

这种设计取舍体现了嵌入式系统开发的核心原则:在硬件资源受限的场景下,通过架构层面的协同优化而非单纯堆砌算力来获得最佳性能。本文将从 CPU 流水线、内存映射、DMA 传输到 GPU 渲染管线,逐层剖析 PS1 的硬件架构设计,并提炼其中可复用的工程实践。

CPU 子系统:RISC 流水线与协处理器架构

MIPS R3000A 兼容核心

PS1 的核心处理器是 Sony CXD8530BQ SoC 中的 CPU 模块,采用 LSI Logic 的 CW33300 核心,与 MIPS R3000A 二进制兼容。其关键参数如下:

参数项 规格
主频 33.87 MHz
ISA MIPS I(32 位字长)
通用寄存器 32 个(R0 硬连线为 0)
乘除法寄存器 2 个(HI/LO)
数据总线 32 位 Main Bus + 16/8 位 Sub Bus
地址总线 32 位(最大 4GB 寻址空间)

五级流水线与延迟槽

CPU 采用经典的五级流水线设计(取指、译码、执行、访存、写回),允许最多五条指令并行处理。MIPS 架构的一个显著特点是 ** 延迟槽(Delay Slot)** 机制:

  • 分支延迟槽:任何跳转或分支指令后的下一条指令总会被执行,无论分支条件是否满足
  • 加载延迟槽:加载指令不会阻塞流水线等待数据返回,后续指令若依赖加载结果需插入填充指令

这种设计将流水线冒险处理的责任从硬件转移到编译器,要求开发者或编译器在延迟槽中填入有效指令或 NOP。虽然增加了编程复杂度,但简化了硬件设计并提高了指令吞吐率。

缓存策略:指令缓存与 Scratchpad

PS1 的缓存配置体现了面向游戏工作负载的优化取舍:

  • 指令缓存:4KB,支持 "隔离" 模式允许程序直接操作缓存内容
  • 数据缓存无传统数据缓存,1KB 空间被映射为 Scratchpad(快速 SRAM)

Scratchpad 作为可寻址的快速存储器,允许开发者显式管理高频访问数据。这种设计避免了缓存未命中的不确定性,特别适合游戏引擎中需要确定性延迟的渲染数据操作。

协处理器体系

MIPS 架构支持最多四个协处理器,Sony 定制了其中三个:

CP0 - 系统控制协处理器

  • 管理指令缓存和 Scratchpad 访问
  • 处理中断、异常和调试断点
  • 在 R4000 后续架构中扩展了 MMU 和 TLB 功能

CP2 - 几何变换引擎(GTE)

  • 专用定点数学处理器,加速向量和矩阵运算
  • 核心功能包括:
    • 3D 投影变换(透视投影计算)
    • 光照计算(深度衰减、颜色值推导)
    • 裁剪操作(外积计算)
    • 多种插值函数
  • 承担图形管线前端的几何处理阶段

MDEC - 运动解码器

  • 独立于 MIPS 协处理器体系,通过内存映射访问
  • 解压 JPEG-like 宏块(8×8 像素,24bpp)
  • 性能:9000 宏块 / 秒,支持 320×240@30fps 的全动态视频(FMV)流

值得注意的是,Sony 未集成 CP1(浮点单元 FPU)。游戏逻辑依赖定点运算(固定位数小数表示),虽然精度受限但避免了软件浮点模拟的性能开销。

内存架构:分层映射与 DMA 优化

物理内存布局

PS1 的内存子系统采用分层设计,各组件拥有专用的存储区域:

内存区域 容量 类型 用途
主内存 2MB EDO DRAM 程序代码、数据、纹理、几何数据
显存 VRAM 1MB VRAM/SGRAM 帧缓冲、纹理、颜色查找表
音频内存 512KB DRAM ADPCM 采样、音序数据
Scratchpad 1KB SRAM CPU 快速工作区
BIOS ROM 512KB ROM 启动程序、系统调用库

总线架构与内存映射 I/O

CPU 的 32 位数据总线分叉为两条:

  • Main Bus(32 位):连接 MDEC 和 GPU,用于高带宽图形数据传输
  • Sub Bus(16/8 位):连接其他外设和 I/O,通过总线接口单元(BIU)桥接

32 位地址空间通过 ** 内存映射 I/O(MMIO)** 方式分配给各子系统。外设如 GPU、SPU、CD-ROM 控制器通过特定地址范围与 CPU 通信,DMA 控制器可直接访问主内存进行块传输。

DMA 机制:解放 CPU 的数据搬运

DMA(直接内存访问)是 PS1 架构的性能关键。当 CD-ROM、MDEC、GPU 或 SPU 需要大块数据传输时,DMA 控制器接管 Main Bus:

  • 传输触发:CPU 配置 DMA 源地址、目标地址和传输长度
  • 总线占用:DMA 传输期间 CPU 无法访问 Main Bus
  • CPU 利用:若代码位于 Scratchpad,CPU 可在 DMA 期间继续执行

这种设计显著提升了数据吞吐效率。例如 FMV 播放时,MDEC 通过 DMA 从 CD-ROM 读取压缩数据,解压后再通过 DMA 写入 VRAM,全程无需 CPU 介入数据搬运。

GPU 渲染管线:固定功能硬件加速

显存组织与帧缓冲策略

PS1 的 GPU 拥有 1MB 专用 VRAM,早期版本使用双端口 VRAM(两个 16 位总线支持并发访问),后期改为单端口 SGRAM(32 位单总线)。VRAM 存储内容包括:

  • 帧缓冲:可配置分辨率,最大 640×480@16bpp
  • 纹理数据:通过颜色查找表(CLUT)索引
  • 颜色查找表:2KB 纹理缓存加速访问

为优化空间利用,GPU 支持可调整帧缓冲策略。开发者可降低分辨率换取更多纹理存储空间,或使用 ** 页翻转(Page Flipping)** 技术分配双缓冲避免画面撕裂。

渲染流程:从几何到像素

PS1 的图形管线分为 CPU 端几何处理和 GPU 端光栅化两个阶段:

阶段一:几何处理(CPU + GTE)

  1. CPU 准备顶点数据(三角形、线段或矩形)
  2. GTE 执行坐标变换、光照计算、透视投影
  3. CPU 进行裁剪,剔除视口外多边形

阶段二:光栅化与着色(GPU)

  1. CPU 通过 64 字节 FIFO 向 GPU 发送渲染命令
  2. GPU 解析命令,执行光栅化(整数坐标系统)
  3. 像素级处理:纹理映射、着色、透明度混合

关键渲染特性与局限

整数坐标与亚像素精度缺失

GPU 采用整数坐标模型,每个坐标对应像素中心点(采样点)。光栅化器不追踪三角形覆盖像素的分数区域,导致:

  • 模型边缘移动时出现跳跃感
  • 相邻三角形竞争同一像素产生闪烁

现代 GPU 通过亚像素精度(记录小数部分)配合抗锯齿缓解此类问题。

顺序表(Ordering Table)替代 Z-Buffer

PS1 无硬件 Z-Buffer,依赖软件排序的顺序表机制:

  • CPU 按深度值(Z-value)排序多边形
  • 将 GPU 命令引用写入顺序表对应槽位
  • DMA 传输顺序表至 GPU,确保从远到近渲染

这种设计将可见面判定责任交给开发者,排序算法的效率直接影响渲染正确性。

仿射纹理映射与透视失真

GPU 执行仿射纹理映射,仅对纹理的 X/Y 坐标进行线性插值,忽略深度(Z)坐标。这导致:

  • 近距离或斜向表面出现纹理扭曲(Texture Warping)
  • 无透视校正使纹理呈现 "漂浮" 感

开发者通过网格细分(将大三角形拆分为小三角形)或纯色填充缓解此问题。现代 GPU 的透视校正纹理映射通过插值 1/Z 坐标解决根本问题。

最近邻采样与无 Mipmapping

纹理采样采用最近邻算法(无过滤),直接选取距离采样点最近的纹素。配合无 Mipmapping 设计,远距离纹理出现明显的 ** 走样(Aliasing)** 和闪烁。

着色模式

GPU 支持两种着色算法:

  • 平面着色(Flat Shading):整个多边形恒定亮度,性能更高(约 2.5 倍)
  • Gouraud 着色:顶点亮度插值,视觉效果更平滑

透明度与特效

PS1 在透明度处理上表现突出:

  • 半透明混合:模拟光线穿透重叠表面
  • 抖动(Dithering):在有限色深下平滑颜色过渡

这些特性与当时主流 PC 显卡相比具有竞争力。

音频子系统:SPU 的流式架构

Sound Processing Unit(SPU) 提供 24 通道 16 位 ADPCM 音频,采样率 44.1kHz(CD 音质):

特性 规格
通道数 24
采样格式 16-bit ADPCM
采样率 44.1 kHz
音频内存 512KB(用户可用 508KB)
特效 音高调制、FM 合成、ADSR 包络、数字混响

ADPCM 压缩比 PCM 更高效,允许在有限内存中存储更多采样。SPU 支持音高调制(实时改变音高减少采样存储)和FM 合成(通道间频率调制),为游戏音乐创作提供灵活性。

CD 控制器可直接将音频流发送至 SPU 混音器,无需经过音频内存或 CPU 干预。XA 编码的音频可被 SPU 实时解码,支持背景音乐流式播放。

系统协同:各子系统的协作机制

PS1 的架构设计强调子系统间的并行协作:

典型渲染帧流程

  1. CPU 运行游戏逻辑,准备场景几何数据
  2. GTE 并行执行顶点变换和光照计算
  3. CPU 排序多边形并填充顺序表
  4. DMA 传输几何数据和命令至 GPU
  5. GPU 光栅化并输出至 VRAM 帧缓冲
  6. 视频编码器 扫描帧缓冲输出至显示器
  7. 若需音频,SPU 独立播放采样或流式音频

FMV 播放流程

  1. CD-ROM 读取压缩视频数据
  2. DMA 传输至 MDEC
  3. MDEC 解压宏块
  4. DMA 传输解压数据至 VRAM
  5. GPU 将视频帧写入显示缓冲

这种流水线设计使各专用硬件单元在各自擅长的领域并行工作,弥补了单核 CPU 算力的局限。

工程启示:资源受限系统的设计智慧

PS1 的硬件架构为现代嵌入式系统和游戏引擎开发提供了诸多可复用的设计思路:

1. Scratchpad 替代数据缓存 在需要确定性延迟的场景(如实时渲染),显式管理的快速存储器比透明缓存更可预测。现代 GPU 的共享内存、主机端的 NUMA 架构均可看到类似思想的延续。

2. DMA 解放 CPU 的批量传输 对于大块数据搬运(纹理加载、音频流、视频解压),DMA 机制可显著提升系统吞吐。设计要点:

  • 配置 DMA 传输时确保 CPU 有独立工作区(如 Scratchpad)继续执行
  • 批量提交 DMA 请求减少总线仲裁开销
  • 预估传输延迟,合理安排流水线阶段

3. 专用协处理器分担计算 GTE 和 MDEC 展示了专用硬件的性价比优势。现代 GPU 的 Tensor Core、NPU 的 MAC 阵列均遵循此思路:将高频、规整的计算 offload 至专用单元。

4. 软件算法弥补硬件局限 无 Z-Buffer 时的顺序表排序、无透视校正时的网格细分,体现了软件层面对硬件局限的补偿。在资源受限场景,算法优化往往比等待硬件升级更具实效。

5. 内存分层与带宽预算 PS1 的 2MB 主存 + 1MB 显存 + 512KB 音频内存分层,要求开发者精细管理数据放置位置。现代游戏引擎的显存管理、资源流式加载(Streaming)均源于此类实践。

结语

初代 PlayStation 的硬件架构是 1990 年代嵌入式系统设计的典范之作。通过 MIPS R3000A 核心配合 GTE、MDEC、SPU 等专用协处理器,辅以精心设计的 DMA 机制和内存分层,Sony 在有限成本内实现了流畅的 3D 游戏体验。

其设计哲学 —— 简单实用、专用优化、软硬协同 —— 至今仍有参考价值。在现代 GPU 编程、嵌入式 AI 加速器设计、实时渲染引擎开发中,我们依然能看到 PS1 架构智慧的影子。


参考来源

systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com