硬件辅助的 Intel MPK（Memory Protection Keys）与用户态内存域动态隔离

硬件辅助的 Intel MPK（Memory Protection Keys）与用户态内存域动态隔离

你之前已经了解了多种内存安全加固技术，比如硬件辅助的MPU强化、内存标记扩展（MTE）、页表隔离等。今天我们把视角转向一种更轻量、更适用于用户态程序动态内存隔离的硬件特性——Intel Memory Protection Keys（MPK），以及如何基于它构建灵活的运行时内存域隔离机制。

1. 问题背景：为什么用户态需要动态内存隔离？

在传统进程中，不同模块（如主逻辑、插件、加解密库）共享同一个地址空间。一旦某个模块被攻破（例如通过缓冲区溢出），攻击者可以轻易读取或篡改同一进程中其他模块的敏感数据（如私钥、会话令牌）。常见的缓解手段包括：

进程隔离：把不同模块放到不同进程，通过IPC通信。缺点是上下文切换开销大，共享内存复杂。
独立沙箱：如seccomp、命名空间，但粒度通常较粗，且需要进程边界。
纯软件隔离：如SFI（软件故障隔离），用代码插桩检查内存访问，性能损耗明显。

理想方案是：在同一进程内，为不同内存区域动态分配不同“权限钥匙”，只有持有正确钥匙的代码才能访问对应区域，并且可以在运行时快速切换权限组合。Intel MPK正是为此设计的硬件机制。

2. Intel MPK 核心原理：钥匙与门

MPK是x86-64架构上的一组轻量级扩展（从Skylake服务器处理器开始支持）。它不修改页表基础结构，而是在现有4KB页表条目中复用了4个未使用的位（位62-59），称为保护键（Protection Key）。每个页可以被标记为0~15共16个键之一。

与之配套的，每个逻辑核有两个用户态可访问的特殊寄存器：

PKRU（Protection Key Rights for User pages）：一个32位寄存器，每2位控制一个键（键0~15）。每2位的含义：
- AD（Access Disable）：设为1时，禁止该键对应的页的任意读写。
- WD（Write Disable）：设为1时，禁止写入（但允许读）。
- 注意：若AD=1，无论WD如何，都不能读写。
IA32_PKRS（仅在某些较新微架构，如Sapphire Rapids，用于管理多租户，但基础MPK只需PKRU）。

关键点：PKRU寄存器的修改使用两条新指令：

RDPKRU：读PKRU。
WRPKRU：写PKRU。这些指令属于用户态指令，不需要系统调用！因此可以在纳秒级完成权限切换。

3. 工作流程：一步一步的动态隔离

假设我们要保护一个进程内的敏感缓冲区（比如存储RSA私钥），禁止主业务代码直接访问，仅允许专门的“安全函数”访问。

步骤1：分配内存并打标签
使用 mmap 或 posix_memalign 分配一块内存，然后调用 pkey_alloc 系统调用（内核分配一个未使用的保护键，比如键5）。接着调用 pkey_mprotect 将该内存区域与键5绑定。内核会设置对应页表项中的保护键位。

步骤2：初始权限设置
我们希望初始时除了安全函数外，谁都不可访问。所以可以调用 wrpkru 将键5的AD位设为1（禁止访问）。此时，当前线程（以及同线程）任何尝试访问该区域的指令都会触发#GP（通用保护故障）。

步骤3：安全函数访问敏感数据
在进入安全函数之前，调用wrpkru清除键5的AD位（可能也根据需要设WD位为0或1）。然后执行敏感数据的读写。完成后，立即调用`wrpkru再次将键5的AD位设置为1，重新锁上内存。

步骤4：切换与并发

每个CPU核心有独立的PKRU。不同线程可以有不同的访问权限组合。
线程A可以持有键5的读权限，线程B不持有。这比修改页表（需要IPI中断刷新TLB）快得多。

4. 典型应用场景

加密库内部分离：OpenSSL/boringssl等库可以用MPK保护私钥材料，仅在准备签名/解密时短暂开放权限，其余时间完全不可访问，防御心脏滴血类漏洞导致的密钥读取。
JIT引擎的安全区：JavaScript引擎中，用MPK隔离JIT生成的代码与内部解释器状态，防止恶意JIT代码篡改引擎管理结构。
插件架构隔离：一个进程内加载多个第三方插件，每个插件拥有自己的内存域（不同保护键），主机程序在调用插件前授予其对应键的读写权，调用后立即回收，避免插件A窥探插件B的数据。
运行时数据流监控：动态污点追踪时，用MPK标记污点内存区域，在敏感操作前快速检查当前是否允许访问。

5. 与其它内存隔离技术的对比

技术	粒度	切换开销	需要系统调用	跨域通信复杂度
进程隔离	进程级	高（上下文切换）	是	高，IPC或共享内存
页表隔离（如KPTI）	页级	中（TLB flush）	是	中
内存标记扩展（MTE）	16字节粒度	低（硬件检查）	否（但需设置标记）	依赖软件协作
Intel MPK	页级（4KB）	极低（单条指令）	仅分配键时	低，直接指针+权限切换

MPK的最大优势：权限切换只需用户态WRPKRU指令，约纳秒~几十纳秒。且支持16个独立键，可灵活组合。

6. 局限性及注意事项

键数量有限：只有16个（0~15），其中键0通常默认与所有未标记MPK的页关联（且行为取决于操作系统约定，Linux中键0无法禁用访问）。实际可用约15个。
只适用于用户态：内核态代码不能直接使用MPK（但内核可以为用户态管理PKEY资源）。
不支持细粒度小于页：一个页内的所有数据共享同一个保护键。
调试困难：#GP故障如果由于PKRU权限不足，需要检查PKRU值，容易与其它内存访问异常混淆。
操作系统的支持：Linux从4.9内核开始支持pkey相关系统调用（pkey_alloc, pkey_free, pkey_mprotect）。需要硬件支持（通过CPUID检查cpuid (EAX=0x07, ECX=0x0): ECX.PKU [bit 3]）。

7. 安全增强组合实践

MPK + 影子栈（Shadow Stack）：用MPK隔离返回地址存储区域，防止ROP改写返回地址。
MPK + 控制流完整性（CFI）：将间接跳转目标表放在单独的保护键页中，正常执行时只读，切换前短暂开放。
MPK + 动态代码多样性：不同线程/不同执行阶段，将指令流的解码表放入不同键域，利用动态切换增加攻击者推测难度。
MPK + 内存加密：对于极敏感数据，MPK提供访问控制，而内存加密（如TME-MK）防止物理攻击读取，两者互补。

8. 简单的使用伪代码（Linux，x86_64）

#include <sys/mman.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <asm/prctl.h>
#include <linux/prctl.h>
#include <stdint.h>

// 封装wrpkru
static inline void wrpkru(uint32_t pkru) {
    uint32_t eax, edx;
    eax = pkru;
    edx = 0;
    asm volatile(".byte 0x0f,0x01,0xef\n\t"
                 : : "a" (eax), "d" (edx));
}

int main() {
    int pkey = syscall(SYS_pkey_alloc, 0, 0);
    // 分配4K内存并绑定pkey
    char *secret = mmap(NULL, 4096, PROT_READ|PROT_WRITE,
                        MAP_PRIVATE|MAP_ANONYMOUS, -1, 0);
    syscall(SYS_pkey_mprotect, secret, 4096, PROT_READ|PROT_WRITE, pkey);
    
    // 默认禁止访问
    uint32_t pkru_val = (1 << (2*pkey));       // AD=1, WD=0 (AD生效时WD忽略)
    wrpkru(pkru_val);
    
    // 以下访问会#GP
    // secret[0] = 'A';
    
    // 临时开放写权限（清除AD位，保留WD=0表示允许写）
    pkru_val &= ~(1 << (2*pkey));
    wrpkru(pkru_val);
    secret[0] = 'A';      // 成功
    // 再次锁上
    pkru_val |= (1 << (2*pkey));
    wrpkru(pkru_val);
}

9. 未来演进：MPK与更细粒度权限

Intel后续对MPK进行了增强（如AMX扩展中的新指令），AMD也引入了类似的PKRU支持（硬件辅助内存隔离，近似）。在Linux 5.13+，还支持了pkey_write等系统调用增强。同时在用户态库中，如Google的SafeStack结合MPK使用。

通过MPK，我们获得了一种 低开销、动态、线程本地、用户态自主 的内存域隔离能力。它不是万能钥匙，但在许多需要高性能细粒度内存保护的主机安全加固场景中，是极具价值的一环。