Apple M1微架构研究

2021-03-07 23:27:30

这是在Apple M1中的CPU中的微型建筑文件的早期尝试，灵感来自Andreas Abel，Andrei Frumusanu，@Veedrac，Travis Downs，Henry Wongand Aganter Fog的惊人工作。本文档是我的最佳努力，但它基于黑匣子逆向工程，肯定会有错误。没有任何形式的保修（而不仅仅是作为法律技术性）。为了更容易验证信息和/或识别此类错误，指令表中的条目链接到实验和结果（〜35K计数器值）。

这些被称为＆＃34;单位＆＃34;如果Apple发布官方文件，则尝试避免混淆，因为他们可以将它们称为＆＃34;端口＆＃34;或者＆＃34;管道＆＃34;，它们不同地订购。（如果这只是引起更多的混乱，我道歉。）

整数单位：1：alu +标志+分支+ ADR + MSR / MRS NZCV + MRS 2：ALU + FLAGS + BRANCL + ADR + MRS / MRS NZCV 3：ALU + FLAGS + MOV-FROM-SIMD / FP？ 4：alu + mov-from-simd / fp？ 5：ALU + MUL + DEV 6：ALU + MUL + MADD + CRC + BFM / extload和商店单位（最多128位负载和商店，包括转移到LSL＃3的地址生成）：7：Store + AMX 8：负载/存储+ AMX 9：负载10：LoadFP / SIMD单元：11：FP / SIMD 12：FP / SIMD 13：FP / SIMD + FCSEL +至-GPR 14：FP / SIMD + FCSEL +至GPR + FCMP / E + FDIV + FRECPE + FRSQRTE + FJCVTZS + URSQRTE + URECPE + SHA

如果在指令流中连续出现，则某些指令能够作为一个UOP发出。

添加/潜艇/和/和CMP / TST + B.CC（完全融合当融合指令时每6条指令读取不超过4个寄存器）

PMULL + EOR（通常融合如果操作数匹配模式＆＃34; a，b，c; a，a，d＆＃34;或＆＃34; a，b，c; a，d，a＆＃34;）

AMX + AMX（不包括负载和商店 - 可能融合到STP的内容）

MOV IMM / MOVZ / MOVN（每8条指令的最大2个由Renamer处理，包括所有测试＆＃34; MOV＆＃34;）

MADD＆＃39; S输出可以通过1c延迟传递给第三个操作数（附加品），但如果它＆＃39;与其他指令链接，它有3c延迟。

负载可以传递给具有3C延迟的其他负载的基础地址（对于链接列表很好），但用alu操作链接给出了4c的延迟。（尽管LDP中的第二个目的地寄存器始终具有4C延迟。）

SIMD / FP往返延迟的整数可以低至7C（例如链接标志操作时）。

Firestorm每周期可以退出八个指令，但可以发出更多UOPS（使用隐式移位或在ALU操作上延伸，因此其他UOPS单独退休）。

这些数字主要来自M1缓冲区大小测量工具。M1似乎在验证缓冲区的行中使用某些东西，而不是传统的重新排序缓冲区，它符合测量值。所以这些可能或可能不准确。

https://dougallj.github.io/applecpu/firestorm.html