ARM和无锁编程

2020-11-30 23:04:57

苹果M1 ARM处理器的发布启发了我，他在推特上谈到了无锁编程的危险，这引发了激烈的讨论。考虑到在推特的约束下试图讨论像CPU内存模型这样复杂的事情的讨论进行得非常顺利，但是这仍然让我想以博客形式稍微扩展一下这个话题。

这旨在作为对无锁编程的危险的偶然介绍（我上次写它大约是在15年前），而且还解释了为什么ARM的弱内存模型会破坏某些代码，以及为什么该代码可能已经被破坏了。我也想解释为什么C ++ 11严格地改善了无锁情况（尽管有相反的反对）。

强制性免责声明：如果您的代码在线程之间共享数据时始终使用锁，那么您就不必担心这些-正确实现的锁可以避免所有这些数据争用（不同于此视频中的可怕锁）。

无锁编程的基本问题最好通过无锁生产者/消费者模式示例来解释，生产者线程如下所示（省略了数据/函数边界的C ++伪代码）：

g_data1 = calc1（）; g_data2 = calc2（）; g_data3 = calc3（）; g_flag = true; //表示数据已准备好使用

这省略了大量细节（什么时候清除g_flag？线程如何避免旋转？），但足以满足我的目的。问题是，此代码（特别是生产者线程）有什么问题？

基本的问题是代码依赖于在标志之前写入的三个数据变量，但是并没有强制执行该操作。如果编译器重新安排了写操作，则在写入所有数据之前，可以将g_flag设置为true，并且使用者线程可能会看到不正确的值。

优化编译器在重新安排操作方面会非常激进，这是使生成的代码快速运行的方式之一。他们这样做可能是为了减少寄存器的使用，提高CPU管道的使用率，或者仅仅是因为添加了一些随机启发法以使Office XP加载速度更快。编译器为什么要重新安排事情是没有必要考虑太多的，重要的是要意识到它们可以并且可以做。

编译器被“允许”重新排列写入内容，因为“按原样”规则表明，只要生成的程序在没有优化的情况下“按原样”运行，它们就可以完成工作。由于C / C ++抽象机长期以来一直假定执行线程为单线程-没有外部观察者-所有这些写入重新安排都是正确和合理的，并且已经进行了数十年。

那么问题是，必须采取什么措施才能阻止编译器破坏我们漂亮的代码？让我们假设一下，我们是一名大约2005年的程序员，正在努力实现这一目标。这里有一些坏主意：

将g_flag声明为volatile。这可以防止编译器省略对g_flag的读/写操作，但是，令很多人惊讶的是，它不能防止问题重排。不允许编译器相对于易失性读/写重新排序，但允许编译器相对于“正常”读/写重新排列它们。添加volatile并不能解决我们的重新排序问题（VC ++上的/ volatile：ms可以解决，但它是该语言的非标准扩展，可能会生成较慢的代码）。

如果将g_flag声明为volatile还不够，那么请尝试将所有四个变量声明为volatile！然后，编译器无法重新排列写入内容，我们的代码将可以在某些计算机上工作。

事实证明，编译器并不是唯一需要重新安排读写的事情。 CPU也喜欢这样做。这与乱序执行（代码始终不可见）是分开的，实际上，有序CPU会对读/写进行重新排序（Xbox 360 CPU），而乱序CPU大多不会重新排序读取/写入（x86 / x64 CPU）。

因此，如果将所有四个变量声明为volatile，那么您的代码将只能在x86 / x64上正确运行。而且，此代码可能效率很低，因为无法优化对这些变量的读/写操作，从而可能导致多余的工作（例如，当g_data1两次传递给DoSomething时）。

如果您对效率低下的不可移植代码感到满意，请随时在此处停止，但我认为我们可以做得更好。但是，让我们继续将自己限制在2005年可用的选项中。我们现在必须利用…内存障碍。

在x86 / x64上，我们需要一个编译器内存屏障来防止重新排序。这可以解决问题：

g_data1 = calc1（）; g_data2 = calc2（）; g_data3 = calc3（）; _ReadWriteBarrier（）; //仅适用于VC ++并且已弃用，但在2005年还可以g_flag = true; //表示数据已准备就绪，可以使用。

这告诉编译器不要重新布置跨越该障碍的写入，这正是我们所需要的。在写入g_flag之后可能需要另一个障碍，以确保值被写入，但是细节太不确定了，以至于我不想讨论。在使用者线程中应使用类似的屏障，但为了使事情保持简单，我现在暂时忽略该线程。

问题是该代码在内存模型较弱的CPU上仍然被破坏。 “弱”内存模型表示可以对读和写进行重新排序（以提高效率或简化实现）的CPU，其中包括ARM，PowerPC，MIPS，除x86 / x64以外，基本上每个使用中的CPU。解决该问题的方法也是内存障碍，但这一次它需要是一条CPU指令，该指令告诉CPU不要重新排序。像这样：

g_data1 = calc1（）; g_data2 = calc2（）; g_data3 = calc3（）; MemoryBarrier（）; //仅Windows，以及昂贵的完整内存屏障。 g_flag = true; //表示数据已准备就绪，可以使用。

MemoryBarrier的实际实现取决于CPU。实际上，正如评论所暗示的那样，MemoryBarrier并不是真正的理想选择，因为我们只需要写/写屏障，而不是昂贵得多的完整内存屏障（这会使读取等待写入完全完成），但这已经足够了为了我们今天的目的。

我假设MemoryBarrier内在函数也是编译器的内存障碍，因此我们只需要一个，另一个，因此我们出色/高效的生产者线程现在变为：

#ifdef X86_OR_X64 #define GenericBarrier _ReadWriteBarrier #else #define GenericBarrier MemoryBarrier #endif g_data1 = calc1（）; g_data2 = calc2（）; g_data3 = calc3（）; GenericBarrier（）; //为什么我必须自己定义这个？ g_flag = true; //表示数据已准备就绪，可以使用。

如果您的2005年前后代码没有这些内存障碍，那么您的代码在所有CPU上都将被破坏，并且一直被破坏，因为始终允许编译器重新排列写入。有了这些内存屏障（根据不同的编译器和平台的需要实现），您的代码就变得美观且可移植。

事实证明，ARM的内存不足模型并没有使事情变得更加复杂。如果您正在编写无锁代码且未使用任何类型的内存屏障，则由于编译器重新排序，您的代码可能会在任何地方损坏。如果您使用内存屏障，则应该很容易地将它们扩展为包括硬件内存屏障。

上面的代码容易出错（障碍会去哪里？），冗长且效率低下。幸运的是，当C ++ 11出现时，我们有了更好的选择。在C ++ 11之前，该语言并没有真正的内存模型，只是隐含的假设是所有代码都是单线程的，如果您触摸了锁之外的共享数据，那么上帝会怜悯您的灵魂。 C ++ 11添加了一个内存模型，该内存模型承认线程的存在。这使上面的无障碍代码更明确地被破坏了，但是还提供了修复它的新选项，如下所示：

g_data1 = calc1（）; g_data2 = calc2（）; g_data3 = calc3（）; g_flag = true; //表示数据已准备就绪，可以使用。

更改是微妙的，容易错过。我所做的只是将g_flag的类型从bool更改为std :: atomic 。这告诉编译器不要忽略该变量的读写，不要在对该变量的读写之间重新安排读写，并根据需要添加适当的CPU内存屏障。

通过使用memory_order_release，我们可以告诉编译器确切的操作，以便它可以使用适当（便宜）类型的内存屏障指令，或者对于x86 / x64，可以不使用内存屏障指令。现在，我们的代码相对干净并且完全有效。

此时，编写使用者线程很容易。实际上，使用新的g_flag声明，使用者线程的原始版本现在是正确的！但是，我们可以对其进行一些优化：

std :: memory_order_acquire标志告诉编译器我们不需要完整的内存屏障–读取-获取屏障仅可确保g_flag之前的数据值不来自共享存储，而不会阻止其他重新排序。

整理代码以使线程可以避免繁忙等待和其他问题留给读者练习。

如果您想学习这些技术，请先仔细阅读Jeff Preshing关于无锁编程的介绍，或者这就是为什么他们称其为弱指令CPU，然后考虑加入修道院或女修道院。无锁编程是C ++工具箱中最危险的锤子，也就是说很多，而且很少适用。

Jeff Preshing对无锁编程进行了更现代的介绍（并感谢本文中的预发布建议）

https://randomascii.wordpress.com/2020/11/29/arm-and-lock-free-programming/

Io_uring和eBPF将彻底改变Linux中的编程

2020-11-27 3:10

开始编程时我希望知道的6件事

2020-11-26 18:21

Janki方法–使用SRS改进编程（2011）

2020-11-25 20:52

带有答案集编程的规则引擎和知识密集型处理

2020-11-25 3:46

tags users