当Unix学会重新启动时(2)

2020-07-28 11:15:53

最近，一位朋友问我HALT的历史，在运行HALT或重新启动之前，我们必须在SYNC/SYNC/SYNC舞蹈中停止的时间是什么时候。事实证明，这两者是相关的。

如果你浏览一下网络，你会发现有些人会给出这样的建议，比如关机时，输入sync；stop；保证安全。这条建议背后有一些很好的理由，但这些理由并不是马上就清楚的，而且值得一探。在探索之前，我被告知同步舞蹈的原因是V6中的一个驱动程序错误，这个错误在45年前就已经修复了……。但事实证明，告诉我这件事的人一定是弄错了，因为代码讲述了一个不同的故事……。

同步程序调用同步系统调用并退出(现在仍在)。Unix研究版中的同步系统调用的实现方式大致如下：

它将遍历系统中固定的缓冲区列表，写出脏的缓冲区。它使用bwrite()来实现这一点，这是同步的。每次写入都必须在下一次写入开始之前完成。Iupdat将从磁盘读取inode，更新该inode，然后再次同步写出。Bflush使用bwrite写入所有内容，但将缓冲区标记为B_ASYNC，这意味着在这种情况下它不会等待。也没有其他东西在等待了。因此，建议键入sync 3次，每次一行，以便有时间耗尽缓冲区(后续同步将不会在安静的系统上调度新的I/O)。用分号在一行中输入所有这三个字符，这一次没有给出具体的时间。

如果你看一下推荐信，你会发现它实际上相当聪明。每次键入一行，每次等待提示符，第一次会安排大量I/O，然后给操作员几秒钟的无害任务，让他们在采取任何操作之前完成I/O。内核避免了稍后系统在实现等待I/O完成时将面临的各种令人讨厌的死锁。

编辑：传授给我的一个小知识是第一个同步立即返回，但是第二个被阻止了。我在基于BSD或System V的系统中找不到这方面的证据……。尽管随着Unix中并发性的增加，针对同步代码中的多线程的保护量也在增加。

没有一个Research Unix版本需要重新启动系统调用。要重新启动程序，需要用SIGHUP杀死init，这反过来又会杀死其他所有东西，并在单个用户中派生一个新的shell。没有其他方法可以重新启动系统，如果init真的死了，就会发生不好的事情。但是没有干净的重启选项，也没有干净地停止内核的方法(除了电源开关)。

从消息来源来看，有一个小小的暗示，那就是有些事情是计划好的，但从未执行过。所有系统调用都在/usr/include/sys.s中定义。仔细检查会发现以下几点：

这证明我错了，对吧？嗯，也许不是。查看sysen.c，我们可以看到以下内容：

它将nosys&39；列为处理程序，因此没有实现。没有重新启动系统调用。我还会注意到还有另一个断开：系统调用59被列为setinf(不管是什么)，但被实现为exe。

我能找到的对reboot(2)的第一个引用是在sysen.c的4.0BSD中，我们看到以下内容；

其中重新启动落在为其分配的插槽中。在/etc/中有一个新命令调用它(通过syscall号，而不是普通的包装器)。它在2.8BSD中没有，但在2.9BSD及更高版本中也以类似的形式出现。3BSD仍有指向nosys的占位符。因为2BSD的进化跟踪了4BSD，所以我不会再说了。

在4.0BSD(1980)中，reboot()只调用与机器相关的boot()例程。它调用update()，如上所述调度写入。它打印出正在等待IO完成。然而，等待的代码基本上是睡眠，所以如果所有的数据没有在5秒内传出，糟糕的事情就会发生。因此，同步停止舞蹈仍然是有用的建议。根据打字员的不同，它会让你的工作进行得很顺利，并轻松地将数据存入磁盘的时间增加一倍。4.1C(1982)将其调整为10s，并使用ifdef&d代码尝试等待所有脏缓冲区清除。

在4.2BSD(1983)中，开始等待写入代码。它尝试遍历系统中的Buf列表多达20次，让缓冲区排空。因此，这里取得了进展。4.3增加40ms*ITER(总计8.4秒)的延迟...。这至少会持续到4.4BSD(1993)……所以，当情况变得更好时，系统也会变得更好，可能会堆积越来越多的I/O。后续的BSD系统也在此基础上进行了改进，包括各种解决方法(主要是当系统变得足够大时，这样在下次同步调用开始之前，update(8)不会在30秒内刷新所有I/O)。

与此同时，在AT&；T方面，System III(1980)什么都没有。系统VR1没有任何内容。所有程序员工作台版本(PWB)均未重新启动(2)。

System Vr2(1984)定义了一个新的uadmin(2)系统调用。它的作用类似于间接系统调用(您向它传递了您希望它作为第一个参数执行的操作)。其中之一A_reboot是从fsck调用的，但是内核并不实现它。

快进到系统VR3(1987)，我们找到一个实现。它基本上是调用/filessystem的umount，然后调用重置CPU。其他文件系统在uadmin(A_REBOOT，..)之前作为关闭过程的一部分进行卸载。被调用，因此在被调用时仅/保持挂载状态。这个对umount的调用会刷新脏缓冲区，并干净利落地展开其他所有内容，以便在调用CPU重置时不会出现任何挂起的情况。所以最终同步停止的问题已经解决了。嗯，也许..。没有超时，也没有任何避免死锁的方法。尽管如此，这仍然是一个相当干净的问题解决方案，特别是相对于BSD当时正在做的事情。

即使是从早期泄露的消息来源的可用性。然而，到SunOS达到4.1版本时，有一个vfs_syncall()，MD boot()函数调用它来同步所有内容(它只在所有调度的I/O完成时返回)。我没有检查过这里是否存在停机问题，但重新启动许多Sun的经验证据表明，实际上，如果有任何I/O不知何故被卡住了……或者我足够幸运地没有足够多的机器，在这些机器上开始出现薄片磁盘问题，那就很少有问题了。我找不到Sun源代码的任何早期版本，所以很难知道这个解决方案是什么时候进入树中的(我查看的代码可以追溯到1994年，也就是最初发布11年后)。“我怀疑Sun很早就解决了这个问题，但凭直觉没有证据证明这一点。”

其他UNIX，不仅仅是system V端口，在源代码形式中很难找到，所以我不能从原始来源说出他们是否在system VR3之前解决了这个问题。还有很多4.2BSD和4.3BSD端口都没有存活下来，无法接受检查。

这条一般规则的一个例外是我在位保护程序上找到的Unisoft 1.0内核的副本。它可以追溯到1986年(所以相对较晚)。它有一个重新启动系统调用(编号64，而不是55)。该系统调用调用update()，就像4BSD'；s一样，但在调用重置CPU的例程之前，会执行一个较大的for()循环(1到1,000,000)。该内核是一个V7端口，很可能是从某个4BSD发行版中获得了想法(可能还有代码)。这个内核似乎是索尼SUNIX的基础(它似乎是基于第7版的Unix，早于索尼基于4.2BSD的新闻操作系统)。新闻-操作系统的行为很可能像4.2BSD，但由于缺乏消息来源，我不能证实这一点。如果您知道更多关于SUNIX或NEWS-OS的信息，请留言。

Linux的同步调用是同步的。您可以获得与fsync相同的保证。此行为在1995年发布的1.3.20中引入。在此之前，同样的同步舞蹈建议也很有用，因为Linux的早期版本在处理磁盘写入方面比其他当代系统更具侵略性。虽然这有助于它在基准测试中竞争，但当Linux机器开始投入生产时，它造成了数据完整性问题(这是促使这一变化的原因之一)。作为关闭序列的一部分，现代Linux系统会清除所有脏缓冲区，并等待刷新完成，然后再继续重新引导，从而关闭或停止系统。

多年来，我一直被告知3sync舞蹈的原因是由于V6的DEC磁盘驱动程序中的一个驱动程序错误，很久以前就已经修复了。然而，深入研究它会发现，即使在Unix学会重新启动()本身之后，也有很好的理由来跳这种舞。

https://bsdimp.blogspot.com/2020/07/when-unix-learned-to-reboot2.html

tags users