复杂系统失败

2020-12-27 22:27:37

所有有趣的系统（例如运输，医疗保健，发电）由于其自身的性质而固有地且不可避免地具有危险性。危害暴露的频率有时可以更改，但是系统中涉及的过程本身具有固有的危害性，并且是无法消除的危害。正是这些危害的存在推动了针对这些系统特征的防御措施的建立。

随着时间的流逝，失败带来的严重后果导致了构建多层防御失败的能力。这些防御措施包括明显的技术组成部分（例如备用系统，设备的“安全”功能）和人为组成部分（例如培训，知识），以及各种组织，机构和法规防御措施（例如政策和程序，认证，工作规则，团队训练）。这些措施的效果是提供了一系列防护罩，这些防护罩通常会将操作从事故中转移出来。

一系列防御工作。系统操作通常是成功的。明显的灾难性故障发生在小而看似无害的故障共同为系统性事故创造机会时。这些小故障中的每一个都是造成灾难的必要条件，但只有这些组合足以允许发生故障。换句话说，失败的机会多于公开的系统事故。大多数初始故障轨迹被设计的系统安全组件阻止。达到操作水平的轨迹通常被从业者阻塞。

这些系统的复杂性使其无法在没有多个缺陷的情况下运行。由于这些单独不足以引起故障，因此在操作过程中它们被视为次要因素。消除所有潜在故障主要受到经济成本的限制，而且还因为在事前很难弄清此类故障可能导致事故的原因。由于技术，工作组织以及消除故障的努力，故障会不断变化。

得出上述结论的必然结果是，复杂的系统作为损坏的系统运行。该系统继续运行是因为它包含了许多冗余，并且尽管存在许多缺陷，但人们仍可以使它运行。事故审查之后，几乎总是注意到该系统具有先前的“原始事故”的历史，几乎造成了灾难。这些降级条件应该在公开事故之前就已经被认识到的论点通常基于系统性能的幼稚概念。系统操作是动态的，组件（组织，人员，技术）出现故障并不断被替换。

复杂的系统具有灾难性故障的可能性。从业人员几乎总是在物理和时间上接近这些潜在的故障-灾难随时随地都可能发生。灾难性后果的潜力是复杂系统的标志。消除这种灾难性故障的可能性是不可能的。系统本身的性质总是会出现这种故障的可能性。

由于公开的故障需要多个故障，因此没有孤立的事故“原因”。造成事故的因素有很多。这些本身本身不足以造成事故。仅这些原因足以造成事故。的确，正是这些原因的联系创造了事故所需的环境。因此，不可能隔离事故的“根本原因”。基于诸如“根本原因”之类的推理的评估并没有反映出对失败本质的技术理解，而是社会，文化需要将特定的局部力量或事件归咎于结果。 1个

1人类学田间研究最清楚地证明了“原因”概念的社会建构（参见Goldman L（1993），巧合文化：纽约州胡里的事故和绝对责任：Clarendon Press；以及Tasca L （1990），《人为错误的社会建构》，未发表的博士学位论文，纽约州立大学斯托尼布鲁克分校社会学系

对结局的了解使得导致结局的事件在当时似乎比实际情况更为重要。这意味着事后对人类绩效的事故分析是不准确的。结果知识削弱了事故后观察者在那些相同因素发生之前重建从业者观点的能力。从业者似乎“应该知道”这些因素将“不可避免地”导致事故。 2后见之明的偏见仍然是事故调查的主要障碍，尤其是在涉及专家人员绩效的情况下。

2这不是医学判断或技术判断的特征，而是人类对过去事件及其原因的认知。

系统从业人员对系统进行操作以生产所需的产品，并努力防止事故的发生。系统运行的动态质量，生产需求与初期故障可能性之间的平衡是不可避免的。局外人很少承认这个角色的双重性。在非事故填充时间，强调生产角色。事故发生后，强调防故障作用。在任何时候，局外人的观点都会误解操作员对两个角色的持续，同时参与。

发生事故后，公开的失败通常似乎是不可避免的，而从业者的行为是失误或故意忽略某些即将发生的失败。但是，所有从业者行为实际上都是赌博，也就是说，面对不确定的结果而发生的行为。不确定程度可能会随时变化。事故发生后，从业者的行为是赌博。通常，事后分析将这些赌博视为不良赌博。但是相反：成功的结果也是赌博的结果；没有得到广泛的赞赏。

组织通常对生产目标，有效利用资源，经济和运营成本以及可接受的轻度和重度事故风险之间的关系持模棱两可的态度。所有歧义都可以通过系统尖端人员的行动来解决。事故发生后，从业人员的行为可能被视为“错误”或“违规”，但这些评估在事后看来严重偏颇，而忽略了其他驱动力，尤其是生产压力。

从业人员和一线管理人员积极调整系统，以最大程度地提高产量并减少事故。这些调整通常会在瞬间进行。这些适应措施包括：（1）重组系统，以减少易损部件的故障风险。（2）将关键资源集中在预期的高需求区域。（3）提供从预期和意外故障中撤退或恢复的途径。（4）建立早期发现更改的系统性能的方法，以便允许减少生产量或其他提高弹性的方法。

复杂的系统在操作和管理方面需要大量的人类专业知识。随着技术的变化，这种专业知识的性质也会发生变化，但是由于需要替换离开的专家，这种专业知识也会发生变化。在每种情况下，对技能和专长的培训和完善都是系统本身功能的一部分。因此，在任何时候，给定的复杂系统都将包含具有不同专业知识水平的从业者和受训者。与专业知识有关的关键问题来自（1）需要将稀缺的专业知识用作满足最困难或最苛刻的生产需求的资源；（2）需要发展专业知识以供将来使用。

在可靠的系统中，较低的公开事故率可能会鼓励进行更改，尤其是使用新技术，以减少影响较小但频率较高的故障的数量。这些变化实际上可能为新的，频率低但后果严重的故障创造机会。当使用新技术消除众所周知的系统故障或获得高精度性能时，它们通常会为大规模的灾难性故障引入新的途径。与新技术所消除的灾难相比，这些罕见的新灾难造成的影响甚至更大。这些新的失败形式很难被发现。主要关注变化的假定的有益特性。由于这些新的，后果严重的事故发生率较低，因此在事故发生之前可能会发生多个系统更改，因此很难看到技术对故障的影响。

事故后对“人为错误”的补救措施通常是基于阻碍可能“引起”事故的活动。这些链末措施几乎无法减少发生进一步事故的可能性。实际上，同一起事故的可能性已经非常低，因为潜在故障的模式不断变化。事故后的补救措施通常不会增加安全性，而通常会增加系统的耦合性和复杂性。这增加了潜在的潜在故障数量，也使事故轨迹的检测和阻塞更加困难。

安全是系统的新兴属性。它不驻留在组织或系统的个人，设备或部门中。不能购买或制造安全产品；它不是与系统其他组件分开的功能。这意味着不能像原料或原材料那样操纵安全性。任何系统中的安全状态始终是动态的。持续的系统变化可确保危害及其管理不断变化。

无故障操作是人们努力将系统保持在可容忍性能范围内的结果。这些活动大部分是正常操作的一部分，从表面上看很简单。但是，由于系统操作永远都不会出现故障，因此，从业人员对不断变化的条件进行的调整实际上会随时为您创造安全。这些调整通常只不过是从可用响应存储中选择经过精心训练的例程；但是，有时改编是新颖的组合或新方法的从头创作。

识别危害并成功操纵系统操作以保持在允许的性能范围内，需要与故障密切联系。在操作员可以识别“信封边缘”的系统中，可能会出现更强大的系统性能。这是系统性能开始下降，变得难以预测或无法轻易恢复的地方。在本质危险的系统中，期望操作员以导致期望的整体性能的方式遇到和欣赏危险。改善的安全性取决于为操作员提供关于危害的校准视图。它还依赖于提供有关其动作如何朝着或远离信封边缘移动系统性能的校准。

https://how.complexsystems.fail

tags users