DOMPurify BYPASS：通过HTML命名空间混淆的XSS

2020-10-07 10:33:33

在这篇博文中，我将解释我最近在DOMPurify(流行的HTML杀毒程序库)中的绕过。简而言之，DOMPurify的工作是获取假定来自最终用户的不受信任的HTML片段，并删除可能导致跨站点脚本(XSS)的所有元素和属性。

相信我，这段代码中没有一个元素是多余的🙂。

要理解这段特定代码为什么能工作，我需要带您了解一下HTML规范的一些有趣特性，这些特性是我用来使旁路工作的。

让我们从基础知识开始，然后解释DOMPurify通常是如何使用的。假设我们在htmlMarkup中有一个不受信任的HTML，并且我们希望将其分配给某个div，我们使用以下代码使用DOMPurify对其进行清理，并将其分配给div：

就解析和序列化HTML以及DOM树上的操作而言，上面的简短代码段中发生了以下操作：

DOMPurify清理DOM树(简而言之，这个过程是遍历DOM树中的所有元素和属性，并删除不在允许列表中的所有节点)。

让我们通过一个简单的例子来看看这一点。假设我们的初始标记为A<；img src=1 onerror=alert(1)>；B。在第一步中，它被解析到以下树中：

这是DOMPurify.sanitize返回的内容。然后，浏览器在分配给innerHTML时再次解析该标记：

DOM树与DOMPurify处理的树相同，然后将其附加到文档中。

因此，简而言之，我们有以下操作顺序：解析➡️序列化➡️解析。直觉可能是序列化DOM树并再次解析它应该总是返回初始的DOM树。但这完全不是真的。HTML规范中甚至有一节关于序列化HTML片段的警告：

如果使用HTML解析器进行解析，则此算法[序列化HTML]的输出可能不会返回原始的树结构。不往返序列化和重新解析步骤的树结构也可以由HTML解析器本身产生，尽管这种情况通常是不一致的。

重要的是，序列化-解析往返不能保证返回原始的DOM树(这也是一种称为突变XSS的XSS的根本原因)。虽然这些情况通常是某种解析器/序列化程序错误的结果，但至少有两种符合规范的突变情况。

其中一个案例与表单元素相关。它在HTML中是非常特殊的元素，因为它本身不能嵌套。规范明确规定，它不能有任何也是以下形式的后代：

第二种形式在DOM树中被完全省略，就像它以前不在那里一样。

现在有趣的部分来了。如果我们继续阅读HTML规范，它实际上给出了一个例子，使用带有错误嵌套标记的稍微破碎的标记，就有可能创建嵌套表单。下面是它(直接取自规范)：

这不是任何特定浏览器中的错误；它直接由HTML规范产生，并在HTML解析算法中进行了描述。大意是这样的：

当您打开<；form>；标记时，解析器需要记录它是用表单元素指针打开的(规范中就是这样调用的)。如果指针不为空，则无法创建表单元素。

当您结束<；form>；标记时，表单元素指针始终设置为NULL。

在开始时，表单元素指针被设置为id="；外层"；的指针。然后，启动一个div，并且<；/form>；结束标记将表单元素指针设置为NULL。因为它是空的，所以可以创建id="；Internal"；的下一个表单；而且因为我们当前在div中，所以我们实际上在表单中嵌套了一个表单。

现在，如果我们尝试序列化生成的DOM树，我们将获得以下标记：

请注意，此标记不再有任何错误嵌套的标记。当再次解析标记时，将创建以下DOM树：

因此，这证明不能保证串行化-重解析往返返回原始DOM树。更有趣的是，这基本上是一种符合规范的突变。

从我意识到这个怪癖的那一刻起，我就相当确信，一定有可能以某种方式滥用它来绕过HTML消毒器。在很长一段时间没有任何关于如何使用它的想法之后，我终于偶然发现了HTML规范中的另一个怪癖。但是在进入特定的怪癖本身之前，让我们先来谈谈我最喜欢的HTML规范的潘多拉盒子：外来内容。

外来内容就像一把瑞士军刀，用来破坏解析器和消毒器。我在之前的DOMPurify旁路以及Ruby Sanitize库的旁路中使用过它。

默认情况下，所有元素都在HTML名称空间中；但是，如果解析器遇到<；svg>；或<；ath>；元素，则会分别“切换”到SVG和MathML名称空间。这两个名称空间都会生成外来内容。

在外来内容中，标记的解析方式与普通HTML不同。这可以在解析<；style>；元素时表现得最清楚。在HTML命名空间中，<；style>；只能包含文本；没有子体，也不解码HTML实体。外来内容则不是这样：外来内容的<；style>；可以具有子元素，并且实体被解码。

注意：从现在开始，这篇博客的DOM树中的所有元素都将包含一个名称空间。因此，html style表示它是HTML名称空间中<；style>；元素，而svg style表示它是SVG名称空间中的<；style>；元素。

生成的DOM树证明了我的观点：HTML样式只有文本内容，而SVG样式的解析方式与普通元素一样。

接下来，我们可能会忍不住要进行某种观察。也就是说：如果我们在<；SVG&>；或<；Math>；中，那么所有元素也都在非HTML名称空间中。但事实并非如此。HTML规范中有一些元素称为MathML文本集成点和HTML集成点。这些元素的子元素都有HTML名称空间(除了下面列出的某些例外)。

请注意，作为数学的直接子元素的style元素位于MathML名称空间中，而mtext中的style元素位于HTML名称空间中。这是因为mtext是MathML文本集成点，并使解析器切换名称空间。

数学批注-XML，如果其值等于text/html或application/xhtml+xml，则为XML。

我总是假设默认情况下MathML文本集成点或HTML集成点的所有子对象都有HTML名称空间。我大错特错了！HTML规范指出，MathML文本集成点子级默认使用HTML名称空间，但有两个例外：mglyph和恶意标记。只有当它们是MathML文本集成点的直接子对象时，才会发生这种情况。

请注意，mtext的直接子项mglyph位于MathML名称空间中，而作为html a元素的子项的mglyph位于HTML名称空间中。

假设我们有一个“当前元素”，并且我们想确定它的名称空间。我整理了一些经验法则：

除非满足以下各点的条件，否则当前元素位于其父元素的命名空间中。

如果当前元素是<；SVG&>；或<；MATH&>；并且父元素位于HTML名称空间中，则当前元素分别位于SVG或MathML名称空间中。

如果当前元素的父元素是HTML集成点，则当前元素在HTML名称空间中，除非它是<；SVG&>；或<；MATH&>；。

如果当前元素的父级是MathML集成点，则当前元素在HTML命名空间中，除非它是<；SVG&>；、<；数学&>、<；mglyph>；或<；恶性标记>；。

如果当前元素是<；b>；、<；Big>；、<；block>；、<；body>；、<；body>；、<；center>；、<；code>；、<；dd>；、<；div>；、<；dl>；、<；dt>；、<；em>；、<；embed>；、<；dd>；、<；dt>；、<；，<；h2&>，<；h3>；，<；h4>；，<；h5>；，<；h6>；，<；head>；，<；hr>；，<；img>；，<；li>；，<；Listing>；，<；Menu>；，<；meta>；，<；nobr>；，<；Ol>；，<；p>；，<；prep>；，<；ruby>；，<；s>；，<；mall>；，<；span>；，<；strong>；，<；Strike>；，<；sub>；，<；sup>；，<；table>；，<；tt>；，<；u>；，<；ul>；，<；var>；或<；font>；定义了颜色、字体或大小属性，然后关闭堆栈上的所有元素，直到看到MathML文本集成点、HTML集成点或HTML命名空间中的元素。然后，当前元素也在HTML名称空间中。

当我在HTML规范中找到这篇关于mglyph的珍品时，我立刻知道这就是我一直在寻找的关于滥用html表单突变来绕过杀菌器的东西。

有效负载使用错嵌的html表单元素，并且还包含mglyph元素。它会生成以下DOM树：

这棵DOM树是无害的。所有元素都在DOMPurify的允许列表中。请注意，mglyph位于HTML名称空间中。看起来像XSS有效负载的代码片段只是html样式中的一个文本。因为有一个嵌套的html表单，所以我们可以非常确定这个DOM树在重新解析时会发生变化。

此代码段具有嵌套的Form标记。因此，将其分配给innerHTML时，会将其解析为以下DOM树：

所以现在没有创建第二个html表单，mglyph现在是mtext的直接子级，这意味着它在MathML名称空间中。正因为如此，样式也在MathML名称空间中，因此它的内容不被视为文本。然后<；/ath>；关闭<；ath>；元素，现在在HTML名称空间中创建img，这将导致XSS。

HTML规范有一个特殊之处，它使得创建嵌套的表单元素成为可能。但是，在重新解析时，第二种形式将消失。

Mglyph和恶意标记是HTML规范中的特殊元素，如果它们是MathML文本集成点的直接子元素，则它们在MathML名称空间中，即使默认情况下所有其他标记都在HTML名称空间中。

使用以上所有内容，我们可以创建一个具有两个Form元素和mglyph元素的标记，该元素最初在HTML名称空间中，但在重新解析时在MathML名称空间中，使得后续的样式标记将被不同地解析，并导致XSS。

在#TWCTF期间使用@sqrtrev@0xParrot@web_payload发现#DOMPurify库的1天mxss利用有效负载。Team@GuesserSuper<；math>；<；mtext>；<；table>；<；mglyph>；<；style>；<；math>；<；table id=“<；/TABLE>；”>；<；img src onerror=ALERT(1)“>；P.S：刚在一天前打了补丁。

-Sapra(@pwntheweb)2020年9月21日。

我把它留给读者作为练习来弄清楚这个有效负载为什么会起作用。提示：根本原因与我发现的bug相同。

在设计上很容易发生XSS-ES突变，找到另一个实例只是个时间问题。我强烈建议您将RETURN_DOM或RETURN_DOM_FACTION选项传递给DOMPurify，这样就不会执行序列化-解析往返。

最后要注意的是，在为我即将到来的名为XSS Academy的远程培训准备材料时，我发现了DOMPurify旁路。虽然还没有正式宣布，但细节(包括议程)将在两周内公布。我将讲授有趣的XSS技巧，重点是破解解析器和杀菌器。如果您已经知道您感兴趣，请通过[email protected]联系我们，我们将为您预订座位！

https://research.securitum.com/mutation-xss-via-mathml-mutation-dompurify-2-0-17-bypass/

tags users