所有时间最复制的stackoverflow片段缺陷

2021-06-17 05:58:33

在最近的一项研究中标题的使用和归属堆栈溢出代码片段在GitHub项目中，我几乎写了几十年前的答案是堆栈溢出上最多复制的片段。具有讽刺意味的是，它恰好是越野车。

回到2010年我坐在办公室里，做我不应该做的事情：代码打高尔夫球和追逐堆栈溢出。

以下问题引起了我的注意：如何以人类可读格式打印字节数？也就是说，您如何格式化123,456,789字节，如“123.5 MB”。

这里隐式规范在于，生成的字符串应在1到999.9之间具有值，然后是具有适当幅度的后缀。

一个答案已经发布。该答案中的代码基于循环。这个想法很简单：尝试所有大小，从最大（eb = 10 18字节）到最小（b = 1字节），并使用小于字节数的第一个。在伪代码中，它看起来像这样：

后缀= [＆＃34; eb＆＃34 ;,＃34; pb＆＃34 ;,＆＃34; tb＆＃34 ;,＆＃34; gb＆＃34 ;,＆＃34; mb＆＃34 ;,＆＃ 34; KB＆＃34 ;,＆＃34; B＆＃34;估计= [1018,1115,1012,109,106,10 3,10 0] i = 0，而（i＆lt; rt; leng＆amp;＆amp;＆amp; bytecount）i + + printf（＆＃34;％。1f％s＆＃34;，bytecount / mangitudes [i]，后缀[i]）

通常在已经有一个正确的答案时已经有了正面分数，很难赶上它。在堆栈溢出Lingo，它被称为西部问题最快的枪。在这种情况下，现有答案有一些缺陷，所以我仍然看到了一个机会来实现它。至少，基于循环的代码可以显着清理。

然后它打了我。 KB，MB，GB，...后缀只不过是1000（或IEC标准中的1024）的权力，这意味着应该使用Logarithms而不是循环计算右后缀。

public static字符串HumanReadableByTecount（长字节，布尔SI）{int单位= si？ 1000：1024; if（字节＆lt;单位）返回字节+＆＃34; B＆＃34 ;; int exp =（int）（数学。日志（bytes）/ math。日志（单位））; String pre =（si？＆＃34; kmgtpe＆＃34;：＆＃34; kmgtpe＆＃34;）。特征（exp-1）+（Si？＆＃34;＆＃34;：＆＃34; I＆＃34;）;返回字符串。格式（＆＃34;％。1f％sb＆＃34;，字节/数学。POW（单位，exp），pre）;}

授予它不是很可读，日志/战斗可能比其他解决方案效率较低。但是没有循环，几乎没有我认为的分支是非常整洁的。

背后的数学是直截了当的。字节计数表示为ByTecount = 1000 s，其中s表示比例。（对于二进制表示法，使用基地1024。）解决S = Log 1000（ByTecount）。

API中没有可用日志1000，但我们可以以自然对数表示如下S = log（Bytecount）/ log（1000）。然后，我们的地板s（转换为int），如果我们例如拥有多个兆字节（但不是完整的千兆字节），我们希望使用MB的幅度。

此时如果s = 1刻度是千字节，如果s = 2刻度为兆字节，等等。我们将ByTecount分为1000 s并在相应的字母前缀上拍摄。

我现在所能做的就是等待，看看社区是否会欣赏答案。我知道这将成为堆栈溢出的最多复制的片段。

快进至2018年。由Sebastian Baltes的博士学位学生在经验软件工程学杂志上发表一篇论文。标题是GitHub项目中堆栈溢出代码片段的使用和归因，它基本上尝试回答一个问题：是堆栈溢出的CC By-SA 3.0许可证尊重吗？ IE。在从堆栈溢出中复制代码时，在多大程度上给出了适当的归因。

作为分析的一部分，它们从堆栈溢出数据转储中提取了代码片段，并将其与公共Github Repos的代码匹配。引用摘要：

我们提出了大规模的仿真静态的结果分析了非琐碎的Java代码片段的使用和归属，从而在公共Github（GH）项目中的答案。

在上面的答案，ID 3758880的答案恰好是我八年前发布的答案。此时，答案超过了数十万个观点和超过一千个起伏。

要检查您是否碰巧在本地检查的repo中有代码：

塞巴斯蒂安在OpenJDK存储库中找到了一场比赛。没有属性，并且OpenJDK许可证与CC By-SA 3.0不兼容。他到达DEV邮件列表询问堆栈溢出上的代码是否已从OpenJDK复制，或者如果它是另一种方式。

这里有趣的部分是我曾经在Oracle上工作，在Openjdk项目上，所以我的前同事和我的朋友回答说：

为什么不要求这么帖子（Aioobe）直接询问这件帖子？他是一个OpenJDK贡献者，在OperJDK源代码中出现此代码时，Oracle就业。

甲骨文不轻易采取这些东西。我碰巧知道甲骨文中的一些人在阅读这个回复时叹了口气，并在“指控”之后看到它是一点胜利。

塞巴斯蒂安然后伸出我伸直，我所做的是：当该提交合并时，我尚未开始Oracle，我没有贡献那个补丁。在Oracle上笑话。不久之后，提交了一个问题并删除了代码。

我打赌你已经给了它一些想法。代码片段中的那个错误是什么？

在exabytes后，10 18，Zettabytes，10 21.这可能是一个非常大的输入导致＆＃34; kmgtpe＆＃34的界限索引;细绳？不。最大长值为2 63 - 1≈9.2×10 18，因此没有长的价值将超越EB。

它可以是Si和二进制之间的混合吗？不。在答案的早期版本中有一个混合，但这是很快的修复。

exp最终是0，导致charat（exp-1）失败吗？不。第一个IF-陈述涵盖了这种情况。 EXP值总是至少为1。

输出中可能会有一些奇怪的圆形错误吗？现在我们到了那里......

解决方案在接近1 MB之前一直工作。当给出999,999个字节作为输入时，结果（在SI模式下）是＆＃34; 1000.0 KB＆＃34;虽然999,999更接近1,000×1000 1，而不是999.9×1000 1，但根据规格，1,000“有效”超出范围。正确的结果是＆＃34; 1.0 MB＆＃34;

FWIW，所有22个答案都发布，包括使用Apache Commons和Android库的答案，在撰写本文时具有此错误（或IT的变体）。

那么我们如何解决这个问题？首先，我们注意到，一旦字节数更接近1×1,000 2（1 MB），指数（EXP）应该从'k'变为'm'，而不是999.9×1000 1（999.9 k）。这发生在999,950。同样，当我们通过999,950,000岁时，我们应该从'm'切换到'g'。

为实现此目的，如果字节更大，则计算此阈值和Bump exp。（对于二进制案例，此阈值不是一个整数，我们需要CEIL结果。）

通过此更改，代码一直运行，直到字节计数接近1 eb。

鉴于输入999,949,999,999,999,999，结果现在是1000.0pb，而正确的结果是999.9 pb。数学上的代码是准确的，所以这里发生了什么？

由于IEEE 754表示浮点值接近零是非常密集的，并且大的值非常稀疏。事实上，所有值的一半都在-1到1之间找到，并且在谈论大的双打时，一个像long.max_value一样大的价值意味着什么。字面上地。

我们可以切换到BigDecimal，但在那里的乐趣在哪里？！此外，无论如何，它都会变得凌乱，因为标准API中没有大型日志功能。

对于第一个问题，我们可以将字节值缩小到精度更好的范围，并相应地调整exp。最终结果无论如何都是舍进的，因此我们并不重要，我们抛出最低有效数字。

对于第二个问题，我们关心最低有效位（999,949,99 ... 9和999,950,00 ... 0应该最终以不同的指数结束）所以这个问题要求不同的解决方案。

首先，我们注意到，对于阈值有12个不同的可能值（每种模式6），并且只有其中一个最终有故障。错误的结果可以唯一地确定它以D00 16结束。如果是这种情况，我们只需将其调整到正确的值。

长期=（长）数学。 CEIL（数学。战俘（单位，exp）*（单位 - 0.05））; if（exp＆lt; 6＆amp; bytes＆gt; = th - （（th＆amp; 0xfff）== 0xd00？51：0））exp ++;

由于我们依赖于浮点结果中的特定位模式，因此我们在strictfp上打击以确保它不论运行代码的硬件如何运行。

在否定的情况下，尚不清楚的是，消极的字节数可能是相关的，但由于Java没有毫无符号，我们更好地处理它。现在是-10000 b中的输入如-10,000个结果。

复杂的表达是因为 - 延伸了--long.min_value == long.min_value。现在我们使用Absbytes而不是字节执行与exp相关的所有计算。

这是代码的最终版本，以原始版本的精神打高尔米德和压缩：

//来自：https://programming.guide/worlds-most-copied-.so-snippet.html公共静态strictfp字符串HumanReadableByTecount（Long字节，Boolean Si）{int单位= si？ 1000：1024; long absbytes = bytes == long。 min_value？长。 max_value：数学。 ABS（字节）; if（absbytes＆lt;单位）返回字节+＆＃34; B＆＃34 ;; int exp =（int）（数学。日志（absbytes）/ math。日志（单位））;长期=（长）数学。 CEIL（数学。战俘（单位，exp）*（单位 - 0.05））; if（exp＆lt; 6＆amp; absbytes＆gt; = th - （（th＆amp; 0xfff）== 0xd00？51：0））Exp ++; String pre =（si？＆＃34; kmgtpe＆＃34;：＆＃34; kmgtpe＆＃34;）。 Charat（exp - 1）+（SI？＆＃34;＆＃34;：＆＃34; I＆＃34;）; if（exp＆gt; 4）{bytes / =单位; Exp - = 1; }返回字符串。格式（＆＃34;％。1f％sb＆＃34;，字节/数学。POW（单位，exp），pre）;}

请注意，这开始避免环路和过度分支的挑战。在熨烫后，所有角落案例甚至比原始版本更少可读。就个人而言，我不会将此片段复制到生产代码中。

对于生产质量的更新代码，请参阅单独的文章：将字节大小格式化为人类可读格式

复制代码时请包括适当的归属。有人可能只是打电话给你。我认为这里的关键外卖是：更喜欢短而简单的循环。正如您所说，数学很难完全正确（所以，易于错误，难以阅读）。但我相信它也比基于循环的解决方案慢的数量幅度慢。一般来说，我同意你的看法。然而，在这个特殊情况下，应该注意，舍入误差，负输入和浮点精度问题也适用于简单的循环解决方案。这是非常有趣的文章，我与浮点合作，但总是难以掌握圆角的特殊情况。本文是良好的学术观点考虑特殊情况。很好的文章，谢谢分享这个故事！那么，它在Unix中如何完成？一些命令像ls，df具有-h人类可读选项。

https://programming.guide/worlds-most-copied-so-snippet.html

tags users