人们多久会复制和粘贴堆栈溢出?

2021-04-20 01:14:53

他们说每个笑话背后都有一个真相。在我们最近的四月愚人节的情况下,它可能更像是整个玉米棒,也许是一个蒲式耳的真理。我们希望拥抱经典的堆栈溢出MEME并调整我们的核心原则之一。我们公司的灵感来自于创始人对网站的挫败感,这些网站在工资空间后面保持答案。如果我们突然决定将复制代码的行为从堆栈溢出中批准复制代码的行为是什么样的?好的,开玩笑,希望每个人都有一个好笑,没有人太吓坏了。但等等,还有更多。一旦我们设置一个系统每当有键入的命令+ C作出反应,我们都意识到还有机会了解人们如何使用我们的网站。我们能够在两周内在堆栈溢出上编制每个副本命令,这就是我们发现的。

访问堆栈溢出问题的每四个用户中的一个是在击中页面的五分钟内复制某些内容。这在3月26日和4月9日之间增加了7,305,042篇职位和评论中的40,623,987份副本。人们从答案中复制了大约十次的答案,因为他们从问题中的问题和大约35次从评论中经常进行了大约35次。人们从代码块复制超过十次,而是从周围的文字中经常多次,且令人惊讶的是,我们看到更多的副本在没有接受的问题上进行的问题,而不是我们对被接受的问题。

所以,如果你曾经感受到从我们网站复制代码而不是从划痕写作,请原谅自己!为什么当别人做了艰苦的工作时重新创造了轮子?我们称之为知识重用 - 您可以重用其他人已经学习,创建和经过验证的内容。知识重用并不是一件坏事 - 它可以帮助您了解,更快地获得工作代码,并降低您的挫折感。我们的整个网站在知识重用上运行 - 它是利他语言培养,使堆栈溢出如此强大的社区。

您可以站在巨人的肩膀上,并使用他们的先前经验教训来建立重大的价值。您仍应遵循一些基本的最佳实践,以防止在复印时窃取错误或安全问题,因此请确保在抓住和粘贴之前教育自己。当然,请注意某些代码需要某些许可证使用。除此之外,我们鼓励每个人分享社区创造的福利。

这是高水平的TL;博士,但对于希望深入研究我们在研究副本数据时学到的所有东西的人们,请阅读我们的产品营销团队的数据分析师David Gibson的一些奇妙见解和图表。

作为从堆栈溢出的人多年来一直没有淘汰的人,我并不感到惊讶地看到数百万的副本赛事中滚入。对我最终最答应的问题的人数是什么。真正有多少人从堆栈溢出复制?人们只是复制代码吗?人们更有可能复制接受的答案吗?

为了增加分析的方向,团队和我想出了我们想要回答的问题列表。作为一个笑话开始的是一个有价值的探索,产生新的见解,并引发许多关于我们如何继续创新我们的公共平台的内部对话,并为团队施加更多价值。

使用我们的本产Web跟踪工具,我们创建了从站点复制的用户时捕获的自定义事件。通过这些事件,我们能够捕捉许多不同的属性;标签,问题答案或评论,代码块或纯文本,复印机声誉和帖子分数,区域,以及帖子是否被接受。除了正在复制的实际文本之外,我们几乎捕获了所有内容。

我们从2021年3月26日到2021年3月26日到4月9日收集了两周的数据。以下分析基于该时间的行为。

本已经提到了一些快速证明了人们长期开玩笑的高级统计数据:每个人都从堆栈溢出复制。我们还迅速意识到整体副本行为密切关注我们已经知道我们的网站流量。大多数副本在工作周和工作时间内发生。我们最大的地理位置占多数副本;亚洲33%,欧洲30%,北美26%。最后,所有副本中的86%来自匿名用户,AKA用户有0代表。

当我们询问有关谁复制以及他们正在复制的更详细问题时,事情开始变得更加有趣。

我们可以看到大多数副本来自用户的用户。这些是我们的匿名用户,因为您立即通过创建帐户获得1个代表。这些副本中的一些可能来自用户的用户,但尚未登录。不幸的是,我们没有办法测试这个理论。

由于我们平台上的大多数用户有一个较低的代表,让我们删除分组以查看我们是否可以正式化我们的数据。通过查看每个用户的副本而不是总副本,我们可以看到用户通过其声誉的平均份数。

在查看此可视化时,似乎在声誉增加时,每个用户的副本数减少。因此,用户的声誉越高,他们的复制越少。这种关系存在,但不是很强烈,所以我对更高或更低的声誉用户们没有信心更多。正在学习的开发人员往往具有较低的声誉,并正在寻找可以加速他们的学习的东西,并开始快速启动它们。随着开发人员建立他们的专业知识,他们还建立了他们的声誉,他们专注于更精确的挑战,从堆栈溢出中可能无法复制的事情。

当我们想到一个接受的答案时,我们可能认为这是最好的,并推断它被复制多于不可接受的答案。然而,查看数据,我们发现52.4%的副本来自不接受的答案。但平均而言,接受答案每唯一帖子获得七份,而非接受的答案每唯篇帖子获得五份。因此,更多的副本来自未接受的答案,但是从接受的答案中有更高的知识重用。在堆栈溢出时,我们将知识重用定义为重用其他人已经学习,创建和证明的内容。

值得注意的是,一个问题甚至可能甚至没有接受的答案。采取此答案:它有近4,984票,并在学习期间被复制了7,943次,但不被接受。实际上,没有接受答案。它可能是因为自2010年以来没有看到问题海报,而且还有许多其他答案是有效的。

所以如果接受答案没有复制更多,那么必须将答案更高的分数答案恢复更多,右图?让我们找出来!

我们看到答案似乎相当普遍分裂,跨越1到1000的定义分数分组。至于问题,大多数副本来自1-5分的帖子。我怀疑这是因为用户正在复制问题来重现它,最终发布答案。

类似于在观察用户信誉时,该网站上的大多数帖子都有较低的分数。要规范化这一点,让我们看看每篇文章的副本。

我们可以清楚地看到,作为帖子分数的帖子增加,所以每篇文章的副本。这是有道理的,因为作为一个帖子得分增加,更有可能是我们社区重用知识。

但那些带有负数分数的蓝色点呢?为什么有人会复制投票答案?好吧,我们永远不想通过封面判断一本书。

看看这个答案。这是我们最复制的下票答案,得分为-2,总共288份。仔细观察,它似乎是一个更简洁的版本,上面的接受答案的得分为29分,共有493份。虽然我们的负面得分帖子没有更多的副本,但它是“太久没有读”的完美例子。

现在有关我最兴奋的问题,回答:最多复制的标签是什么?不幸的是,由于数据和可用资源的规模,我无法解析嵌套标签。例如,HTML标记将不包含| HTML | CSS | CSS中的帖子标签分组。

不令我惊讶的是,接收最多副本的标签是堆栈溢出上最受欢迎和最活跃的标签。跳出我的一件事是Python出现在四个顶部标记分组中。其中三个是数据分析特定标签组; | Python | Pandas |,| Python |熊猫| DataFrame |和| python | matplotlib |。作为一个数据,我自己我喜欢看到更多的人学习这些工具。

除了使用最多的副本查看标签外,我还希望看到每个帖子的标签有哪些标签。过滤具有至少十个唯一帖子的标签,我们可以显然看到标签变得更具体,因此每篇文章收到更多副本。

现在回答这个问题,我相信你们很多人都感兴趣。什么帖子收到了最多的副本?

凭借3,497和11,829份的副本,我很高兴地宣布如何在熊猫的Dataframe中迭代行收到最多的副本。在2013年回答,这个问题继续每周帮助数千人。

至于用纯文本的最复制的答案,我们有TypeError:thing.getOptions不是一个函数[关闭],后级分数为218和1,570个总副本。虽然我们无法确认这是我怀疑正在复制的“Sass-Loader @ 10.1.1”。

以及最复制的问题,具有2,147和3,665份的后评分,我们有如何创建一个像链接一样的HTML按钮?

最后,具有纯文本的最常用的问题,具有322和261份的后级别,我们有更新被拒绝,因为当前分支的尖端位于其远程对应物后面。这个是有点棘手的,因为有一个少数git命令不在代码块中,可以很容易地成为问题的复制部分。但随着我们没有捕获实际复制的文本,我们无法确认这一点。

重要的是,答案不是堆栈溢出的所有内容。有时你需要的只是一个有用的评论。以下是最复制的评论!

第一个评论是我们对网站上最复制的评论,第二条评论是我们的“无名英雄”,因为它只有五分之一,但是我们的第六次最抄本。

更新:对购买真正的恶作剧版本有很多兴趣。好消息是我们预料可能发生这种情况,我们一直在沿着这些线路的事情。保持调整更多!

标签:4月傻瓜,复制代码,数据科学