“大数据不适合Excel”短语的起源是什么?

2021-04-17 21:59:38

欢迎来到牦牛剃须学校!作为我的MSC的一部分,我正在读一本关于数据分析的书。所以我一直在追逐报价来找到他们的起源。

与许多快速新兴的概念一样,大数据已被各种定义和运行,从粗略的宣言范围内,大数据由数据集太大而无法适合Excel电子表格或存储在单个机器上(Strom,2012)

Kitchin,Rob大数据,新认知和范式班次()Sage Publications。大数据&社会 。 (20539517141452848) doi:https://doi.org/10.1177/2053951714528481.

我一直看到该死的excel报价。但谁最初说了吗?参考“Strom”的“大数据”纸。好吧,这是史族的说法:

大数据到处都是。正如位的首席科学家希拉里·梅森喜欢说:“大数据通常是指太大的数据集,无法适合您的可用内存,或者太大,无法存放在自己的硬盘上,或者太大而无法适应一个Excel电子表格。“大数据使事情变得更好 - Slashdot.org 2012年8月3日

啊哈!这是街单的博客。并常规引用别人 - 希拉里梅森。我见过梅森以前被引用这样说。这是我可以找到归因于梅森的最早推文 - 从2013年4月起:

"人们认为大数据太大,无法适应Excel"不是真的说@hmason #boomconf

但我找不到原来的报价。我希望能够引用谁最初说过,而且在哪里&当他们说的时候。不是二手转录。

“大数据”是“它不适合Excel”Stéphane哈梅尔 - ÉénVanInmiddels Meer Dan 30 Defonities Van Big Data!。数据科学 - De Toekomst Van Webanalisten?

有趣的!这是Stéphane哈默尔 - 而不是希拉里梅森。搜索哈梅尔的名字,引导我到2017年的文章

“大数据”的最简单定义是“它不适合Excel”Stephane Hamel评论8/2012大数据 - 这意味着数字分析师。大数据的定义

“这对数字分析师的意义”已经消失了 - 但是在Warback机器中提供。这是全额的报价:

我开玩笑说,“大数据”的最简单定义是“它不适合Excel” - 当你想到它时,对于大多数人来说,对于如何从传统方法转移到大数据的大多数人来说,这是真的一。远离Excel迫使分析师改变他的方法,以不同的方式查看数据,并探索新的解决方案。这是一个很多乐趣! 🙂2012年8月2日

2013年3月还有一个幻灯片,其中哈梅尔使用这句话:

@shamelcp Twitter帐户不再存在。虽然其一些推文都在互联网档案中,但那个缺少。但是有当代推文,表明它在那个时候发了推文:

大声笑@shamelcp最简单的#bigdata的定义:"它不适合Excel" 🙂#measure #Analytics.

回到2012年,转发功能不存在,因此略微奇怪的语法。这是一群人在2012年7月推文推文的一个链接。

原因@shamelcp不存在是因为在某些时候它将重命名为@ shamel67。这意味着,存在原始的推文!在这里是:

我认为这是短语的最早直接可达的推文。但是有一些证据表明它是先使用的。这是伦敦大达拉乌克社区聚会的报告:

面板开始使用EDD询问,所以什么是大数据?答案从正确但略微愚蠢地旋转:大量0s和1s到太大而无法适合x(其中x是您通常的工具 - Excel,SQL,Memory等) - Hilary“大数据,准备就绪或不是”2012年4月25日

这是视频 - 在〜15分钟内的报价30秒:

“大数据通常是指的数据集太大而无法适合您的可用内存,或者太大,无法存放在自己的硬盘上,或者太大而无法适合Excel电子表格,”Mason Hilary Mason希望得到您从2011年12月26日开始大数据(尽管可能最初发表于2011年9月)

在此之前,事情开始变得有点模糊。 2011年4月,Mike Driscoll写了一篇关于演讲的博客帖子,他用Hilary Mason和Joe Adler提供了他给予的演讲:

选择右尺寸的工具,或者,就像我喜欢说,你不需要电锯切掉黄油。如果您有600行的CSV数据,您需要一次性地使用,请将其粘贴到Excel或Emacs中,只需执行此操作......当您的数据变得非常大时,这么大,它无法适应合理地在您的笔记本电脑上(2010年,那是一个Terabyte的北部),那么您在Hadoop,并行数据库,或过高的大铁领域。 2011年4月19日成功数据科学家的七个秘密

因此,ProTo-Form似乎在2011年4月和2012年4月之间出现。到2012年7月,它已经变得更加简洁。从那时起了无穷无尽。

在2011年4月之前,总是表现得更得以更具模糊的。 2011年5月的麦肯锡报告说:

在某些情况下,决策将不一定是自动化的,而是通过使用大数据技术和技术分析庞大的整个数据集来增强,而不是仅使用电子表格的个人可以处理和理解的较小样本。大数据:创新,竞争和生产力的下一个前沿

而且,甚至还回来了,这里是Redmonk的Stephen O'Grady于2009年的说法:

Excel已经在大数据上使用多年,这是真的。 但不是直接在大数据上。 排列约65,000左右,当然不能用作直接窗口进入数据仓库或市场之后的东西? 2009年11月19日电子表格的大数据和未来 请不要以为我在这个博客文章中提到的任何人都挑选 - 我已经看到了归因于十几个人的报价,并没有。 这是一个具有巨大难题潜力的迷人小口号。 我认为现在已经成为标准的真实性。 但这对我来说是一个很好的提醒,总是值得遵循一个引用的踪迹来看看它引导的地方。