信息很惊讶（2015年）

2021-03-18 12:59:06

它并不经常将单一纸张开辟了整个新闻。但是，当Claude Shannon发布他的数学沟通理论时，1948年发生了什么。它的铁钉似乎奇怪 - 人类的沟通是一切谨慎的一切。但是Shannon Wasn＆＃39;想着人们互相交谈。相反，他对传输信息的各种方式感兴趣，包括电报，电话，无线电AndTV。它＆＃39;他理论的那种沟通是在周围建造的。

Shannon Wasn＆＃39; the The Minth The Thin the Information。 Harry Nyquist和Ralphhartley已经在20世纪20年代进入了该地区（见本文），但他们的想法反驳了。那个＆＃39; S香农们所讨论的，他的贡献非常伟大，他已经成为信息理论之父。

Shannon希望通过各种媒体衡量您可以传输的信息量。发送消息有很多方法：您可以生产烟雾信号，使用摩尔斯代码，电话或（在今天和＃39;世界上）发送电子邮件。为了将所有人视为平等的条件，Shannon决定忘记这些方法中的每种方法如何传输消息，并简单地将它们视为生成符号字符串的方式。如何衡量如此字符串中包含的信息？

它＆＃39;是一个棘手的问题。如果您的符号字符串构成了英文文本的通过，那么您可以计算它包含的单词数。但这是愚蠢的：它会给句子＆＃34;太阳明天会升起。与他句子相同的信息价值和＃34;世界将结束明天＆＃34;当第二个显然比第一个更重要。我们是否找到信息信息取决于它是否与我们的新闻以及这一消息对我们来说意味着什么。

Shannon透露了幻想的意义的概念，宣布它＆＃34;与工程问题无关，但他确实承担了信息与什么＆＃39;新：它的想法与＆＃39; s与惊喜有关。想到情绪术语惊喜很难衡量，但你可以通过想象自己观看单词出来的自动收获胶带来掌握它，就像他们曾经在新闻机构中一样。有些话，喜欢＆＃34;＆＃34;或＆＃34; a＆＃34;非常难以置信;事实上，他们是多余的，因为你可能会理解没有这些消息。消息的真实本质在于aren＆＃39; t ascommon，如＆＃34;外星人＆＃34;或＆＃34;入侵＆＃34;

这表明每个单词都有惊喜：频率与英语中的迭代。例如，100万字中最常见的单词英国Nationalcorpus是单词＆＃34;＆＃34;平均出现在amilion字中的61,847次。这个词＆＃34;入侵＆＃34;平均出现，每百万字只有19次，而＃34;外星人＆＃34;甚至没有列出，大概是因为它是如此罕见。

您可以简单地衡量当一句话发生在一百万个大量英语文本中的次数时感觉到您的惊喜金额。但这会发挥作用。这个词＆＃34;入侵＆＃34;当它＆＃34这个词＆＃34;外星人＆＃34;，但是当它遵循这个词＆＃34;军事＆＃34;也许令人惊讶的是应该测量，而不仅仅是在一个单词的整体频率方面，而且还要在它之前出现的单词的局（你可以通过看大量文本的单词对的频率来实现这个词。 ToCapture在英语中的更多结构，您可以将您的惊喜措施基于三元，四肢，Quintulps，很快。

香农们似乎有一些有趣的玩笑。在一个数学技术的通信的第7页，他再现了一串单词，这些单词是随机被彼此独立的，并且具有概率的频率：

代表和迅速是一个很好的公寓或者来到不同的盗版，他进入了专家灰色来到Furnesthe线条消息已经是这些。

他还产生了一个句子，其中字母扫描的概率依赖于其前任，基于单词的频率：

关于英语作家的头部和正面攻击，这一点是这一点的特征是另一个方法，即谁曾经讲过意外问题的时间。

这两个句子都是完全毫无意义的，但第二个看起来令人遗憾的是比目前所权更像是英语句子：有完全有意义的单词。

但是香农＆＃39;随机单词的游戏也有另一个目的。如果您为您的单词挑选了更复杂的概率分布，那么就可以在英语内拾取更多结构，您可以大致近似那种语言。相反，您可以考虑任何产生单词的设备，如Ticker机器，作为随机过程。忘记发送消息的人和他们想要传达的含义，并简单地想象机器随机采摘单词，基于概率分布，密切反映英语的结构。为了更进一步地形式化事物，忘记单词并思考根据一定的概率分布挑选单个符号。这样，我们不仅可以衡量人们所说的语言，也可以衡量由计算机产生的0s和1s的字符串，或者用于在森林中发送的烟雾信号。

这一思维线LED Shannon考虑了理想化的情况。假设是我们知道的某个概率分布的随机过程，其产生了符号的串。暂时假设每个符号都是独立于之前挑选的。我们可以简单地定义与单个符号相关的惊喜，作为其概率的互动，因此反映了这一事实，即一封信不太可能，我们在看到它时越惊讶。但这种定义会导致问题。看到两个符号和发生之后发生的概率，如果它们独立挑选，则是个人概率的乘积，如果我们通过概率的互动来测量惊喜，那么与出现在一起的两个符号相关的惊喜是个人惊喜

然而，直观地看到看到的惊喜应该是个人惊喜的总和。你可以通过想象我告诉你两个与彼此无关的事实，例如＆＃34;猫是黑色的，你可以说明这一点和＃34;今天是星期一＆＃34;因为它们与两个句子中包含的惊喜总量是无关的，这是第一句话的信息是第一个加上第二个的信息。使惊喜添加剂的功能是概率互动的对数：

我们仍然有反向关系（毫无可能的象征越突出），并且在另一个之后看到和看起来一个惊喜

根据这种定义，与看到更长的字符串相关的惊喜只是个人惊喜的总和。

反向概率的对数也有一些其他属性，伴随着我们的直觉惊喜。例如，如果机器总是产生相同的信件，那么我们根本不应该感到惊讶，确实在这种情况下，惊喜是：

因此，Shannon决定坚持对数作为惊喜的衡量标准。它不如您选择的基本对数所做的那么重要 - 选择改变每个符号的精确惊喜值，但是更改了它们的交互方式。（请注意，如果有符号，则所有具有相同的概率，那么每个概率都是哈特利的惊喜＆＃39;我们在上一篇文章中探讨的信息的衡量标准。）

这阐述了我们机器生产的一串符号的信息的惊喜数量，我们＆＃39; ve相关的信息。出于稍后会清楚的原因，我们还可以计算机器每种符号产生的预期惊喜量。这是一个平均值，但考虑到更高概率的符号更频繁地发生，因此应该贡献比具有低概率的平均值（参见此处以了解更多关于预期值的信息）。

如果我们的机器生产字母，等概率，等等到那么预期的惊喜价值是

熵的概念是在热力学的背景下开发，热量的研究。

如果你知道一些物理，那么这个表达可能看起来很熟悉。它看起来与称为熵的数量完全相同，哪些物理学家在七十年前左右定义了解液体和气体的行为（在本文中了解更多）。这个并行的姓氏＆＃39;迷失在香农上。他称为在机器熵上方定义的平均信息的衡量标准。它只取决于可能符号的概率分布，机制的确切工作是生产它的机制不＆＃39; t。熵是一个真正普遍的信息衡量标准。

（如果你＆＃39一直在注意，你可能已经注意到了一个问题。要定义我们的惊喜衡量标准，我们认为符号是独立于彼此选择的。然而，我们说要模拟写的真实信息，在英语中，被选中的符号的概率应该取决于符号或更好的符号。但是这个是＆＃39; ta问题。＆＃39;赛的方式挑选那些依赖概率的方式获取许多独立分布 - 整体熵是组件的平均值。看到Shannon＆＃39;纸张以了解更多。）

让我们来看看一个例子。假设机器只能生成两个符号，A和A，并且它通过翻转公平的硬币来利用它的相同概率来选择它们，因此选择符号。这种概率分布的熵是

选择对数的基础是2，这给了我们一个很好的圆形值：

现在假设硬币是弯曲的，所以它追溯到90％的时间。这意味着现在的熵变成了

它低于公平硬币的熵，这是有道理的：知道硬币是弯曲的，我们可以通过倾斜H来估计90％的时间约为90％的时间。因此，平均而言，我们在看到实际结果时感到奇怪这太棒了 - 它绝对低于公平的硬币。思考惊喜作为测量信息，这告诉我们，机器印刷一个符号固有的平均信息量小于公平硬币的相应数字。

但为什么在地球上你想要计算每个符号的平均惊喜（或信息）吗？事实证明，Shannon＆＃39; S熵也有一个非常具体的解释，与现代世界非常相关：它测量最小位数 - 即编码消息所需的最小位数 - ＆＃39; s 0s和1s。要了解更多信息，请参阅下一篇文章。本文是我们与FQXI合作运行的信息项目信息的一部分。点击此处查看其他测量信息的其他方式。 Marianne Forierger是加号的共同编辑。她要感谢Massachusetts理工学院的计算机科学家斯科特阿纳蒙森，有关信息的非常有用的对话。她建议书信息理论：James V. Stone作为对象的数学介绍的教程。

https://plus.maths.org/content/information-surprise

tags users