令人惊讶的共享词源

2021-06-12 02:52:55

我发现词源迷人。我们的每一个词都在历史悠久的历史的表面上说话或写作,有时是跨越米兰尼亚的。

一段时间我买了一本名为Word Origin字典的书,详细介绍了数千个单词的历史,并在阅读它我总是很高兴了解了单词之间的各种历史联系,特别是当现代形式的历史之间言语彼此几乎没有。这本书甚至在其引言中提到了一些特别令人惊讶的例子,并且到这一天,我使用其中一个例子("细菌"和#34; Imbecile"是对词语相关的!)在需要时,可以进行有趣的事实。我'伟大的派对。

最近,我意识到,使用一些公开可用的数据集,我可能能够编写一个自动识别令人惊讶的共享词原料的程序。经过一点试验,错误和数据按摩,我能够产生一些结果。如果你'在那里的旅程感兴趣,继续阅读。如果您只想查看结果,您可以跳转到结果。

我的定义"令人惊讶的"是一对具有正交定义但共同的转移史的词。 "正交定义"这里意味着它们与两个非常不同的东西(如"细菌"和#34;" imbecile"),而不仅仅是他们有相反的含义(如"任何东西"和#34;和#34; 34;什么都不是#34;)。另一种措辞的方法是,这两个词在语义上非常不同。

注意:我没有追求这个项目的另一种令人惊讶的词汇,这是似乎应该是他们应该是对词语相关的话,但是' t(如"百吉饼&#34 ;和"包和#34;或"狂热"和#34;幻想")。

我所需要的第一次夫妇数据集是常见的英语单词列表和一个单词词汇数据库,我可以从中构建祖传树(见下面的示例)。在这棵树中,一个来自另一个词的词缩进它,就像如何"飞机" indented"飞机"如果两个词是对词语相关的那么他们' ll在这棵树中有一个共同的祖先。

希腊语:Πλόος拉丁语:Planus意大利语:钢琴英语:Pianoforte意大利:钢琴:普通英语:便衣英语:简单的英语:Plainspoken拉丁语:Planarius英语:平面

制作该项目的密钥数据集是由手套制作的 - 全球向量的单词表示。手套是一种试图了解在大型文本中的每个单词的含义(在这种情况下所有英语维基百科的含义)。 Glove' s输出是从文本中的每个单词到数字的每个单词的映射。这里'截断版本的输出,其中每个单词对应于50个数字的向量:

女王:0.37854 1.8233 -1.2648 -0.1043 0.35829 0.60029 -0.17538 0.83767 -0.056798 -0.75795 0.22681 0.98587 0.60587 -0.31419 0.28877 0.56013 -0.77456 0.071421 -0.5741 0.21342 0.57674 0.3868 0.28012 -0.12574 0.28135 -1.8053 -1.0421 -0.19255 -0.55375 -0.054526 1.5574 0.39296 -0.2475 0.34251 0.45365 0.16237 0.52464 -0.070272 -0.83744 -1.0326 0.45946 0.25302 -0.17837 -0.73398 -0.20025 -0.56095 0.2347 -2.2839 0.0092753 -0.60284king:0.50451 0.68607 -0.59517 -0.022801 0.60046 -0.13498 -0.08813 0.47377 -0.61798 -0.31012 -0.076666 1.493 -0.034189 - 0.98173 0.68229 0.81722 -0.51874 -0.31503 -0.55809 0.66421 0.1961 -0.13495 -0.11476 -0.30344 0.41177 -2.223 -1.0756 -1.0783 -0.34354 0.33505 1.9927 -0.04234 -0.64319 0.71125 0.49159 0.16754 0.34344 -0.25663 -0.8523 0.1661 0.40102 1.1685 -1.0137 -0.21585 -0.15155 0.78321 -0.91241 -1.6106 -0.64426 -0.51042RABBIT:0.53049 -0.63657 -0.53314 -0.37542 0.28821 1.2374 -0.47467 -1.2037 0.58209 -0.55149-0.2719 0.70193 0.74694 0.34327 0.60101 0.54077 0.66454 0.4 7677 -1.0837 0.12478 -0.15093 -0.66961 0.55866 0.60741 0.70239 -0.91675 -0.92081 0.59262 0.0070694 -0.95443 0.69853 -0.13292 -0.061585 1.206 -0.58842 0.43482 -0.19392 -0.19351 -0.07301 -0.85527 0.32885 0.57285 -0.57111 0.10893 1.0902 -0.028394 0.78458 -0.97332 0.36124 -0.056677轮:-0.096431 0.33246 0.8273 -0.22238 -0.36477 1.0267 0.027535 -0.75243 0.41674 -0.85088 0.32921 0.29503 -1.4781 0.93187 -0.4263 0.68609 -0.38269 1.2805 -0.19902 -2.1501 0.081088 -0.1337 -0.68121 0.73649 0.75513 -0.88687 -0.56006 0.71562 0.58291 0.15116 2.1771 0.23935 -0.27441 1.1731 0.60639 0.27858 0.62137 0.065271 -0.059935 0.19949 0.32832 0.096803 -0.62466 0.38014 -0.43297 0.031017 0.98628 -0.92416 0.34418 -0.71711

但这些数字是什么意思?好吧,不多自己。当你对比较两个单词的传感器时,他们变得有趣。如果我们将每个载体视为50维空间中的点,我们可以测量这些向量之间的距离。我们' LL找到的是手套已经建造了这些矢量,使得语义上类似的单词之间的距离小于语义上不同词语之间的距离。例如,&#34之间的矢量之间的距离; King"和#34;女王"是3.47,而#34之间的距离;国王"和#34;轮子"是6.58。

使用这些数据集,我们拥有我们需要识别令人惊讶的共享词汇所需的一切。如果(1)这两个词是令人惊讶的共享词源,这两个词是对词语相关的并且(2)它们彼此有大的语义距离。所以我们的最终算法看起来像这样:

在理论上,彼此的最高语义距离的对成对是最令人惊讶的。

在实践中,这不是必然的情况。出于各种原因,有各种各样的结果,因此有趣,所以我必须申请一些额外的过滤步骤:

我忽略了一个具有相同3个字母的单词(如"飞行"和"捕蝇")。

我被忽略了有至少4个字母的任何常见基板的一对词(如"书记"和#34;日本")。

我忽略了我不知道的各种各样的词语,似乎是不感兴趣的(比如" een"" pornwood"和#34; localhost")。

我剩下的是大多数有趣和令人惊讶的共同词汇的列表!

以下是我发现是我的程序所产生的最有趣的对(或三胞胎)的手提列表,以及我分别研究的实际历史的简要介绍。

"钢琴"是意大利语词&#34的缩短形式;钢琴形象"这意味着"软响亮的" "钢琴"部分来自拉丁丁" Planus",意思"水平,平,甚至",它也是单词&#34的来源;平原"并最终"便衣"

这些结果中的许多单词中的许多词之一似乎明显曾经指出,"饮用品"和#34;毒药"两者最终来自拉丁语和#34; Potare",意思"喝酒" " Potare"还给了英语这个词"药水",一个关闭表弟"毒药"

这些话都最终从拉丁语和#34;前",意思"行动&#34 ;,"做&#34 ;," make"和一堆其他事情。

英语"演员"远离跳远"前&#34 ;,,,34;凝结"需要更长的道路:"前" ➔" cogo" ("收集")➔"凝结物" ("一个clot")➔" coagulo" ("到Clot")。

"对比度"是拉丁&#34的缩短形式;对比度" (" Contra - "含义"反对" sa"站立反对"这是对比较东西所做的事情的文字描述)。

"房地产"通过拉丁语和#34来到英语;凝视" ➔"状态" ("位置,地方"),然后给出英文"州"并最终"房地产"

"支付"从拉丁语" Pacare",意思" Appase""""安抚债权人"如此原因,"支付"有人意味着"通过结算债务和#34来创造和平。

这些词一切都是从希腊语和#34中下降在拉丁语。

"癌症"被应用于肿瘤,因为肿瘤周围的肿胀看起来像螃蟹。

"癌症"后来接受了替代含义,"外壳",因为螃蟹' s钳子形成一个圆圈。这种替代含义帮助这个词进化到拉丁语和#34; cancellus" - 一个障碍划分建筑的两部分。在隐喻上应用,这最终成为英语"取消"

"总理"来自拉丁"康奈拉斯"原来是一个法院官员,想要与公众分开,站在一个消亡的一边。

来自&#34的路径; Phainein" "表型"是公平的,但"梦幻般的"通过希腊语&#34拍摄更长的路径; Phantos" ("可见")➔希腊语" Phantazesthai" ("有愿景,想象一下")➔希腊语" Phantastikos" ("想象中,梦幻般的")➔老法国" Fantastique" ("梦幻般的")。

来自单词含义"想象中的"一个词含义"奇妙"最初地击中了我,但显然它来自这个词"想象中的"和#34;虚幻"

&#34的历史;学院"更复杂 - " lex"成为拉丁语"乐高" ("选择,任命")➔拉丁" collega" ("合作伙伴"或"一个选择与另一个")➔拉丁" collegium" ("一群同事")。所以A"学院"是,词语,一群人选择共同努力。

从历史上看,这个词经常被用来指一家公司,并且只与过去百年的大学相关联。

" Lien"和#34;韧带"从拉丁&#34中解放出来; Ligare",意思"领带"这两个词都对他们目前的英语表格进行了相对较短的路径。

这是另一种情况,我发现这么令人愉快,其中一个具有物理意义(" Ligare")的单词已经采取了隐喻的飞跃,成为一个现代的词(" lien")。

虽然它似乎"期刊"和#34;旅程"应该是关闭堂兄弟,他们最近的常见祖先实际上很老了 - 拉丁语" diurnus",意思"每日和#34;

A"旅程"历史上是可以在一天内旅行的距离。 "在一天"这一点以来已经丢失了,离开"旅程"恰到意思"旅行"

我从来没有把这两个词从阵容中挑选为有共享的导演根,但肯定它坐在那里 - " du"在每个单词的中间,最终来自拉丁语和#34; duco",意思"领导&#34 ;.

"教育"来自拉丁语和#34;胚胎",意思是"铅或带出和#34;然后拉丁"教育" ("筹集,火车,模具")。我喜欢教育的形象作为将精制人员从未精制的物质的基础挤出的过程。

" subdue"来自拉丁语" subduco",意思"领先地位"再次,非常明确的物理描述词段意味着什么 - 放在你下面,或者在控制下带来。

如果这个东西对你感兴趣,那么这里有一些更多的建议,你可能喜欢的东西(我没有以任何方式与这些东西相关联,我就像他们一样):

语言的展开:这是一本令人兴趣的书,探讨了语言的起源和演变。它还不可避免地花了很多时间讨论词源,特别是为我们今天使用的所有单词追溯到物理空间中的根源。

英语播客的历史:我'到目前为止只听过这个播客的一些剧集(伟大的元音班次上的那些),但却享受了这一点。 作为音频媒介,播客是独特的,适合探索许多单词的声音随着时间的推移而发展。 Word Origins的字典:这是我在介绍中提到的书。 它'太棒了,作为咖啡桌书 - 它永远不会产生声音和#34;没有开玩笑!" 当我翻转到随机页面时,我来自我。 如果您'重新进入代码,您可以阅读粗糙,黑客一起的Ruby我在此写入此项目。 最后,如果你' ve得到了任何想法或评论我' d喜欢听到它们 - 推特或电子邮件([电子邮件受保护]这个域名)是联系我的最佳方式。