饺子类型学(2019)

2020-07-11 10:23:45

在周五晚上,有时你会感到无聊。有时您会想到周五晚上的数据可视化。有时你会想到(或者更好的是,在周五晚上吃饺子)。有时,你会做以上所有的事情。

我是饺子的粉丝。面包型食物太棒了。填饱肚子的食物太棒了。面包馅料太棒了(如果你从来没有吃过乔治亚罗比亚尼面包,那你就错过了!)。一个饺子,虽然不一定要填满,但结合了很多这一点。在我的世界里,饺子通常是用某种液体煮的-也就是说,煮、炖、蒸或油炸,而不是比如烘焙。我们会回到这个话题的。

我从事语言学研究,我对比较不同的语言很感兴趣。它们有什么相似之处,又有什么不同之处?有时,我使用多维缩放(MDS)来比较这些相似或不同之处。无论如何,在这个特殊的周五晚上(2019年8月23日),我在推特上看到一篇帖子提到了一个“饺子派对”(omg,本身就=爱),会上有一个人带来了意大利意大利香肠,受到了其他客人的“褒贬不一的接待”。所以我开始想,什么是“饺子”,你能根据不同的特征对它们进行分组吗?原来艾米丽·本德尔等人。已经在宣传国际饺子节的网站上确定了饺子的定义-直到这个特殊的周五晚上,我还不知道这一点。

在这一点上,我想如果我只是在维基百科上查找一些饺子,然后为每个饺子编写一些具体的功能代码,会怎么样?这可以让我使用MDS方法在二维空间中绘制它们。我对可能的结果很感兴趣,所以我开始通读维基百科上的文章“饺子”…。

我的方法不是很老练。我从浏览维基百科的“饺子”开始,基本上把每一篇都有自己的文章(我可能漏掉了几篇),把它转移到电子表格中,然后开始为特定的功能添加一些栏目。随着我开始获得更多的项目,功能的数量也在增加,我必须诚实地说,它们远远不是完美的,只是我当场想到的东西。更好的分析可以通过更复杂、更及时、更系统化的方式轻松地完成。我的意思是,这毕竟只是一个随机的周五晚上,我已经过了睡觉时间,…。

最后,我收集了61个不同饺子的数据。请注意,当我说不同时,这种分类根本没有明确定义。我试图排除那些连名字本身都是同源词的重复项。汉语的jiǎozi(餃子)与日语gyōza(ギョーザ)有关,因此只包括前者。然而,在德国Knödel和捷克Knödlík的案例中,我决定将两者都包括在内,只是因为前者被列为可能搭配甜味馅料供应,而后者我没有注意到这一点-NB:我保证这不是一个有偏见的决定(参见奖金部分)。

除了根据上述标准抽样的饺子外,我还包括了一些传统上不被视为饺子的东西,因为我想看看它们是如何与饺子搭配的。这些东西包括火锅、苦味丸,当然还有意大利香肠。由此得到的包含61个项目的样本如下所示。

##[1]";BANKU";";";美国";##34;##[5]";JOSHPARA";";饺子";";果铁";";旺顿";##[9]";古家";";萨莫萨";";Modak";##[13]";Kachori";";MOMO";";Pitha";";Nevryo";##[17]";Siomay";";Dango";";包子";";Buuz";##[21]";khuusshu。";Empanada";";pastei";##[25]";coxinha";";pantruca";";Bunuelo";";Tamale";##[29]";粉彩";";Paime";";";";";Cotswold";#。";Kn<;U+00F6>;del";";Maultasche";##[37]";halusky";##[37]";Shlishkes";";Knedlik";";Khinkali";";Pierogi";#[41]";托尔泰里尼";"。##[45]";Pelmeni";";";Kalduny";";Ccepelinai";##[49]";Borek";";拉维奥利";";Gnocchi";";Calzone";#[53]";Pastisz";"。";Asida";##[57]";qatayef";";kibbeh";";Mataz";";MatzahBall";##[61]";Kish";

我最终选定的功能总共有15个不同的功能。有些是相关的,但不是相互排斥的。主要关注内容、形式和准备。有些饺子可以用几种方法制作(例如,煮或蒸),可以是甜的,也可以是可口的;另一些饺子似乎对其中的一些特征要求更严格。

每个饺子的每个特征都被分配了一个二进制值(0或1),产生了下表-同样,这并不是说这不是周五晚上不是很严重的工作,我很累;错误是意料之中的(但是如果你愿意的话,可以自己重新做!)。

有了这个特征编码,我制作了一个距离矩阵,将所有饺子成对比较,根据每对饺子之间有多少特征不重叠,给每对饺子一个相似度分数。此表如下所示。

有了这个距离矩阵,我基本上只遵循了本教程中关于如何创建一个mds图的步骤,尽管我使用ggplot2和ggrepel包而不是基R来绘制它。我对一些添加了风格的…使用了风格特性。我是说彩色…。,并将一些小插图美学结合在一起,我认为这真的把情节联系在一起了。结果可以在下面看到,也通过我的推文在推特上半病毒式传播。

似乎我不是唯一一个喜欢数据和饺子的人。或许垃圾场语言学确实应该成为学术界未来的一个分支领域。包饺子,不是战争。保持冷静,吃饺子。所有的人。

作为一个小小的奖励,我将分享我的五大饺子菜肴(承诺,只有真正的饺子),尽管有几个我不再吃,因为我(目前)是素食者