使用gzip在Bash命令行中检测语言(2011)

2020-11-12 04:35:32

是否可以编写一个简单的命令行来检测给定的文本是否属于英语、德语或其他自然语言?只使用gzip和其他一些传统的GNU/Linux实用程序?让我们试一试吧!

首先,我们创建两个测试文件,分别是Some_en.txt和Some_de.txt,并在其中分别存储一些英语和德语文本:

铱是铂族中一种非常坚硬、易碎、银白色的过渡金属,是密度仅次于Os的第二大元素,也是最耐腐蚀的金属,即使在高达2000摄氏度的温度下也是如此。虽然只有某些熔融的盐和卤素对固体铱有腐蚀性,但细碎的铱粉尘活性更强,也可能易燃。1803年,人们在天然铂的不溶性杂质中发现了铱。主要发现者史密森·坦南特(Smithson Tennant)将铱命名为虹神爱丽丝(Iris),这是彩虹的化身,因为它的盐类具有醒目而多样的颜色。铱是地壳中最稀有的元素之一,每年的产量和消费量只有3吨。";>;ome_en.txt