幽灵萦绕在Unicode中

2020-11-01 05:01:39

1978年,日本经济产业省建立了后来被称为JISX0208的编码,它仍然是所有日语编码的重要参考。然而,在JIS标准发布后,人们注意到了一些奇怪的事情--一些添加的字符没有明显的来源,没有人知道它们是什么意思,它们应该如何发音。没有人知道他们是从哪里来的。这些就是后来被称为鬼角色(幽霊文字)的东西。

在很长一段时间里,鬼魂角色一直是一个无法解释、几乎被遗忘的好奇心,但在1997年,一项调查开始了,以发现它们来自哪里。虽然JIS标准中的所有字符都被假定有其来源的记录,但即使它存在,它也不是非常具体,通常只是列出其来源的文档。

你会认为列出来源会让追查这些字符的起源变得容易,但澄清什么是来源是很重要的-鬼魂角色最常见的来源之一是国家行政区概览(国土行政区画総覧),这是一份日本地名的综合清单。你可能会像我最初想象的那样,把这想象成一本地图集,一本最多只有几百页的超大本。事实证明,最新的版本是一套七卷本,每卷大约有900页。想象一下,在没有页面引用的情况下跟踪单个字符。

尽管困难重重,但对鬼魂人物的调查成功地发现了它们的起源-大部分是。通过采访参与标准制定的编目员,调查人员证实,一些字符是在编目过程中被无意中发明为错误的。例如,妛是在尝试记录山而不是女";时引入的错误。山Over女";出现在特定地点的名称中,因此适合包含在JIS标准中,但是因为他们还不能将其作为一个字符打印,所以山和女被分开打印,剪切并粘贴到一张纸上,然后复制。当阅读复印件时,两张小纸片相交的线条看起来像一个笔画,被错误地添加到了字符上。原来的字符(𡚴)直到很久以后才被添加到JIS或Unicode中,而且对我来说,大多数网站上都不会显示它。

最后,只有一个人物既没有明确的来源,也没有任何历史先例:彁。最有可能的解释是,它是作为彊字符的误读而创建的,但没有发现具体的事件。

随着JIS标准的普遍采用,这些字符都进入了Unicode,Unicode在中日韩统一期间引入了自己的一组单独的影子字符。

总而言之,1978年,一系列小错误无中生有地造就了一些人物。这些错误没有被发现的时间刚刚长得足以被刻在石头上,现在这些幽灵,至少在潜在的情况下,是这个星球上每台计算机的一部分,潜伏在字符表的黑暗角落里。

幽霊文字-通信用語の基礎知識-最全面的在线来源,引用了1997年调查的内容。

大正十二年の幽霊文字-ことばマガジン:朝日新聞デジタル-彁的一个例子,由于彊的印刷褪色,在数字化的大正报纸上错误地使用了它。

天书或一本来自天空的书,这是徐冰的一本手工印刷的书,只使用虚构的汉字。