Unicode字符名称中的已知异常

2020-05-21 03:27:21

本文档提供有关Unicode标准中正式字符名称中许多已知异常的信息。

本文档是Unicode技术说明。其内容由作者承担全部责任。发布并不意味着Unicode联盟的任何认可。本文档不受Unicode专利政策的约束。

在本文档中,我们列出了在撰写本文时其名称拼写存在已知手写错误的所有Unicode字符名称。此外,我们还汇编了许多命名错误的字符、误导性的字符名称以及名称存在其他已知问题的字符的信息。

因为Unicode标准是字符编码标准,而不是书写系统和字符标识的通用百科全书,所以公布的字符名称的稳定性和唯一性远比名称的正确性重要得多。对于Unicode标准和大量引用该标准的其他IT标准而言,发布的字符名称是标准化的。这些标准需要稳定的标识符,因此字符名称必须是不变的-任何字符名称的更改几乎都是对标准的破坏,就像更改字符的代码点一样。因此,Unicode联盟采用了名称稳定策略,防止字符名称更改。因此,无法纠正角色名称中的错误。相反,重要的字符名称异常用注释记录在Unicode字符代码图表中。

对可用作正式标识符的唯一且稳定的字符名称的要求并不意味着Unicode标准向任何人规定其书写系统中的任何给定字母的名称应该是正确的,无论是用英语还是用任何其他语言。Unicode代码图表为大量字符提供了信息丰富的别名,这些字符的名称没有异常或有缺陷。这是因为不同的用户社区经常对相同的角色使用不同的名称,即使是在英语中也是如此。

Unicode标准在Unicode名称列表中发布许多信息丰富的别名的原因之一是,与数据文件中的标准名称相比,通常有更好、更具通信性的特定字符名称,甚至是英文名称。例如,U+002F固相线在美国用户中更广为人知的名称是斜杠。非正式别名在描述角色时很有用,但不能用作标识符,因为它们不能保证是唯一或稳定的。用户可以自由使用这样的别名和其他名称,只要它们没有被错误地表示为对标准的更正,而是用作标准中字符的替代、更有用的名称。

对于将拼写错误的单词作为其名称的一部分进行编码的字符名称,或者显示出其他严重错误的字符名称,Unicode标准采用了标准的字符名称别名。这些别名可以用作字符的替代的、规范的标识符,而不需要保留字符名称中的原始拼写或其他错误。虽然这意味着某些字符可以有多个标识符,但每个标识符继续唯一地引用单个字符。正式别名记录在Unicode字符数据库的NameAliases.txt文件中。Unicode代码表中也记录了正式名称别名。我们没有在这里记录它们,相反,我们只是指出在撰写本文时哪些字符存在正式别名。

在某些情况下,已经将注释添加到Unicode标准的名称列表中,以记录各种较小的问题,但到目前为止,还没有列出所有已知问题的完整列表。

因此,作者打算将本技术说明作为撰写时Unicode标准中有关字符名称异常的信息的方便摘要。当了解到更多异常情况时,它将不时更新。虽然本技术说明中的信息基于Unicode标准中发布的信息,但本文档中的选择和表示方式反映了其作者所做的选择;它不会以任何方式取代Unicode标准中的信息。

本节列出具有已知异常的角色名称,包括已为其定义正式别名的角色名称。它提供了有关已成为讨论或查询对象的一些名称的进一步信息。在报告问题时,可以随时添加其他条目,恕不另行通知。虽然下面的许多解释都是基于Unicode代码图表中的注释,但作者已对其进行了编辑或重述。

即使将其编码为单个字符,通常也不会将其视为单个字母。

这些应该叫做Letter GHA。它们既不发音,也不基于字母';o&39;和';i&39;。已定义将这些更正为拉丁文大写字母GHA和拉丁文小写字母GHA的正式别名。

卡隆应该被称为hacek和组合式hacek。(#34;caron";caron)。有些人怀疑“卡隆”这个词是某些早期标准团体的发明,但另一些人也声称它在数字排版技术出现之前就已经在利诺排版中使用过了。(译者注:原文为“Caron&34;Caron&34;Caron";Caron";Caron&34;”)。它的真正起源可能会消失在时间的迷雾中。

这个名字不能描述这个角色的功能。尽管它叫这个名字,但它并不连接字素。有关更多信息,请参阅Unicode标准的第7.9节组合标记。

拼写lamda的使用源自国际标准化组织10646。这并不意味着它比lambda更正确,只是说没有字母的拼写是正式字符名称中使用的拼写。

U+04A5西里尔文小写连字EN GHE U+04B5西里尔文小写连字TE TSE U+04D5西里尔文小写连字A IE

也许应该叫希伯来语口音tsinnorit。在带重音的非词尾字母上显示时,也可用于Zarqa。请参阅附录A。

U+06C0阿拉伯文字母Heh带Yeh上方U+06C2阿拉伯文字母Heh Goal上方带Hamza U+06D3阿拉伯文字母Yeh Barree上方带Hamza。

在命名角色时,歪斜的方向被曲解了。它应该是……。向左倾斜";。已定义更正此错误的正式别名。

尽管这些字符的名字中有梵文字母,但这些标点符号是印度文字常用的。

单词Adak的拼写与U+0A71 Gurmukhi ADDAK不一致,真的应该有两个d';d';d;这个词的拼写与U+0A71 Gurmukhi ADDAK不一致。

这个字符实际上是aaytham,在泰米尔语中不用作visarga。

没有卡纳达字母';fa';,这个字符代表音节';11la&39;。已定义更正此错误的正式别名。

此字符的名称应该是已唱的,但该名称已用于U+0E9F。已定义正式别名老挝文字母FO Fon更正此错误。

此字符的名称应为fo tam,但该名称已用于U+0E9D。已定义老挝文字母FO Fay更正此错误的正式别名。

此字符的名称应为loloot,但该名称已用于U+0EA5。已定义更正此错误的正式别名老挝文字母RO。

此字符的名称应为loling,但该名称已用于U+0EA3。已定义更正此错误的正式别名老挝文字母Lo。

这个字符用来表示一份文件是写给上级的(请愿书敬语),但藏文名字实际上表示上级对下级的称呼(发号施令,以华丽开头)。

tsheg标记不限于音节间的使用,最好将其命名为藏文标记tsheg。

此字符不是分隔符,而是仅在字母NGA(U+0F44)和着色标记(U+0F0D)之间使用的TSHEG标记(U+0F0B)的不间断版本。

藏语中的音节";bska-";不是自然出现的,是";bka-&34;的错误音节(参见:#34;bska-";;bska-";)。U+0F0A)。已定义更正此错误的正式别名。

在每种情况下,名称的一部分都是对应该命名为YESIEUNG&34;的组件的误解。已定义更正此错误的正式别名。

因为这个字属于第一音域,所以它的正确音译是nna,而不是nno。

因为这个字符属于第一个寄存器,所以它的正确音译是ssa,而不是sso。

这不是空格。它是一个看不见的字符,可以用来提供换行机会。

尽管有字符名称,但此符号是从小写字母";L";的特殊斜体版本派生而来的。

应该叫书法小p或魏尔斯特拉斯椭圆函数符号,这就是它的用途。它根本不是首都。定义了将其修正为Weierstrass椭圆函数的形式别名。

U+234A APL功能符号DOWN TACK Underbar U+234E APL功能符号DOWN TACK JOT U+2351 APL功能符号UP TACK OVERBAR U+2355 APL功能符号UP TACK JOT U+2361 APL功能符号UP TACK DREARESION。

APL函数符号集合中的粘性符号最初是根据博斯沃思关于指代粘性的上下意义的约定来命名的。(这源于对早于Unicode标准的APL字符的早期注册,该标准在APL功能符号的初始编码期间使用。)。Unicode标准中的其他大头针符号是根据伦敦惯例命名的。这导致了大头针符号命名的不一致。APL规范随后采用了伦敦约定,因此这五个符号的名称不再与APL的UP和DOWN用法相匹配。

这两个符号在命名时被曲解了。它们是基于ISO 1004:1995的磁性墨迹字符识别(MICR)符号。已定义将它们分别更正为US符号和MICR破折号上的MICR的正式名称别名。

所示的交叉势实际上是一个简单的交叉势。耶路撒冷的十字架实际上是一个强有力的十字架,在每个角落都加了一个小十字架。

这个符号之所以这样命名,是因为作为伊朗的象征,它不能用ISO标准编码。

U+2B7A左三角箭头双水平笔划U+2B7C右三角箭头双水平笔划。

由于复制/粘贴错误,这两个符号包括对笔划方向的不正确描述。分别定义了将其改正为双竖向左三角箭和双竖右三角箭的正式名称别名。

U+3021杭州数字一U+3022杭州数字二U+3023杭州数字三U+3024杭州数字四U+3025杭州数字五U+3026杭州数字六U+3027杭州数字七U+3028杭州数字八U+3029杭州数字九。

苏州数字是商人用来显示商品价格的特殊数字形式。名字中使用杭州是一个用词不当的地方。

这不是一个发音为";Wu&34;的音节,而实际上是一个音节迭代标记。已定义一个正式别名,将其更正为彝文音节迭代Mark。

U+FA0E CJK兼容表意文字-FA0E U+FA0F CJK兼容文字-FA0F U+FA11 CJK兼容文字-FA11 U+FA13 CJK兼容文字-FA13 U+FA14 CJK兼容文字-FA14 U+FA1F CJK兼容文字-FA1F U+FA21 CJK兼容文字-FA21U+FA23 CJK兼容文字-FA23 U+FA23 CJK兼容文字

拼写错误:";brakcet";应该是";方括号";。已定义更正此错误的正式别名。

这些标志中的NU11成分被错误地识别为Shir。已经定义了正式别名,将名称分别更正为楔形符号NU11 Tenu和楔形符号NU11(在NU11 BUR上)和NU11 BUR(在BUR上)。

这个平假名字符是更大的hentaigana集合中的一员。首选名称为HENTAIGANA字母E-1。已经定义了记录此首选项的正式别名(对于Unicode10.0)。

拼写错误:";fhtora";应该是";fthora";。已定义更正此错误的正式别名。

地球U+1D300符号地球U+1D301图形人类地球U+1D302图形地球U+1D303图形地球U+1D304图形地球+1D305图形地球U+1D305图形U+1D305图形。

字母和五个数字的字符名称与3点线(人rén=人)和虚线(地d?=地球)的解释不正确。因此,这六个名字都是用词不当。它们的名称应该如下所示:

U+1D300人类U+1D301图形人类U+1D302图形人类U+1D303图形人类天堂U+1D304图形人类U+1D305图形人类U+1D305图形人类U+1D305图形U+1D305图形。

在希伯来语圣经中有两个独立的悬念系统。一种用于“诗篇”、“箴言”和(大部分)工作(诗意的书籍,因此有诗意的系统),另一种则在其他地方使用。这两个系统在结构上有相似之处,并共享一些字素,但不是全部。在现代印刷中,重音的形状大致相同;旧手稿实际上写得略有不同。在散文系统中,有一种叫做Zarqa的口音,它是后置的(在最后一个字母的左边或上面),在诗歌系统中,有一种叫做TSINOR的口音(也叫Zarqa,反之亦然;每种口音都有很多名字),它有相同的形状和位置,甚至在颂歌的结构中有类似的功能。还有另一种口音,只有在诗歌系统中才有,叫做TSINNORIT(tsinor的缩写),出现在它的字母的正上方,(几乎?)。永远不会出现在单词的最后一个字母上。(更现代的印刷往往也会将Zarqa印在字母的正上方,但这只是一种印刷偏好)。如果你仔细观察一些古老的手稿,你可以看出tsinnorit的形状与zarqa/tsinor略有不同。

按照Unicode编码,有Zarqa(U+0598)和ZINOR(U+05AE)[原文如此]。根据这些名字的通常含义,它们应该是同义词、相同的口音,但它们不是。虽然单词zinor可能是tsinnorit的助记符,但它在角色名称中的位置是错误的:zinor的组合类是上述后置的,而zarqa编码为直接位于字母的正上方。因此,要对zarqa或tsinor进行编码,需要使用ZINOR;要对tsinnorit进行编码,需要使用zarqa。

感谢约翰·哈德森、詹姆斯·卡斯、川端太一、马克·洛德维克、阿图尔·Q.A.、马克·休尔森和安德鲁·韦斯特的贡献。

©2017作者和Unicode,Inc.。保留所有权利。Unicode联盟和作者不作任何形式的明示或默示保证,也不对错误或遗漏承担任何责任。对于与使用本技术说明中包含或附带的信息或程序相关或由此产生的附带和后果性损害,不承担任何责任。适用Unicode使用条款。

Unicode和Unicode徽标是Unicode,Inc.的商标,并在某些司法管辖区注册。