čħħṛᾀςŧέřṛᾀςŧέř♭łďĭďĭñġ（字符建筑）

2021-06-03 22:59:57

编辑注意事项：此帖子包含一些罕见的Unicode字符，其中一些字符可能无法在旧系统上正确显示。

5月20日5月，分布式校样器（DP）站点移动到使用Unicode UTF-8字符库。 “这是一个非常重大的变化，”Linda Hamilton总经理说。 “这一举措多年来一直是长期目标。” （有关此巨大改进的更多信息，请参阅DP Wiki文章网站转换为Unicode。）现在，DP可以从中选择超过200个分类的字母，数字和Quiggles。

我们谦虚地启动，提供了很少的额外角色，例如“œ”连字经常在旧书中发现œdipus或cœlacanth。不过，DP网站开发人员正在拿起节奏，为项目经理提供越来越多的其他角色套件可以分配给他们的项目。我们为不同的欧洲语言推出了三个角色套房 - 与ĝ，đ或Ł这样的字母;基本希腊和多元希腊字符套房;一个用于中世纪书中的字符，如ƿ或ȳ。此外，项目管理人员现在可以将个别Unicode字符添加到所需的项目中。这些字符可以包括较少熟悉的标本，例如ŧŧ♅◘，在校对屏幕上的“自定义”字符套件中。

这真的如何使我们在DP中受益？主要是，基于Unicode的编码允许我们支持使用“拉丁语-1”字符套件外的字符的语言，这是我们之前所提供的。

让我们参加一个重要的例子：古希腊语。为什么重要？因为我们在19世纪或之前工作的许多书籍，所以在希腊语中遏制希腊语或整个段落。当时的作家认为，读者更加学术类型的书籍将学习希腊语（以及拉丁语）作为其教育的一部分。

我们几个月前在这里报道了DP如何处理葡萄牙的希腊历史，这是一个巨大的工作，与含有希腊文本的数千脚注。大部分工作都倒入了后处理器，在它已经被校对后准备最终出版物的项目。使用Unicode，校对者可以分享乐趣！

以前，校对者没有使用希腊字符。要在校对期间代表文本，需要一个环形交叉路口进程，其中校对程序在我们熟悉的罗马字母表中编写的希腊语的音译版本，如[希腊语：mêdeneinmêdegrammate]，将重新转换回原始的希腊语 - μηδὲὲνεῖν μmδνγράμματα - 由后处理器。但现在，校对者可以生成正确的文本，在一套完整的希腊字符上绘制。这就是校对屏幕的相关部分如何查找包含希腊字符集的项目：

询问校对员与希腊字母一起使用，现在光学字符识别（OCR）软件在阅读希腊语时变得更好。看看2005年由希腊页的OCR：

看起来像这本书写在克林贡不是吗？现在比较这个，从2020年开始：

仍然远非完美，但足够好，校对者不必从头开始重新键入整件事。使用扩展字符集，他们现在可以纠正来自OCR的希腊文本，就像他们自己的语言中正确的文本一样。

它与其他类型的字符相同。如果校对者在中世纪书中遇到一个不熟悉的信，而不是打字[yogh]（例如），他们现在可以输入实际字母ȝ。我们继续添加更多的字符集来满足我们各种项目的需求。最近的是一组用于罗马化形式的语言，如阿拉伯语，希伯来语和梵语，所以我们可以重现“ala'uddīn或mahābhārata或viṣṇu”（以前必须证明的vi）的准确音译。 ] [n。] u）。还有一个“符号集合”，包括天文学，黄道带，药剂师和音乐符号。通过这个系列，如果我们校对占星术书，而不是[汞]我们现在可以简单地添加☿。配方以获得一个过去的药剂药水？不是[**盎司]，但℥。等等。

因此，使用Unicode，校对家知道其他人不需要来改变所有尴尬的符号。现在他们可以完成整个工作并生成一个精确的数字版本原始页面，无论是什么字符都在上面！

https://blog.pgdp.net/2021/06/01/cha%e1%b9%9b%e1%be%80%cf%82t%ce%adr-%e2%99%ad%e1%bf%a7ilding-character-building/

tags users