Alar:开源词典的制作

2020-09-30 02:27:44

ನಮಸ್ಕಾರ(Namaskāra)!这不是关于金融科技的帖子,甚至也不是关于科技的帖子。这是一个关于坚韧、无私和激情的产品的故事;一个将超越我们所知的大多数技术的产品。这是一个关于一本巨型词典的故事,它将成为了解一种数千万人在未来几代人使用的语言的窗口,它的作者已经将这一资源捐赠给了子孙后代。这是关于V.Krishna,Alar,他的卡纳达-英语词典的故事,以及它在一个不太可能的地方被意外发现和开源的故事,股票经纪公司Zerodha。这篇帖子也是我个人的笔记,我已经很久没有尝试过了。

自2010年以来,我一直在运营奥兰(Olam),这是一本英语-马拉雅拉姆语和马拉雅拉姆语-马拉雅拉姆语词典。它是建立在没有一个容易获取的在线马来亚语词典的挫败感,是因为词典网站的挫折感,因为它以糟糕的可用性、可怕的广告泛滥和对语言的不尊重来侮辱读者的智力。奥兰的网站10年来一直保持不变。它有一个输入框,可以在不到50ms的时间内响应字典查找,这与2010年的情况完全一样。它被数百万说马来亚语的人积极使用。

Olam语料库的第一个版本是由我从网络随机部分拼凑而成的未归类单词列表和我自己输入的数千个条目组成的。从那时起,随着众包词条的出现,英语-马来亚语词典一直在缓慢扩张。

整个OLAM语料库都是开源的(根据OdBL授权),或者说是开放数据。虽然英语-马拉雅兰语语料库是众包的,但马拉雅拉姆语语料库(现在称为Datuk语料库)是已故的“拿督”K.J.约瑟夫在90年代末承担的庞大数字化项目的基础上创建的,当时他一手将一本版权过期的马拉雅拉姆语词典与许多其他书籍一起数字化,并以退休后的大量时间为代价将它们发布到网上。他是定居在马来西亚的马来亚人,杰出的活跃社会工作者和教育家。马来西亚政府授予他“拿督”头衔,以表彰他在该国的模范服务,后来这个绰号也成了他的绰号。我不知道达图克摘录的字典的起源,但想到原作者的作品在一个世纪后仍然存在是令人心酸的。

我发现Datuk十年前在一个不活跃的雅虎群组页面上发布的RTF文件,大约是在我开发Olam的时候发布的。不用说,我被这个项目的范围难住了,立即开始将其集成到OLAM中。将文本从最初的ASCII输入转换成Unicode,以及清理、组织和更正近200,000个条目花了两年多的时间。该数据集被命名为Datuk语料库,并于2013年在OLAM上发布。我写信给斯瓦桑特拉马拉雅拉姆计算机(SMC)邮件列表宣布了这一消息,我们在那年在喀拉拉邦ThrIsr举行的SMC会议上大张旗鼓地推出了它。媒体报道了拿督的故事,他的作品现在已经公开,每个人都可以看到。

此后不久,我在会议上遇到的一位老朋友给我接通了拿督的电话,我们在电话中进行了简短的交谈。他看到了这本词典发布的新闻剪辑,得知他的作品现在可以像他最初想要的那样被访问时,他感到非常兴奋。开放数据将继续存在。他觉得有趣的是,一个随机的陌生人不知何故挖掘出了一件他在互联网历史编年史上丢失的文物。生活就是这样荒谬的,由微小的、随机的事件以无限的方式塑造着。

拿督于2019年1月去世。他享年89岁。里普·达图克。你的作品的效用将跨越几代人。你们创建的数据将以我们从未想象过的方式激增,并继续对人类有用。这就是开放数据的美妙之处。我认为这是一种荣幸,因为我只有一次机会与您交谈。

开放数据是这样一种理念,即一些数据应该免费供每个人使用和重新发布,而不受版权、专利或其他控制机制的限制。

一想到没有维基百科的世界,我就不寒而栗。开放数据运动与自由和开放源码软件(FOSS)运动有很大的相似之处。要点是,某些知识应该不受限制地向每个人免费提供,并且只有一个目标-集体促进人类进步。

我认为字典在那张单子上是最重要的。语言的垫脚石,文明的基石。字典应该是开放的,免费的,每个人都可以在任何地方方便地使用。如果我们不能在没有利益动机的情况下分享语言这样的基本东西,那么作为先进文明的一员,我们应该进行一些认真的反思。

世界上最大的开放源码字典集,每一种印度语言的开放数据字典,不仅对印度,而且对整个人类来说,都是一个巨大的资源。理想情况下,这是政府应该做的那种项目。州政府可以很容易地与当地大学合作,并承担开放数据词典的创建和维护工作。

这就是说,在Zerodha,如果有学者在致力于创建高质量的开放数据词典,我们将很乐意为这些项目提供资金。

2012年初,为了接入快速互联网,我从喀拉拉邦搬到了班加卢市。班加卢市是来自印度各地的人的大熔炉,英语是将“IT行业”凝聚在一起的粘合剂。我可以相当好地理解卡纳达的演讲,说得相当糟糕,但我不能读剧本,这要归功于我们说马拉亚语的家和说英语的环境之间的多年缺乏学习机会。带着不能学习卡纳达语的负罪感,以及拥有OLAM作为开放数据语料库的巨大满足感,我刚搬到班加卢市就一直在寻找建立一本卡纳达语词典的方法。

2016年的某个时候,我向NiThin提出了从头开始创建一个开源Kannada字典的想法。他立即同意委托进行这项工程。这是我享受的一项福利,有一位相信公共利益的足智多谋的支持者是我的特权。不知道从哪里开始,我四处询问了几个地方,但在接下来的两年里什么也没有实现,像往常一样,我继续偶尔提起这场对话。

然后,在2018年10月的某个时候,我随机再次提起了这段对话,刚刚加入技术团队的斯里哈里碰巧听到了这段对话。他依稀记得他家有人和字典联系了很长时间。这将是那些微小的、随机的事件之一,它将显著改变时间线;蝴蝶效应正在起作用。我祈祷,他很快就安排了与他的亲戚V·克里希纳的会面。此后不久,Srihari、Sharath(也是技术团队的成员)和我去KaGaPa的办公室会见V.Krishna,想知道Srihari到底记得他什么和一本字典。KaGaPa(Kannada Ganaka Parishat)为Kannada创造了广受欢迎的Nudi字体和输入法,这是数字Kannada的一项重要的早期创新,V.Krishna曾与他们在几个项目上合作。

V.Krishna和KaGapa的老板Narasimhamurthy在古色古香的小办公室里热情地谈论着卡纳达文学和数字化项目,办公室周围是成堆的卡纳达旧书和文学作品。这是一个完美的场景。然后,说话极其温和、举止温和的V.Krishna启动了一台电脑,向我们展示了他毕生的副业--他的卡纳达-英语词典。经过40多年的研究和撰写,15万多个卡纳达词和24万多个英文定义,都整齐地打在一个Word文档中,并附有卡纳达词的词性标签和音标,以及卡纳达词的变音符号。这个项目的雄心,它的学术质量,数据的深度,一个人一生的激情、毅力和坚韧的顶峰,所有这些都是默默无闻的,纯粹是巧合。绝对让人意犹未尽。

V.Krishna于1950年出生在卡纳塔克邦迈索尔区的Malanayakana Halli村。他在一所卡纳达中学学习,随后在一所大学预科学院学习了一年,在1968年与家人搬到班加卢市之前,他被迫辍学。

1970年,他在印度农业研究所(IARI)找到了一份工作。在IARI,大约在这个时候,他的老板注意到他在英语方面遇到了困难,不经意地建议他购买一本词典来学习英语。这场对话将被证明是至关重要的,并将使V·克里希纳踏上终身的语言研究和学术之旅,这是一个令人惊叹的自学成才的例子。

因此,他听从了老板的建议,给自己买了一本英语词典,并开始学习。然后他又给自己买了一本词典,又买了一本,直到他有了五本。与此同时,他对卡纳达文学产生了兴趣,开始一起学习卡纳达和英语。为了帮助这一点,他开始草草记下笔记,并在某个时候开始组织它们。一本词典正在诞生。在此期间,他参加了夜校,并于1976年从马勒什瓦拉姆的梅斯学院获得了商业学位。

1980年左右,Kannada Sahitya Parishattu出版了一本Kannada-English词典,V.Krishna不出所料地给自己买了一本。他对发现的错误数量感到惊讶-前50页有200多个错误。他把他的发现写信给编辑,编辑对此印象深刻,在班加卢市亲自会见了他,V·克里希纳在那里向他展示了他的手稿。他对它的质量感到惊讶,建议V·克里希纳继续他的工作,把它变成一本成熟的词典。正是这种推动让他意识到,他的笔记可以变成一本真正的字典。剩下的当然是历史了。

到20世纪90年代末,他已经完成了这部词典的大部分内容。然而,杂耍纸质手稿已经变得很麻烦。100页的编辑和重写,以产生15页干净的数据。因此,在1999年,他买了一台个人电脑,目的是将他的手稿数字化。这是一场赌博,因为在那个时代,个人电脑是一种昂贵的稀有产品。然后他写信给C-DAC,寻求帮助设置一个允许卡纳达输入的文字处理器。C-DAC的一个人来安装卡纳达输入软件,这笔交易让他花了₹10,000美元,这在1999年是一大笔钱,结果软件根本就不能用了。

然后,在2001年,V.Krishna偶然在报纸上看到一篇关于KaGaPa的Kannada输入软件Nudi的文章。他与卡加帕取得了联系,开始了一段很长的交往。配备了裸体,V.Krishna开始了他的词典项目的最后阶段,数字化。他自学了如何使用裸体打字,在接下来的八年里,他一直坚持这样做。2010年,他再次单枪匹马地完成了手稿的数字化。到那时,他已经在做了40多年的词典工作,从事过多份全职工作(州金融公司、利洁时和科尔曼公司、乔蒂实验室)。他于2015年从现役工作中退休。

我发现令人着迷的是,Datuk和V.Krishna,这两个互不相识,相距甚远的人,几乎在同一时间正在进行两种经典德拉威甸语的庞大词典数字化项目。两者都受到激情的驱使。

自20世纪90年代中期以来,V·克里希纳(V.Krishna)曾与卡纳塔克邦的许多大学接触,希望能出版他的字典,送到人们手中,结果要么没有表现出兴趣,要么被断然拒绝。有一次,他从政府那里获得了一笔拨款,以便出版这本词典,但这笔钱从未实现。2015年,卡纳塔克邦Sahithya Parishath进行了一次小规模出版,出版了这本词典的三卷纸质书,跨度为4700页。克里希纳仍然对出版商的尝试表示赞赏。

这是我在2020年9月26日对V.Krishna进行的一小时电话采访的摘要。快要结束时,我问他:“先生,您介意告诉我您的年龄吗?”他笑着打趣地说:“我为什么要介意呢?”我出生于1950年。“。他今年12月就70岁了。一生致力于智力追求。就像拿督一样,我认为与V.Krishna联系在一起是一种特权。

在我们2018年10月的第一次会议上,V.Krishna不仅喜欢让他的词典在线提供的想法,而且还喜欢开源的想法。我不需要说服,只需要建议就可以了。

不久之后,我们邀请V.Krishna和NarasimhaMurthy到我们在JP Nagar的办公室。我曾与尼辛讨论过为V·克里希纳提供奖学金的想法。在会议期间,尼辛以他的经典方式,不仅向V.Krishna提供了一笔赠款,以感谢他的工作,而且还向KaGaPa提供了对卡纳达数字化项目的贡献。此外,他还向V·克里希纳提供了永久的、无条件的每月津贴,以支持他的热情,他正在编写他的字典。最重要的是,他现在正在编写一本英语-卡纳达词典,最近完成了所有的“A”字。

因此,股票经纪人Zerodha成为了开源词典的支持者和出版商,这是一种极其宝贵的语言资源,现在不仅对读者,而且对各地的语言学家、研究人员和机构都是可用的。我还确信V.Krishna的字典是世界上第一个由其作者开源的权威字典。这本身就是历史上独一无二的时刻。

我一直很喜欢马拉雅拉姆语的单词“Olam”(波浪)。短小,两个音节,容易发音,易记,易拼,易打字。我想为V.Krishna的字典取一个有相同特征的名字。将开源的行为比作鲜花盛开的行为,有一种诗意。所以我在他分享的Word文档中查找了“Bloom”,偶然发现了“Alar”(ಅಲರ್)。一个词,它的形状和发音和它的意思一样美丽。V·克里希纳很喜欢它,这本词典现在有了一个名字--阿拉尔。

Word文档是以ASCII Nudi字体键入的,标题词、词类和定义用空格分隔,每行一个条目。必须对其进行解析和结构化,并且必须将ASCII内容映射并转换为Kannada Unicode。谢天谢地,我发现这个项目对后者有帮助。通过额外的脚本编写、试探法、大量的试错,以及Sharath在映射Kannada字符方面的帮助,ASCII Word文档被转换成结构化的Excel表格,使得V.Krishna的维护变得更容易。在接下来的几个月里,他再次梳理了字典中的每一个词条,并进行了更正和改进。

与此同时,我认为MLPhone,这是为在Olam上进行强力搜索而编写的马来亚语语音索引算法,也会对卡纳达起到很好的作用。该算法作为KNPhone被移植到Kannada。对于任何给定的Kannada字符串,它都会生成表示单词发音的语音散列。例如,ಅಂಕೆಸಂಖ್ಯೆ(aŋkesaŋkhye)生产A3KS3KY。这个想法是,拼写和语音稍有不同的单词将产生相同的语音散列,从而使它们可以通过它们的发音而不是通过它们的拼写来索引和搜索。

不管字典的查找语言是英语、卡纳达语还是法语,归根结底都是在字符串数据库中查找输入字符串。对于英语,这很容易,因为数据库中捆绑了大量字符串处理和搜索算法。对于像Kannada或马拉雅拉姆语这样的语言,执行Unicode子字符串查找可能不会产生最佳结果,特别是因为设备上复杂的非英语输入很有可能出现拼写差异。这就是语音算法起作用的地方。对于某些语言,它也可能是非语音算法。如果这一步的标记化可以抽象化,就有可能构建一个可以为任何语言工作的字典引擎,其中除了可以插入的搜索字符串标记化算法之外,所有内容都是标准化的-布局、分页、呈现和词汇表。经过一些修修补补之后,我编写了DiceMaker,这是一个用于构建和发布任何语言的词典站点和API的应用程序。

2019年9月,https://alar.ink上线。然后,整整一年过去了,我一直没有机会收拾残局,直到现在。附带项目的危险。谢天谢地,V·克里希纳一直很有耐心。最后一个部分,搜索建议,是上周使用Varnam实现的。可以通过在英语中按语音输入卡纳达词来进行搜索。例如,键入“Hesaru”会将ಹೆಸರು显示为建议。当然,真正的最后一件事是Alar移动应用程序,我们团队的阿金是从他为Olam构建的移动应用程序移植而来的。

所以,这就是Alar和V.Krishna的故事,开放数据的美丽,以及不可思议和无限的方式,微小的,随机的事件,比如无意中听到的对话,改变了时间线,蝴蝶效应。