使用对齐的单词向量与python和rust的即时翻译

2021-06-11 05:02:27

Warning: Can only detect less than 5000 characters

电脑很快,并且可以相对迅速地强行以数百万欧几里德距离计算的方式。但不是立即。我们需要一种方法来构建这些点的索引,以在太空中找到一个点的邻居。许多机器学习或人工智能技术依赖于有效地导航向量空间,并且有各种方法和实现可用。我们想要一个纯粹的生锈实施,但没有发现任何生产准备好了。因此,我们用Python绑定构建和发布即时,快速和纯腐败的分层通航小世界图形。

要构建一个简单的翻译工具,我们将首先下载FastText发布的Word Vector Data。然后,我们将使用即时距离索引单词向量。一旦索引已完成构建,我们将在文件系统上存储生成的数据集与JSON文件的形式的单词与向量一起映射。

#构建即时距离索引并将其转储到具有.idx后缀的文件

最后,使用这些工具,我们可以将输入(一个字)转换为其字向量并使用即时距离来找到输入的最近邻居。由于单词向量全部对齐,因此不同语言的最接近的单词向量应该非常相似 - 如果不是直接翻译。

#我们知道该值的前两个字符是语言代码

您可以在GitHub上的即时距离上查看完整示例。如果您有任何疑问,请随时在Github中开发一个问题!