基于GPT-2的英文信息无损压缩

2020-06-24 03:06:13

这种无损压缩器在英文文本上的压缩率比通用压缩器高得多。其典型压缩比为15%(输出比特数除以输入比特数)。

压缩是利用OpenAI发布的GPT-2语言模型计算的下一个单词的概率来实现的。它是一个基于变压器架构的15亿个参数的神经网络。它使用LibNC库实现,并在标准PC上运行。

算术编码器生成比特流。通过使用CJK和朝鲜文音节Unicode范围,每个压缩字符保存15个数据位。