堆:用于语言建模的800GB多样文本数据集

2021-01-02 08:26:08

堆是825 GiB的各种开源语言建模数据集,它由22个较小的高质量数据集组合而成。 最近的工作表明,特别是对于大型模型,数据源的多样性改善了模型的一般跨域知识以及下游的泛化能力。 在我们的评估中,不仅在桩上训练的模型在传统语言建模基准方面显示出适度的改进,而且在桩BPB上也显示出显着的改进。 为了在桩BPB(每字节位数)上获得良好的评分,模型必须能够理解许多不同的领域,包括书籍,github知识库,网页,聊天记录以及医学,物理,数学,计算机科学和哲学论文。 桩BPB是对这些领域中世界知识和推理能力的一种度量,使其成为大型语言模型的通用跨域文本建模能力的可靠基准。