堆：用于语言建模的800GB多样文本数据集

2021-01-02 08:26:08

堆是825 GiB的各种开源语言建模数据集，它由22个较小的高质量数据集组合而成。最近的工作表明，特别是对于大型模型，数据源的多样性改善了模型的一般跨域知识以及下游的泛化能力。在我们的评估中，不仅在桩上训练的模型在传统语言建模基准方面显示出适度的改进，而且在桩BPB上也显示出显着的改进。为了在桩BPB（每字节位数）上获得良好的评分，模型必须能够理解许多不同的领域，包括书籍，github知识库，网页，聊天记录以及医学，物理，数学，计算机科学和哲学论文。桩BPB是对这些领域中世界知识和推理能力的一种度量，使其成为大型语言模型的通用跨域文本建模能力的可靠基准。

http://pile.eleuther.ai/