卡帕西(氏)MinGPT

2020-08-18 02:29:53

A PyTorch重新实施GPT培训。MinGPT试图做到小巧、干净、易于解释和有教育意义，因为目前可用的大多数都有点杂乱无章。GPT不是一个复杂的模型，该实现大约有300行代码，包括样板和完全不必要的自定义因果自我关注模块。无论如何，所发生的一切都是将一系列索引放入一系列变压器块中，然后得出下一个索引的概率分布。剩下的复杂性只是巧妙地使用批处理(跨示例和超过序列长度)，以便训练是有效的。

核心minGPT"；库"；(Hah)是两个文件：mingpt/model.py包含实际的Transformer模型定义，而mingpt/traine.py是训练模型的(独立于GPT的)PyTorch样板。然后，随附的Jupyter笔记本显示如何使用"；库(Hah)来训练序列模型：

Play_math.ipynb训练专注于加法的GPT(灵感来自GPT-3白皮书中的加法部分)。

Play_char.ipynb将GPT训练为任意文本的字符级语言模型，类似于我以前的char-rnn，但使用的是转换器而不是RNN。

有了BPE编码器，分布式训练，也许还有FP16，这个实现也许能够重现GPT-1/GPT-2的结果，尽管我还没有尝试过$。GPT-3可能是遥不可及的，因为我的理解是它不适合GPU内存，需要更仔细的模型-并行处理。

这段代码非常简单，只需进行内联，而不是使用"；，但是当前的API类似于：

#您可以自己定义一个类，将单个示例作为PyTorch LongTensors从Torch返回。公用事业。数据导入数据集TRAIN_DATASET=MyDataset(...)。Test_dataset=MyDataset(...)#从mingpt构造GPT模型。Model import GPT，GPTConfig mconf=GPTConfig(vocab_size，block_size，n_layer=12，n_head=12，n_embd=768)#a GPT-1 model=gpt(Mconf)#从mingpt构建教练器。培训师导入培训师，TraineConfig tconf=TraineConfig(max_pechs=10，Batch_size=256)Trainer=Training(model，Train_Dataset，test_Dataset，tconf)Training er。列车()#(...。享受一段时间的表演吧..。)#模型中的样本([无，...]。和[0]从mingpt推送/弹出所需的虚拟批次维度)。工具导入样本x=Torch。张量([1，2，3]，dtype=火炬。Long)[无，...]#上下文条件y=SAMPLE(MODEL，x，Steps=30，Temperature=1.0，Sample=True，top_k=5)[0]print(Y)#我们的模型用另外30个可能的整数填充整数序列。

OpenAI/image-gpt的代码中有一些更现代的类似gpt-3的修改，也有很好的参考价值。

HuggingFace/Transers有一个语言建模的例子。它功能齐全，但因此追踪起来也有一定的挑战性。例如，一些大型函数在各种分支语句后面有高达90%的未使用代码，这在简单语言建模的默认设置中是不被使用的。

我们训练了一个12层的只有解码器的变压器，带有掩蔽的自我注意头(768个维度状态和12个注意头)。对于位置前馈网络，我们使用了3072维的内态。

LR衰减：在最初的2000年更新中从零线性增加，并使用余弦时间表退火到0。

我们在小批量的64个随机抽样的512个令牌的连续序列上训练100个纪元。

由于在整个模型中广泛使用LayerNorm，简单的权重初始化N(0，0.02)就足够了。

(37)中提出的L2正则化的修改版本，在所有非偏置或增益权重上w=0.01。

我们使用学习位置嵌入代替了原工作中提出的正弦形式。

对于微调：我们以0.1的速率向分类器添加丢弃。学习速率为6.25e-5，批量为32。3个时代。我们使用线性学习率衰减时间表，热身超过0.2%的训练。λ设置为0.5.

LayerNorm被移动到每个子块的输入，类似于激活前的残差网络。

使用修正的初始化，其考虑了具有模型深度的残差路径上的累积。我们在初始化时将残留层的权重缩放1/√N，其中N是残留层的数量。(很奇怪，因为在他们发布的代码中，我只能找到旧的0.02的简单用法……。在他们发布的image-gpt中，我发现它用于c_proj，即使那样也只用于attn，而不用于mlp。哈。Https://github.com/openai/image-gpt/blob/master/src/model.py)。

GPT-2使用了48层和d_model 1600(与原来的12层和d_model 768相比)。~1.542B参数。

我们使用与GPT-2相同的模型和体系结构，包括其中描述的修改后的初始化、预归一化和可逆令牌化。

我们在变压器的各层中交替使用密集和局部带状稀疏注意模式，类似于稀疏变压器。

我们始终具有四倍于瓶颈层大小的前馈层，dff=4∗dmodel。

ADAM，β1=0.9，β2=0.95，Eps=10−8。

所有模型都使用0.1的权重衰减来提供少量的正则化。(注：GPT-1使用0.01我相信，见上文)

前3.75亿令牌上的线性LR预热。然后使用余弦衰减将学习率降到其值的10%，超过2600亿个令牌。

根据模型大小，在前40-120亿个训练令牌上，将批大小从小值(32K令牌)线性增加到全值。

始终使用完整的2048大小的时间上下文窗口，并在文档标记的末尾使用特殊的分隔符

https://github.com/karpathy/minGPT

tags users