Chatgpt训练过程

Chat-GPT 训练过程

Pretrained (self superwised learning) 预训练 -> supervised learning (监督学习 - finetune) -> reenforced human feedback （强化学习）

训练流程

第一步：文字接龙

GPT（Generative Pre-trained Transformer）是一个会文字接龙的模型，给他一段文本，他会预测下一个字是什么。

训练一个文字接龙的模型是不需要人工标注的文本的，只需要在网上收集大量的文字，就可以学文字接龙这件事情。

GPT真实的输出是一个概率分布，“你好”的输入，可能跟“高”、“美”、“吗”等等词，每一次的输出都是不同的，出现的概率也不一样。

文字接龙已经可以用来回答问题了，但是…

GPT输出的是一个概率分布，后面可以接各式各样的句子，很多并不是我们想要的。那我们如何引导GPT产生有用的输出呢？

找人来思考想问GPT的问题，并人工提供正确答案。

让原始的GPT模型在这部分质量较高的数据集上学习，多看一些有益的句子，期待他能产生出有用的输出。这里不需要穷尽所有问题，只需要告诉GPT人类的偏好。

训练一个模仿老师的模型，学习人类老师评分高低的标准。

如果人类提交的是“钟楼”这个答案好于“谁来告诉我呀”，那么Teacher Model给“钟楼”这个的打分就要比“谁来告诉我呀”的打分高。

第四步：用强化学习向模拟老师学习

把“接龙模型GPT”和“老师模型Teacher Model”组合起来使用。

Teacher Model通过前面的学习已经学到，如果答案是一个问句，它不是一个好的答案，给予低分。这个Teacher Model输出的低分就是强化学习的奖励Reward，强化学习通过调整参数，得到最大的Reward

经过强化学习以后，GPT就变成了ChatGPT，能够输出我们想要的答案了。

总结：整个过程就是教GPT从“想说什么就说什么”到“说人类想要他说的”。

Last updated 2 years ago