Chatgpt训练过程

Chat-GPT 训练过程

Pretrained (self superwised learning) 预训练 -> supervised learning (监督学习 - finetune) -> reenforced human feedback (强化学习)

训练流程

第一步:文字接龙

GPT(Generative Pre-trained Transformer)是一个会文字接龙的模型,给他一段文本,他会预测下一个字是什么。

训练一个文字接龙的模型是不需要人工标注的文本的,只需要在网上收集大量的文字,就可以学文字接龙这件事情。

GPT真实的输出是一个概率分布,“你好”的输入,可能跟“高”、“美”、“吗”等等词,每一次的输出都是不同的,出现的概率也不一样。

文字接龙已经可以用来回答问题了,但是…

GPT输出的是一个概率分布,后面可以接各式各样的句子,很多并不是我们想要的。 那我们如何引导GPT产生有用的输出呢?

第二步:人类老师引导文字接龙方向

找人来思考想问GPT的问题,并人工提供正确答案。

  • 西安的地标是什么? --> 钟楼

  • 如何学习深度学习? --> 需要先知道基本概念…

  • 请把这句话做翻译…

让原始的GPT模型在这部分质量较高的数据集上学习,多看一些有益的句子,期待他能产生出有用的输出。这里不需要穷尽所有问题,只需要告诉GPT人类的偏好。

第三步:模仿人类老师的喜好

训练一个模仿老师的模型,学习人类老师评分高低的标准。

如果人类提交的是“钟楼”这个答案好于“谁来告诉我呀”,那么Teacher Model给“钟楼”这个的打分就要比“谁来告诉我呀”的打分高。

第四步:用强化学习向模拟老师学习

把“接龙模型GPT”和“老师模型Teacher Model”组合起来使用。

Teacher Model通过前面的学习已经学到,如果答案是一个问句,它不是一个好的答案,给予低分。这个Teacher Model输出的低分就是强化学习的奖励Reward,强化学习通过调整参数,得到最大的Reward

经过强化学习以后,GPT就变成了ChatGPT,能够输出我们想要的答案了。

总结:整个过程就是教GPT从“想说什么就说什么”到“说人类想要他说的”。

Last updated