大家好,我是大凡光学,今天继续ChatGPT和自动驾驶的话题。

ChatGPT是个基于上千亿超大语料参数组成的 GPT3.0 架构训练出来的一个自然语言处理聊天工具。ChatGPT 的算法采用了 Transformer 神经网络架构,具有很好的时序数据处理能力,说大白话就是能很好处理上下文的语法关系。

Transformer 是一种结构简单的编解码器,几乎可以无限堆叠,从而形成一种大规模的预训练语言模型。基于 Transformer 模型构成的 GPT 架构可以很好地完成多种语言处理任务,填空、造句、分段、翻译等等,随着数据集和模型参数的大规模增长,等到 GPT3.0 的时候已经有了千亿规模,GPT 就表现出来了非常强的文本生成能力。
自然而然,一问一句的对话模式也就应运而生了。但 GPT3.5 还不是 ChatGPT。
ChatGPT 还需要使用监督学习和强化学习来实现。具体来说,ChatGPT 使用了一种叫「人类反馈强化学习(RLHF)」的训练方法,在训练中可以根据人类反馈,保证对无益、失真或偏见信息的最小化输出。
简单来说,GPT 只能保证有问就有答,不保证回答的正确,而 ChatGPT 既要保证有的聊,还要保证聊的对。就跟小孩子一样,必须在大人一遍遍纠正发音、纠正语法和用词的训练中,学会真正的有效对话。
ChatGPT 就是利用人类反馈进行强化学习的产物。
我们也可以发现ChatGPT 背后的训练模型也是可以用在自动驾驶技术当中
ChatGPT 的技术思路和自动驾驶认知决策的思路是不谋而合。
就当前而言,驾驶决策算法的进化上分成了以下三个阶段:
第一个阶段是引入了个别场景的端到端模仿学习,直接拟合人驾行为。
第二个阶段是通过大模型,引入海量正常人驾数据,通过 Prompt 的方式实现认知决策的可控可解释。
第三个阶段就是引入了真实接管数据,在其中尝试使用「人类反馈强化学习(RLHF)」。一般来说,人类司机的每一次接管,都是对自动驾驶策略的一次人为反馈;这个接管数据可以被简单当成一个负样本来使用,就是自动驾驶决策被纠正的一次记录。同时也可以被当作改进认知决策的正样本来学习。


想了解更多精彩内容,快来关注大凡光学