World Model-深挖梦境的Dreamer
自从22年LLM(chatgpt)和图像生成(mid-journey,stable diffusion)技术的突破,AIGC技术得到了大规模的普及,使得内容创作门槛进一步降低,每次一些新的模型出现,一些自媒体为了恰饭总是尬吹,“xxx出现,传统内容要被颠覆,balabala”这类口播内容。今天,刚好看到了一个博主(脆芽real,视频号),深度评测了23个图像生成类应用,并且结合20+维度进行了打分,整个过程严谨且体系化,值得参考,有兴趣的读者可以去搜索看看。
结合笔者自己的观察,以及最近2~3年来使用AIGC技术的实战经验来看,技术的进步的确提升了生产力。Q/A问答场景中,LLM可以轻松寻找到特定问答对,并且润色成高质量答案。机器翻译场景中,LLM自带翻译能力,基于特定场景的翻译,只需要Prompt/RAG/SFT三板斧,就可以相对低成本的拿到比传统机器翻译更好的结果。AI生图场景,一个2D原画师利用AI辅助的产能相当于原来5个2D原画师。
这里值得指出的是,人的能力直接决定了AI产出的效率和质量。以2D原画举例,受过训练的2D原画师给出的prompt以及草图,会更加关注构图,透视,光影效果等,这样AI生成出来的图会更加符合预期;与此同时,2D原画师可以基于AI生成的结果进行二次精修,这样就可以极大的减少抽卡的次数。一般情况下,即使有AI加持,没有受过专业美术训练的人产出的图片质量和效率很难超越专业人士。目前来看,AIGC的出现不会取代人,而是会提升工作效率,就好比当年汽车出现取代马车一样。
回到世界模型,时间来到2020年,一篇名为Dreamer的论文继承了PlaNet的核心思想,但是在训练和推理效率上得到质的提升。该论文的主要思想是智能体完全(purely) 在已学习的世界模型的紧凑潜在空间(latent space)中,通过“想象”(imagination) 来学习和优化其行为策略。提出了一种新颖的演员-评论家算法。该算法通过在想象的轨迹上反向传播价值估计的解析梯度来更新策略。与此前基于模型的方法(如PlaNet的在线规划)或无模型的演员-评论家算法(如DDPG、SAC)相比,Dreamer实现了:
- 超越想象视距:通过额外学习一个状态价值模型,来估计超出有限想象视距之外的长期回报,解决了单纯优化有限步长奖励可能导致的“短视”行为。
- 梯度效率:利用世界模型的解析梯度,能够高效地计算多步回报对策略参数的梯度,相比基于采样的强化学习梯度(如REINFORCE)或仅利用一步Q值梯度的算法(如DDPG),学习更稳定、更高效。
上面的描述比较晦涩难懂,说人话就是Dreamer直接使用PlaNet中世界模型架构RSSM(梦境),在这个“梦境”里面收集大量的数据并且训练一个深度神经的决策网络,这样在推理的过程就可以直接进行正向推导,效率非常高。而PlaNet每次推理时,都是在线规划,需要基于当前情况思考很多步骤,所以效率相对较慢。可以用一个比喻来理解World Model,PlaNet和Dreamer三者的关系:
-
World Models (2018) 提出了“造梦机”(世界模型)的概念。
- PlaNet (2019) 造出了一台性能强大的、标准的造梦机(RSSM),并展示了用它来实时解梦(在线规划) 可以解决难题。
- Dreamer (2020) 没有改进这台造梦机,而是做了一件完全不同的事:它拿着PlaNet造好的这台标准造梦机,在里面做了成千上万次梦,并从中总结出了一套“做梦秘籍”(训练出了一个通用的策略神经网络)。以后遇到任何情况,直接按“秘籍”行事即可,无需再每次现场解梦。
所以,Dreamer是模型利用方法上的革命性创新,而非模型构建方法上的创新。它完美地展示了如何将已有的强大模型组件,转化为一个端到端的高性能智能体。
您的打赏是对我最大的鼓励!
支付宝打赏
微信打赏