俗话说的好,“流氓不可怕,就怕流氓有文化”。在脑力劳动密集的“大厂”,或其它高科技行业来说,一个品行不好的同学,时间长了,一定会影响周边共事的同学。鹅厂就非常重视人品,其价值观是“正直,进取,协作,创造”,将“正直”放在了首位,可见其重视程度。鹅厂的内审团队也很严格,这些同学基本在刑侦行业有过从业经验。每个季度的阳光通报里,就有很多因为虚假报销,职务之便牟利,商业贪污受贿等案例案例。团队成员如果出现不正直的苗头,一定要格外关注,如果一而再再而三的反复出现,那就需要非常重视了。

今天想聊的是2023年出来的论文Diamond,这篇论文将关注点重新从隐空间转移到像素空间。整个Dreamer系列都是在隐空间,上一次用像素空间做“梦”的还是PlaNet。这样做的动机是低维潜在空间中学习和预测虽然高效,但难以建模对控制至关重要的视觉细节(例如,Atari游戏中子弹的精确位置、小精灵的微小像素等),且模型内部过程不直观,像一个“黑箱”。构建一个直接在图像空间运行的世界模型,以提升对视觉细节的建模能力,并因其生成的可视化轨迹而获得更好的可解释性。同时,保持模型的高效和稳定,以训练出性能强大的智能体。

选择Diffusion作为视觉生成模块也是得益于最近几年视觉扩散模型的发展。Diamond也尝试过其他视觉生成模型,如GAN ,但 其存在模式崩溃、训练不稳定的问题,且难以精确地条件化于长序列的历史观察和动作,这对于需要稳定、可控地想象未来的世界模型来说是关键挑战。也尝试过VAE,其重建图像通常模糊,细节损失是其固有缺陷,而DIAMOND的核心论点正是视觉细节对决策非常重要。Diffusion能生成更高质量、细节更清晰的图像;易于条件控制,可以稳定地基于长历史帧和动作生成下一帧;能灵活建模复杂的多模态分布,这对于具有随机性或部分可观测性的环境(如游戏Boxing中对手的不可预测移动)至关重要。所以,最终选择了Diffusion来生成梦境。

Diamond的成功也说明了一个道理,好的方案是需要时机的,如果扩展模型技术没有发展这么成熟,Diamond的效果也不会这么惊艳。做任何事情都讲究天时地利人和,缺一不可。那么,现在这股AI的浪潮,是否真的可以孕育出AGI,还是只是像互联网一样,给信息技术带来了新的基础设置。前者很性感,受到资本追捧,后者也很重要,而且会越来越重要,但是无法给高估值买单。就让时间来给我们答案吧,我的答案是:LLM不会给我们带来AGI。