Sora年初横空出世,让世人对AI的能力叹为观止,但是知道半年多过去了,Sora仍然没有对外公测,只是小范围的给专业人士内测,偶尔有些样片对外进行宣传,但是为啥不公测呢?目前各方面的数据,以及新闻来看,这一轮AI技术的爆发,短期内还是有明显的泡沫。因为有很多场景,AI并不能给我们带来很好的体验。比如,LLM的幻觉,以及SD/MJ图像生成的一致性问题。而这些问题,往往就是AI从业者需要克服的问题。不过,这也许是我们AI从业者至今还没失业的原因,正所谓塞翁失马,焉知非福。

笔者从去年4月以来,就开始尝试使用AI技术制作效果视频广告素材,以期望在视频广告素材制作上进行降本增效,这其实也是最近互联网大厂的主旋律。你以为的AI制作素材的场景:用户敲击一些命令,然后就自动的生成了这段视频。但是现实中的场景, 这轮AI的主流技术:LLM和图像生成,在短视频素材制作这里解决了不到5%的问题,剩下95%的问题都是利用最近10年以来深度学习的技术,如多模态理解,深度伪造技术,深度强化学习(可选),单目动作捕捉,Blendshape嘴唇同步技术等。虽然我们是借着这股AI的东风开始制作广告素材,但是使用的主流技术却不是整天新闻报道里面的LLM/SD/MJ,确实有点尴尬。不过,白猫黑猫,捉到老鼠就是好猫。这股AI浪潮是天时,笔者所处的效果广告素材生产行业是地利,笔者所在的CV技术团队是人和,既然我们拥有了天时地利人和,那为啥不做呢?拿人钱财,替人消灾,我们使用了恰当的技术,解决了棘手的问题,为什么一定要蹭热度,去跟风呢?想到这里,我的内心又平静了,做人做事只要问心无愧,那就放手去干吧。目前我们做了一年,产能初具规模,线上效果令人映像深刻,但是仍然有很大的提升空间,希望我们能够有机会继续深耕此事,将其做到极致。将来回顾这块的工作时,我可以不留遗憾。

与此同时,进行了AIGC技术在UGC&PGC场景的落地和调研。主要研究了三个场景:

  1. 针对C端场景(AI-UGC)的图像生成线上运营活动。
  2. 针对B端场景(AI-PGC)的2D图像制作提效的实践。
  3. 针对B&C混合场景(AI UGC&PGC)的的mod地图制作调研。

第一个场景,米哈游早在去年3月份就上线了万物皆可三月七的线上互动,配合《崩坏:星穹铁道》游戏运营,反响不错。我们也调研了起解决方案,并在自己的一款游戏制作了头像风格化的同类活动,即用户上传头像,通过图像生成技术转成游戏特定风格的头像。所以,这类活动可行。主要以图像生成技术为主,同时配合多模态检索,分割,目标定位等技术进行辅助来落地实施。

第二个场景,主要是离线,针对B端用户。我们发现,基于SD/MJ进行2D图像内容的生产,然后人工进行细节修改,如原画局部精修或PS修图,的确可以节约很大部分的工作,这也是目前业内主流的工作方式。因为这类图像生成工具确实可以生产比较惊艳的2D内容,但是细节的一致性和逻辑性总是存在明显的问题,所以需要人工调整。此技术不但没有淘汰原画师,反而使得原画师的效率得到了大幅度的提升。

第三个场景是地图制作。以Roblox作为例子进行调研,作为2006年发布的成熟平台,目前日活超过5000万,具备一定说服力。它目前给用户提供的AI能力可以总结为两种:1)检索能力;2)生成能力。检索能力主要是通过其AI Assistant提供,作为一个Roblox Stuido内置的一个AI助手,可以根据你的提问生成制定代码,找到指定Assets,以及一些tips,可以理解为Roblox的Code pilot。 Roblox也提供一些生成能力的插件,比如生成地形,纹理,和3D assets等。地形和纹理相对简单,但是3D assets目前学术界得到的效果都一言难尽,作为一个商业公司应该也不会在这个地方有太多的投入,如果用户对assets要求不高,可能会使用,但是如果是一些高品质的地图,如《彩虹朋友》,大概率是不会使用这项不成熟的技术。更何况,即使有落地价值, 平台的研发团队会更有可能抢先一步进行落地,毕竟近水楼台先得月嘛。

所以AI真能GC吗?仁者见仁,智者见智。