游戏海外买量随笔-05-AI真能GC吗？

Sora年初横空出世，让世人对AI的能力叹为观止，但是知道半年多过去了，Sora仍然没有对外公测，只是小范围的给专业人士内测，偶尔有些样片对外进行宣传，但是为啥不公测呢？目前各方面的数据，以及新闻来看，这一轮AI技术的爆发，短期内还是有明显的泡沫。因为有很多场景，AI并不能给我们带来很好的体验。比如，LLM的幻觉，以及SD/MJ图像生成的一致性问题。而这些问题，往往就是AI从业者需要克服的问题。不过，这也许是我们AI从业者至今还没失业的原因，正所谓塞翁失马，焉知非福。

笔者从去年4月以来，就开始尝试使用AI技术制作效果视频广告素材，以期望在视频广告素材制作上进行降本增效，这其实也是最近互联网大厂的主旋律。你以为的AI制作素材的场景：用户敲击一些命令，然后就自动的生成了这段视频。但是现实中的场景，这轮AI的主流技术：LLM和图像生成，在短视频素材制作这里解决了不到5%的问题，剩下95%的问题都是利用最近10年以来深度学习的技术，如多模态理解，深度伪造技术，深度强化学习（可选），单目动作捕捉，Blendshape嘴唇同步技术等。虽然我们是借着这股AI的东风开始制作广告素材，但是使用的主流技术却不是整天新闻报道里面的LLM/SD/MJ，确实有点尴尬。不过，白猫黑猫，捉到老鼠就是好猫。这股AI浪潮是天时，笔者所处的效果广告素材生产行业是地利，笔者所在的CV技术团队是人和，既然我们拥有了天时地利人和，那为啥不做呢？拿人钱财，替人消灾，我们使用了恰当的技术，解决了棘手的问题，为什么一定要蹭热度，去跟风呢？想到这里，我的内心又平静了，做人做事只要问心无愧，那就放手去干吧。目前我们做了一年，产能初具规模，线上效果令人映像深刻，但是仍然有很大的提升空间，希望我们能够有机会继续深耕此事，将其做到极致。将来回顾这块的工作时，我可以不留遗憾。

与此同时，进行了AIGC技术在UGC&PGC场景的落地和调研。主要研究了三个场景：

针对C端场景（AI-UGC）的图像生成线上运营活动。
针对B端场景（AI-PGC）的2D图像制作提效的实践。
针对B&C混合场景（AI UGC&PGC）的的mod地图制作调研。

第一个场景，米哈游早在去年3月份就上线了万物皆可三月七的线上互动，配合《崩坏：星穹铁道》游戏运营，反响不错。我们也调研了起解决方案，并在自己的一款游戏制作了头像风格化的同类活动，即用户上传头像，通过图像生成技术转成游戏特定风格的头像。所以，这类活动可行。主要以图像生成技术为主，同时配合多模态检索，分割，目标定位等技术进行辅助来落地实施。

第二个场景，主要是离线，针对B端用户。我们发现，基于SD/MJ进行2D图像内容的生产，然后人工进行细节修改，如原画局部精修或PS修图，的确可以节约很大部分的工作，这也是目前业内主流的工作方式。因为这类图像生成工具确实可以生产比较惊艳的2D内容，但是细节的一致性和逻辑性总是存在明显的问题，所以需要人工调整。此技术不但没有淘汰原画师，反而使得原画师的效率得到了大幅度的提升。

第三个场景是地图制作。以Roblox作为例子进行调研，作为2006年发布的成熟平台，目前日活超过5000万，具备一定说服力。它目前给用户提供的AI能力可以总结为两种：1）检索能力；2）生成能力。检索能力主要是通过其AI Assistant提供，作为一个Roblox Stuido内置的一个AI助手，可以根据你的提问生成制定代码，找到指定Assets，以及一些tips，可以理解为Roblox的Code pilot。 Roblox也提供一些生成能力的插件，比如生成地形，纹理，和3D assets等。地形和纹理相对简单，但是3D assets目前学术界得到的效果都一言难尽，作为一个商业公司应该也不会在这个地方有太多的投入，如果用户对assets要求不高，可能会使用，但是如果是一些高品质的地图，如《彩虹朋友》，大概率是不会使用这项不成熟的技术。更何况，即使有落地价值，平台的研发团队会更有可能抢先一步进行落地，毕竟近水楼台先得月嘛。

所以AI真能GC吗？仁者见仁，智者见智。