前言

今天看了机器之心的一篇回顾文章:告别2019:属于深度学习的十年,那些我们必须知道的经典,笔者很有感触。10年之前,只有少数学术研究人员在深度学习领域默默耕耘,公共大多只知道它是机器学习领域中的一个分支。但是,随着计算机算力的高速发展,以及一些基于深度学习的杀手级应用出现(如图像识别,机器翻译),使得深度学习又被推到了聚光灯下。深度学习的核心运行机制虽然没有改变,但是围绕其发展的上层技术近10年层出不同,并且取得相当不错的效果,下面笔者简单的回顾相关的学术成果。

2011年:ReLU

在此之前,主流激活函数是sigmod,但是随着网络层次加深会出现梯度消失的现象,该技术有效的解决了梯度消失问题,目前ReLU已经被广泛的应用到深度学习实践中。

2012年:AlexNet

AlexNet在ImageNet挑战赛上取得成功,该方法吊打上一届的冠军和同届亚军,可以说是开启了这波人工智能浪潮的起点。从此之后,各种层数更多,效果更好的网络不断出现,使得一些基于图像应用能够被广泛的应用。这几年基于内容的应用如此火热(新闻推荐类应用,各大垂直社区,直播,小视频等),与此技术有千丝万缕的联系。

2013年:Word2Vector

毫不夸张的说,Word2Vector技术是深度自然语言处理的基石,在此之后几乎所有的基于深度学习的自然语言处理技术均是使用Word Embedding作为输入,如语言模型,QA系统,机器翻译,自动摘要等等。更难能可贵的是,除了在NLP领域以外,该技术还广泛的应用于物品推荐领域,自动学习物品的特征,提升下游物品推荐的效果。

2014年:GAN

GAN的核心逻辑是通过两个机器学习互相博弈的架构,使得模型可以通过以往的数据,生成一些新的数据,并且可以使得生成的数据和以往的数据非常类似,达到以假乱真的效果。比如在游戏领域,可以用GAN自动生成逼真的树,动物,山川等等,减少人力成本。在内容生产领域,可以根据文章内容和素材,使用GAN自动生成插图。

2015年:ResNet

ResNet和AlexNet类似,也是视觉识别中的杀手级突破,该网络在视觉识别问题上第一次超越了人类。其核心思想是通过在网络中添加一条捷径,使得网络传递中有价值的信息得到保留,该设计与LSTM中的细胞状态$C$有异曲同工之妙,不知道ResNet的作者们当时是否有借鉴。

2016年:AlphaGo

AlphaGo是计算机第一次完胜人类职业9段棋手,其背后的深度强化学习技术也被推上了风口浪尖。自从2016年后,深度强化学习技术确实火了几年,但是近几年又有回归理性的趋势。

笔者认为强化学习的环境模拟是一大障碍。游戏或者围棋这些问题的环境相对好创建,游戏的环境是现成的,围棋有棋谱。但是广告,商品推荐,feed流推荐应用中是将用户作为环境,用户的行为很难准确模拟,如果环境不准,那么在此之上的Agent学习出来的策略就会因为环境误差不断累积而不准。

2017年:Transformer

自从2014年Seq2Seq问世以来,该方法在机器翻译领域就吊打所有以前的方法。在此之后基于Seq2Seq的大多数改进基本上都可以归结为换着花样使用Attention。但是Transformer在这方面做到了极值,它用Attention完全替代了原来的LSTM,结果是在机器翻译问题上完胜之前的Seq2Seq架构,并且所需要的训练时间更短。

2018年:BERT

BERT的作用与Word2Vector类似,是一个预训练技术,用于计算词向量。但是BERT训练出来的embedding在不同语境下可以表现出不同的意义,在11项NLP任务中都取得了state of the art的效果。该方法也应用了Transformer的思想,可以是说是集大成之作。

小结

简单总结上面的这些技术,除了ReLU是深度学习通用技术,其它的都集中在CV和NLP领域,而CV和NLP可以大量的应用于内容产业的多个环节,极大的提高生产效率,如内容创编,文章分发,低俗鉴别等等。最近几年内容行业的蓬勃发展,相关CV和NLP算法职位的年薪水涨船高,也间接的证明了这点。正应验了邓小平的那句话:“科学技术是第一生产力”。

今天是2020年的第一天,是下个10年的开始,笔者非常期待下个十年AI领域有更多技术的突破,并且能够应用到工业界的不同细分产业。这样无论是我们AI从业人员,还是相关领域都是双赢的局面。

以上仅为作者自己的观点,如果有异议,欢迎与笔者进行探讨。