2018中国人工智能大会于2018年7月28,29日在深圳举行。感谢组织提供的机会,笔者有幸参加了这次会议,感觉收获满满。本博文简要记录笔者觉得很有帮助的内容,可以作为今后工作的参考。以下观点仅为笔者个人持有,与笔者所在团队和公司无关,特此声明!

会议概要

本次会议持续2天,日程安排非常满,具体安排可以参考官方日程安排。有些议题是并行展开,笔者觉得对工作有帮组的内容如下,

  • AI面临的挑战和迁移学习带来的机遇,嘉宾:杨强
  • 大规模数据分析及AI助力业务职能转型,嘉宾:戴金权
  • 基于海量文本数据的结构化知识抽取:DM,ML和NLP的融合技术,嘉宾:韩家炜,《数据挖掘:概率和技术》作者。
  • 深度深林初探,嘉宾:周志华,“机器学习西瓜书”作者。

其他议题,有些是由于笔者阅历和知识储备有限,理解不了,所以不作评价。有些是感觉广告嫌疑太多,而且极度不符合现实,所以也不想进行过多讨论。下面分别对上面四个分享作简要记录,以及个人的一些思考。

分享1:AI面临的挑战和迁移学习带来的机遇

数据隐私很重要,欧盟GDPR法案非常严格,如果以后中国也执行类似法案,我们的日常工作可能会遇到同样麻烦。所以,如何在保护隐私的情况下,仍然可以进行机器学习先关的算法研究和应用呢?杨强教授给出的方法是联邦迁移学习,这种思路希望建立起机器学习的企业生态,各个企业自有数据不出本地,模型效果不变,在不违规的情况下建立一个虚拟模型。杨强教授表示,利用联邦迁移学习加密技术,协同建模,学习模型过程不交换用户数,不侵犯隐私。

联邦迁移学习长远看来,非常值得借鉴。但是,短期内更加值得借鉴的是迁移学习本身,比如解决游戏道具推荐冷启动问题。游戏中同类型的游戏道具非常类似,比如MMO类游戏,道具作用无非就是角色强化,外观装饰,功能等,此方法应该有很大的应用空间。后面先阅读迁移学习的survey,然后结合业务场景作更深入的研究。

分享2:大规模数据分析及AI助力业务职能转型

Intel开源了基于Spark的深度学习库,BigDL以及Analytics Zoo。虽然分享中有广告的嫌疑,表示BigDL只有结合了Intel的CPU,才能发挥最大性能。不过不管怎样,基于Spark的深度学习框架是我们目前热切期盼的工具,是否可以无缝集成到现有工作流中,值得尝试。

分享3:基于海量文本数据的结构化知识抽取:DM,ML和NLP的融合技术

虽然深度学习在NLP中春风得意,但是其实传统ML技术仍然可以解决很多NLP问题,数据挖掘鼻祖韩教授在分享了怎么用传统机器学习,数据挖掘以及NLP技术在文本中挖掘知识,以及应用效果。主要涉及的内容有,

  • 挖掘文本结构,包括文本Cube和文本网络;
  • 挖掘短语Phrase;
  • 挖掘实体关系,笔者认为有点类似知识图谱。

笔者有幸与业界泰斗韩老师共进午餐,韩老师非常健谈,知识渊博,颇受启发。最后得到了韩老师亲笔签名的教材,业余时间一定要抽空拜读韩老师的大作 。

分享4:深度森林初探

周志华老师与其所在团队于2017年发表文章Deep Forest:Towards an Alternative to Deep Neural Networks。至此,深度学习家庭中出现了另外一位成员。截止到其出现之前,深度神经网络一直是深度学习的代名词,而深度神经网络的核心元素可总结为

  • 逐层加工
  • 数据内部变化,
  • 复杂度足够高

深度神经网络虽然在部分NLP问题,以及图像识别问题上是杀手级应用,但是仍存在缺陷,

  • 激活函数必须可以微,必须使用BP及其变种算法求解;
  • 复杂度在网络架构固定后,不可改变,导致过高的复杂度在简单问题下存在浪费;
  • 核心计算非常依赖硬件GPU。

周老师认为,深度学习不应该受限于深度神经网络这些局限,而深度森林正是摆脱这种束缚的一种尝试。不过,周老师最后也提醒大家,深度森林目前还在研究早期,当年深度神经网络从提出到杀手级应用也经过了大概20年的时间,所以短期内不太可能有很明显的效果。

最后分享一个八卦。在提问环节,有个同学怒怼周老师,质疑深度森林的价值,提问:“深度森林的paper目前有被顶级会议收入吗?”。周老师冷静作答:“一项技术的重要性,不应该用是否被顶级会议收入作为衡量指标。时间会证明其价值。”答毕,全场掌声雷动。

写在最后

作为数据挖掘从业人员,笔者第一次参加这类学术会议,眼界得到了开阔。后面需要在工作中,有意识的借鉴和应用这次会议学到的内容,作为参加这次会议的回报。