首页 >>新闻中心

人工智能与大数据开发的12个注意点 2018-04-11

1.    人工智能与大数据开发的12个注意点

人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点?

l  注意点1:你的数据未必可靠

在实际应用中,有很多各种各样的原因会导致你的数据是不可靠的。因此,当你将数据用于解决问题前,必须经常留心来检查数据是否值得信赖。如果基于糟糕的数据来挖掘,无论多么聪明的人也永远只会获得糟糕的结果。

l  注意点2:计算难以瞬间完成

完成任何一个人工智能解决方案的计算,都需要一定的时间,方案的响应速度,对商业应用的成功与否起到十分关键的作用。不能总是盲目假设任何算法在所有数据集上都一定能在规定时间内完成,你需要测试下算法的性能是否在可接受的应用范围内。

l  注意点3: 数据的规模非常重要

当我们考虑智能应用时,数据规模是很重要的因素。数据规模的影响可以分为两点来考察:第一点是规模会影响应用系统的响应速度,上一节我们刚提过;第二点是在很大的数据集上的挖掘出有价值结果的能力会受到考验。例如为100个用户开发的电影或音乐推荐系统可能效果很好,但是同样的算法移植到有着100000个用户的环境里,效果可能就不尽如人意了。

l  注意点4: 不同的算法具有不同的扩展能力

我们不能假设智能应用系统都可以通过简单增加服务器的方法来扩展性能。有些算法是有扩展性的,而另一些则不行。

l  注意点5:并不存在万能的方法

你可能听说过一句谚语“当你有了把榔头的时候,看什么东西都像钉子”,这里想表达的意思是:并不存在能够解决所有智能应用问题的万能算法。

l  注意点6:数据并不是万能的

根本上看,机器学习算法并不是魔法,它需要从训练数据开始,逐步延伸到未知数据中去。

l  注意点7:模型训练的时间差异很大

在特定应用中,可能某些参数的微小变化就会让模型的训练时间出现很大的差异。例如在深度神经网络训练时就会有各种各样的参数调节的情况发生。

l  注意点8:泛化能力是目标

机器学习实践中最普遍存在的一个误区是陷入处理细节中而忘了最初的目标——通过调查来获得处理问题的普适的方法。

l  注意点9:人类的直觉未必准确

在特征空间膨胀的时候,输入信息间形成的组合关系会快速增加,这让人很难像对中等数据集合那样能够对其中一部分数据进行抽样观察。更麻烦的是,特征数量增加时人类对数据的直觉会迅速降低。

l  注意点10:要考虑融入更多新特征

你很可能听说过谚语“进来的是垃圾,出去的也是垃圾”(garbage in, garbage out),在建立机器学习应用中这一点尤其重要。为了避免挖掘的效果失控,关键是要充分掌握问题所在的领域,通过调查数据来生成各种各样的特征,这样的做法会对提升分类的准确率和泛化能力有很大的帮助。仅靠把数据扔进分类器就想获得优秀结果的幻想是不可能实现的。

l  注意点11:要学习各种不同的模型

模型的组合(Ensemble)技术正变得越来越流行了,因为组合方法,仅需要付出少许偏见(bias)的代价,就能大大的减少算法的不确定性。在著名的Netflix算法竞赛中,冠军队以及成绩优异队伍们全都使用了组合模型方法,把超过100个模型合并在一起(在模型上叠加高层的模型形成组合)以提升效果。在人工智能用于实际应用时,从业者普遍都认为,未来的算法一定时会通过模型组合的方法来获得更好精度,但是这也会抬高非专业人员理解系统机制的门槛。

l  注意点12:相关关系不等同于因果关系

这一点值得反复强调,我们可以通过一句调侃的话来解释:“地球变暖、地震、龙卷风,以及其他自然灾害,都和18世纪以来全球海盗数量的减少有直接关系”。这两个变量的变化有相关性,但是并不能说存在因果关系,因为往往存在第三类(甚至第4、5类)未被观察到的变量在起作用。相关关系应该看作是潜在的因果关系的一定程度的体现,但需要进一步研究。