首页 >>新闻中心

2019最值得关注的8大技术,它们正在引领产业变革 2019-03-11

如今,全球范围内新一轮科技革命与产业革命正在萌发,创新驱动经济发展成为共识,人工智能、5G、物联网等技术因其广阔的应用前景和经济意义,而被多国明确列为重点突破方向。于企业而言,时代发展大幅提速,让一批新贵短时间内即可乘风而上,也让一批百年巨头瞬间跌落谷底。如何将有限的财力物力,押注在未来可期的方向、抵御破坏性创新冲击成为头号难题。因而,从无数涌现的技术中辨认各自的应用前景、进展程度、趋势预测以及潜在风险,审慎投资并选择进入,显然也成为战略决策和投资部门的主要需求。

据此,亿欧智库发布《2019年技术趋势报告》,遴选出八项正在或即将在产业引发重要改变的八项技术,包括量子计算、边缘计算、柔性显示、自然语言处理、5G通信、免疫治疗、区块链和沉浸式技术,具体如下:

image.png

在各项技术领域,已经有一批巨头和独角兽未雨绸缪并暂时居于引领地位。我们在每一领域择取了目前进展较快的7家企业,供读者在关注跟踪技术动态的过程中进行参考。

image.png

1.    细说Greenplum时空数据分析

如何发挥物联网数据价值

首先,Pivotal把数据产品线定义为人类的大脑,我们从海量的原生数据中,提取我们真正感兴趣,并且有潜在价值的那些,把它们存储到Greenplum这个分布式数据库中。这就很像我们大脑中的记忆区,人脑不会记忆外界所有的信息数据,因为没有这个必要,而且浪费资源,我们只会记忆那些我们关注的,有意义的信息。这些信息可以转化为知识或者成为无法割舍的回忆。同理,Greenplum最擅长处理的是关系型数据,这些数据有着更多的内在关联和潜在规律,可以发掘提取价值。

image.png


其次,和人脑相同,Pivotal提供GPText产品,它类似于人脑中的语言区,可以帮助我们实现文本检索、语义分析、情感分析等场景。而PostGIS类似于人脑中的空间识别区,可以帮助我们处理空间与地理的信息。在这些之上,我们还构建了思维区,通过Madlib、Pivotal R、Python,在库内借助GP的大规模分布式处理引擎,我们可以针对全量的数据进行深度学习、神经网络等相关的数据科学的工作。

时序数据的处理

通过时间序列分析,从中发现事物的变化规律;或从动态的角度描述某一现象和其它现象之间的内在关系及其变化规律,从而尽可能多地从中提取出所需要的准确信息,并将这些知识和信息用于预测,从而提前做好准备,或者通过干预影响未来的发展趋势。

时间序列分析的主要目的就是为了达到以下四种用途:

l  系统描述:根据对系统的观测得到的时间数据,用曲线弥合方法对系统进行客观描述。

l  系统分析:当观测值取自两个变量以上的时候,可以研究在一个变量变化时对另一变量产生影响以及作用的机理。

l  预测未来:通过弥合时间序列,预测该时间序列的未来值。

l  决策控制:通过调整输入的变量,使系统发展过程保持在一个目标值之上。

时间序列的变化受到诸多因素的影响,有长期性或决定性因素,其中呈现某种趋势或规律性;有些则是短期因素,起非决定性作用,使其呈现出不规则运动。分析时间序列变动规律时,我们不会一一对照,因此会对这些因素进行归类整理。以下是四种归类情况:

l  趋势性:趋势性就是指时间推移朝着一个方向逐渐上升、下降或平滑移动的过程,这个变化是长期因素所导致的结果。

l  周期性:是指时间序列会表现为循环于趋势线上方或者下方一些点的序列,并持续一段时间有规则的变动,这种因素是具有周期性的。

l  季节性变化:时间序列数据会按照季节性呈现一定的波动变化。

l  不规则变化:因为偶然因素以及不可控的随机变动,产生的在经济周期、趋势性和周期性之外的一些变化,就是不规则变化。

时间序列处理模型——ARIMA

 

为什么ARIMA模型是我们为大家介绍的第一个模型?因为它很简单——只需要去判断内生变量,而不需要借助其他外在变量,因此不需要做数据关联性分析。但它的缺点也很明显,只能去预测稳定性的数据或有规律的数据,或者通过差分化后,能够稳定下来的数据。另外一点是他只能预测线性数据,而不能捕捉非线性数据。所以股票数据就不建议大家用ARIMA模型分析,股票数据会强烈受政策或小概率事件影响,波动性非常大,因此ARIMA模型在这个场景中不适用。

ARIMA模型的全称叫做自回归移动平均模型,全称是(ARIMA,Autoregressive Integrated Moving Average Model)。也记作ARIMA(p,d,q),是统计模型(statisticmodel)中最常见的一种用来进行时间序列 预测的模型。

空间数据的处理

空间数据就是一组描述物体在空间位置上的一些坐标,或者是物体在三维空间里、二维平面中所呈现的一种状态,我们将这些信息用特殊的表示方式存储在指定的存储单元里,就是空间数据。空间数据包括像点线面、多边形、周长、面积、交叉、距离、经纬度等非常常见的数据,还有栅格数据,就是我们地图里经常会用到的数据。

我们都知道地球是弧形的,在大尺度下计算两个地点间的距离不能直接把经纬度信息进行差值计算得到结果。数字6378137是地球的半径,我们需要通过地球的半径计算出两点之间的弧线长度。

如果不采用GIS函数,我们需要套用一个非常复杂的算法,但如果用了GIS函数后,处理方式会非常简单。在这个案例中,原本客户的数据量有几十亿,当进行关联处理的时候,这个函数需要跑一个多小时,改造成GIS存储后,直接调用GIS函数计算,只需要不到十分钟,就可以得到想要的结果了。下面的函数则更加简单,通过两张表的关联,去判断一个人是否在某个基站的覆盖范围内。其中一张表也是有几十亿的数据规模,所以这函数执行也会花一个小时以上。同样,在GIS函数改造之后,整个执行校率大幅提升,几分钟就完成了。