如何通过机器学习来进行数据建模

  “当前,信息化建设的第三波浪潮正扑面而来,信息化正在以数 据的深度挖掘和融合应用为主要特征的智能化阶段(信息化 3.0)。随着互 联网向物联网(含工业互联网)延伸而覆盖物理世界,“人机物”三元融 合的发展态势已然成型,除了人类在使用信息系统的过程中产生数据以 外,各种、智能设备也在源源不断地产生数据,并逐渐成为数据 最重要的来源。近年来,数据资源的不断丰富、计算能力的快速提升, 推动数据驱动的智能快速兴起。大量智能应用通过对数据的深度融合与 挖掘,帮助人们采用新的视角和新的手段,全方位、全视角展现事物的 演化历史和当前状态,掌握事物的全局态势和细微差别;归纳事物发展 的内在规律,预测预判事物的未来状态;分析各种备选方案可能产生的 结果,从而为决策提供最佳选项。当然,第三次浪潮还刚刚、方兴 未艾,大数据理论和技术还远未成熟,智能化应用发展还处于初级阶段。 然而,聚集和挖掘数据资源,开发和数据蕴含的巨大价值,已经成 为信息化新阶段的共识。——梅宏

  根据算法进行特征选择所用的搜索策略,可以把特征选择算法分为采用全局最优搜索策略、随机搜索策略和式搜索策略3类。

  评价函数的作用是评价产生过程所提供的特征子集的好坏。根据其工作原理,评价函数主要分为筛选器(filter)和封装器(wrapper)两大类。

  筛选器通过分析特征子集内部的特点来衡量其好坏。筛选器一般用作预处理,与分类器的选择无关,常用的度量方法有相关性、距离、信息增益、一致性等。

  运用相关性来度量特征子集的好坏是基于这样假设:好的特征子集所包含的特征应该是与分类的相关度较高,而特征之间相关度较低的;运用距离度量进行特征选择是基于这样的假设:好的特征子集应该使得属于同一类的样本距离尽可能小,属于不同类的样本之间的距离尽可能大;使用信息增益作为度量函数的动机在于:假设存在特征子集A和特征子集B,分类变量为C,若A的信息增益比B大,则认为选用特征子集A的分类结果比B好,因此倾向于选用特征子集A。一致性指的是:若样本1与样本2属于不同的分类,但在特征A和B上的取值完全一样,那么特征子集{A, B}不应该选作最终的特征集。

  筛选器由于与具体的分类算法无关,因此其在不同的分类算法之间的推广能力较强,而且计算量也较小。

  封装器实质上是一个分类器,封装器用选取的特征子集对样本集进行分类,分类的精度作为衡量特征子集好坏的标准。封装器由于在评价的过程中应用了具体的分类算法进行分类,因此其推广到其他分类算法的效果可能较差,而且计算量也较大。使用特定的分类器,用给定的特征子集对样本集进行分类,用分类的精度来衡量特征子集的好坏。

  数据建模是从大数据中找出知识的过程,常用的手段是机器学习和数据挖掘。所谓数据挖掘可以简单地理解为“数据挖掘 = 机器学习+数据库”。从商业层次来说,数据挖掘是企业按既定业务目标,对大量企业数据进行探索和分析,隐藏的、未知的或验证已知的规律性,并进一步将其模型化。从技术层次来说,数据挖掘是通过分析,从大量数据中寻找其规律的技术。

  在心理学理论中,学习是指(人或动物)依靠经验的获得而使行为持久变化的过程。在机器学习场景下,不同的学者有不同的理解和定义。比如西蒙(Simon)认为:如果一个系统能够通过执行某种过程而改进它的性能,这就是学习;明斯基(M. Minsky)认为:学习是在人们头脑中(心理内部)进行有用的变化;汤姆·米切尔(Tom M. Mitchell)认为:对于某类任务T和性能度P,如果一个计算机程序在T上以P衡量的性能随着经验E而完善,那么,我们称这个计算机程序从经验E中学习。根据不同的分类准则,机器学习又可以分为不同的类别,具体参见表4-2。

  事实上,具体到每一个机器学习方法,根据上述不同的分类准则,可能会归属到一个或多个类别中。

  在非监督学习(unsupervised learning)中,数据并不会被特别标识,学习模型是为了推断出数据的一些内在结构。非监督学习一般有两种思:

  (1)第一种思是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会被置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定,这类学习往往被称为强化学习。

  (2)第二种思称之为聚合(clustering),这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括关联规则挖掘、K-Means、EM等。

  顾名思义,关联规则挖掘就是从数据背后发现事物(务)之间可能存在的关联或者联系。比如数据挖掘领域著名的“啤酒-尿不湿”的故事(这个故事的不论)就是典型的关联规则挖掘发现的有趣现象。在关联规则挖掘场景下,一般用支持度和置信度两个阀值来度量关联规则的相关性(关联规则就是支持度和信任度分别满足用户给定阈值的规则)。所 谓 支 持 度(support), 指 的 是 同 时 包 含X、Y的 百 分 比, 即P(X, Y);所谓置信度(confidence)指的是包含X(条件)的事务中同时又包含Y(结果)的百分比,即条件概率P(YX),置信度表示了这条规则有多大程度上可信。

  关联规则挖掘的一般步骤是:首先进行频繁项集挖掘,即从数据中找出所有的高频项目组(frequent itemsets,满足最小支持度或置信度的集合,一般找满足最小支持度的集合);然后进行关联规则挖掘,即从这些高频项目组中产生关联规则(association rules,既满足最小支持度又满足最小置信度的规则)。

  引用一个经典用例解释上述的若干概念,使用的数据集如表4-3所示,该数据集可以认为是超市的购物小票,第一列表示购物流水ID,第二列表示每个流水同时购买的物品。

  计算示例1:计算“如果orange则coke的置信度”,即P(cokeorange),从上述的购物流水数据中可以发现,含有orange的交易有4个(分别是T1、T2、T3、T4),在这4个项目中仅有两条交易含有coke(T1、T4),因此

  计算示例2:计算在所有的流水交易中“既有orange又有coke的支持度”,即P(orange, coke),从上述的购物流水数据中可以发现,总计有5条交易记录(T1、T2、T3、T4、T5),既有orange又有coke的记录有两条(T1、T4),因此

  上述两个计算示例总结出的关联规则是:如果一个顾客购买了orange,则有50%的可能购买coke。而这样的情况(即买了orange会再买coke)会有40%的可能发生。

  K-Means中的“K”指的就是在数据集中找出的聚集(“簇”)的个数,在K-Means算法中,此“K”的大小需要事先设定,K-Means的算法流程如下:

  Step-4:循环Step-2到Step-3直到每个聚类不再发生变化()为止。

  (3)时间复杂度近于线性,适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是Q (N·K·T ),其中N代表数据集中对象的数量;T代表着算法迭代的次数;K代表着簇的数目;一般而言:K

  (1)在K-Means算法中,K是事先设定的,而K值的选定常难以估计的。很多时候,事先并不知道给定的数据集应该被分成多少个类别才最合适。

  (2)在K-Means算法中,初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择得不好,可能无法得到有效的聚类结果。

  (3)K-Means算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销常大的。

  监督学习(supervised learning)是指:利用一组已知明确标识或结果的样本调整分类器的参数,使其达到所要求性能的过程,也称为有教(导)师学习。所谓“监督”或者“有教(导)师”指的是监督学习必须依赖一个已经标记的训练数据(训练集)作为监督学习的输入(学习素材)。训练集是由若干个训练实例组成,每个实例都是一个属性集合(通常为向量,代表对象的特征)和一个明确的标识(可以是离散的,也可以是连续的)组成。监督学习的过程就是建立预测模型的学习过程,将预测结果与训练集的实际结果进行比较,不断地调整预测模型,直到模型的预测结果达到一个预期的准确率。

  根据训练集中的标识是连续的还是离散的,可以将监督学习分为两类:回归和分类。前者对应于训练集的标识是连续的情况,而后者适用于训练集的标识是离散的场景,离散的标识往往称为类标(label)。

  回归是研究一个随机变量Y或者一组随机变量Y ( y1, y2, …, yn )对一个属性变量X或者一组属性变量X (x1, x2, …, xn )的相依关系的统计分析方法,通常称X或者X (x1, x2, …, xn )为自变量,称Y或者Y ( y1, y2, …, yn )为因变量。当因变量和自变量的关系是线性时,则称为线性模型(这是最简单的一类数学模型)。当数学模型的函数形式是未知参数的线性函数时,称为线性回归模型;当函数形式是未知参数的非线性函数时,称为非线性回归模型。

  回归分析的一般过程是通过因变量和自变量建立回归模型,并根据训练集求解模型的各个参数,然后评价回归模型是否能很好地拟合测试集实例,如果能够很好地拟合,则可以根据自变量进行因变量的预测,回归分析的主要步骤是:

  线性回归模型假设自变量(也称输入特征)和因变量(也称目标值)满足线性关系。为了便于叙述,取自变量为X (x1, x2, …, xn ),因变量为Y,训练参数为W (w1, w2, …, wn )。

  其中Xi和Yi分别表示训练集中第i个样本的自变量和因变量,m表示训练集的个数,前面乘上系数(1/2)是为了求导的时候,使系数消失。

  具体的方法有梯度下降法、最小二乘法等,下面先以梯度下降法介绍求解思:对W取一个随机初始值,然后不断地迭代改变W的值使J减小,直到最终(取得一个W值使得J (W )最小)。W的迭代更新规则如下

  其中,ε称为学习率(Learning Rate),j表示W的迭代次数,将J (W )代入上式得到:

  此更新规则称为最小均方LMS(least mean squares,LMS)更新策略,也称为Widrow-Hoff learning rule,从此更新公式可以看到,W的每一次迭代都考察训练集的所有样本,这种更新策略称为批量梯度下降(batch gradient descent)。还有一种更新策略是随机梯度下降(stochastic gradient descent),其基本思是:每处理一个训练样本就更新一次W。相比较而言,由于batch gradient descent在每一步都考虑全部数据集,因而复杂度比较高;随机梯度下降会比较快地。在实际情况中两种梯度下降得到的最优解J (W )一般都会接近真实的最小值,所以对于较大的数据集,一般采用效率较高的随机梯度下降法。

  整个训练过程中各个参数变化如表4-4,为了便于阅读,将每次迭代W的变化罗列在表中,即表中的∆w1、∆w2、∆w3。

  为了表示方便,表4-4中的数值均保留两位小数,并且仅显示了5步迭代的计算过程(假定0.02是可以接受的误差),从表4-4可见,经过5步迭代后可得到回归模型函数是

  对于后者,如果有更多的学习样本,或许会有利于结果更加逼近训练集背后的模型,这或许也是大数据时代,为什么要更热衷于“大”的数据,因为,唯有以更“大”的数据作为支撑,才有可能发掘数据背后的那个知识或模型。

  刚才提及的更新策略是梯度下降法,需要多次迭代,相对比较费时而且不太直观。除了梯度下降法以外,还有最小二乘法更新策略。最小二乘法的计算思是基于矩阵论,将权值的计算从梯度下降法的迭代改为矩阵计算,经过推导可以知道

  限于篇幅原因,此处不做具体的推导。无论是梯度下降法还是最小二乘法,其在拟合的过程中都是基于X (x1, x2, …, xn )中“每一个属性的重要性(权重)是一样”的这样假设,而这在实际场景中未必适用(往往会产生过拟合或者欠拟合的现象),针对这种情况就产生了加权的线性回归的思,其本质是对各个元素进行规范化处理,对不同的输入特征赋予了不同的非负值权重,权重越大,对于代价函数的影响越大。

  其中,ϕi (.)是基函数,可选择的基函数有多项式、高斯函数、Sigmoid函数等,简单介绍如下。

  (i = 0, 1, …, n)是,当n = 1时,多项式函数为一次函数

  Logistic回归一般用于分类问题,而其本质是线性回归模型,只是在回归的连续值结果上加了一层函数映射,将特征线性求和,然后使用g (z)作映射,将连续值映射到一个区间内,然后在该区间内取定一个阈值作为分类边界。根据映射函数g (z)的不同选择,其分类性能也不同,比如如果映射函数是Sigmoid函数时,其分类结果为0和1两类,而如果映射函数是双曲正弦sinh函数时,其分类结果则为1和-1两类。

  以Sigmoid二值化(Sigmoid函数的特征是:当自变量趋于-∞,因变量趋近于0,而当自变量趋近于∞,因变量趋近于1)为例,为了便于后文的叙述,将Y (W, X )写作hW (X ),Logistic回归模型如下Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就是他们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinearmodel)。Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的Logistic回归。如果因变量是多分类的,则扩展为Softmax回归。Softmax回归模型是logistic模型在多分类问题上的推广,在Softmax回归中,类标签Y 可以取k (k>

  2)个不同的值,其推导思与Logistic回归相同,本文不再赘述。

  分类问题是机器学习研究中的一个重要问题,与回归问题类似,分类过程也是从训练集中建立因变量和自变量的映射过程。与回归问题不同的是,在分类问题中,因变量的取值是离散的,根据因变量的取值范围(个数)可将分类问题分为二分类问题(比如“”或者“”)、三分类问题(比如“支持”、“中立”或者“反对”)及多分类问题。在分类问题中,因变量称为类标(label),而自变量称为属性(或者特征)。

  根据分类采用的策略和思的不同,分类算法包括(不限于):基于示例的分类方法(代表算法是KNN)、基于概率模型的分类方法(代表算法是朴素贝叶斯、最大期望算法EM)、基于线性模型的分类方法(代表算法是SVM)、基于决策模型的分类方法(代表算法包括:C4.5、AdaBoost、随机森林)等,下面简单介绍上述各种典型的分类算法的问题背景和算法思。

  K最近邻(k-nearest neighbor,KNN)分类算法是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的出发点是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。KNN算是从训练集中找到和新数据最接近的k条记录,然后根据他们的主要类别来决定新数据的类别。该算法涉及3个主要因素:训练集、距离或相似的度量、k的大小,算法的执行步骤如下:

  KNN的思想很好理解,也容易实现。更重要的是:KNN算法不仅可以用于分类,还可以用于回归,具体思是:通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(如权值与距离成反比),使得回归更加普适。但KNN算法的不足之处在于:

  (1)每次分类都需要和训练集中所有的记录进行一次距离或相似度的计算,如果训练集很大,则计算负担很重。

  (2)从上述记录流程中可以看出,如果k个近邻的类别属性各异,则就给分类带来了麻烦(需要其他策略支持)。

  朴素贝叶斯分类是利用统计学中的贝叶斯来预测类的概率,即给定一个样本,计算该样本属于一个特定的类的概率,朴素贝叶斯分类基于的一个假设是:每个属性之间都是相互的,并且每个属性对分类问题产生的影响都是一样的。

  贝叶斯由英国数学家贝叶斯(Thomas Bayes)发现,用来描述两个条件概率之间的关系,比如P (AB)和P (BA),其中P (AB)表示事件B已经发生的前提下,事件A发生的概率,称为事件B发生下事件A的条件概率,其基本公式是

  例,一座别墅在过去的20年里一生过2次被盗,别墅的主人有一条狗,狗平均每周晚上叫3次,在盗贼入侵时狗叫的概率被估计为0.9,问题是:在狗叫的时候发生入侵的概率是多少?

  用贝叶斯的理论求解此问题,假设A事件为“狗在晚上叫”,B为“盗贼入侵”,则:

  (3) P (AB)=0.9。(计算根据:B 事件发生时 A 事件发生的概率是 0.9)

  基于上述数据,可以很容易地计算出A事件发生时B事件发生的概率P (B A)是

  朴素贝叶斯分类的出发点是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。为了便于描述,将事件A表示为特征属性X (x1, x2, …, xn ),将事件B表示类标属性Y (y1, y2, …, ym ),则朴素贝叶斯分类问题可以描述为:

  对于一个给定的测试样本的特征属性X (x1, x2, …, xn ),求其属于各个类标

  其中X表示特征属性(x1, x2, …, xn ),由于朴素贝叶斯是基于属性性的假设(前文已提及),故

  又由于P (X )是一个,因此只要比较的大小即可。朴素贝叶斯分类器的算法流程如下。

  为了更好地理解上述计算流程,以一个具体的实例说明。已知一个训练集如表4-5所示,特征属性有两个,分别是color和weight,其中,color的取值范围是{0, 1, 2, 3};weight的取值范围是{0, 1, 2, 3, 4}。类标属性有1个(sweet),取值范围是{yes, no}。

  通过上述的计算实例可以发现,事实上,是没有必要把P (xi yi)的所有可能均事先计算出来,而是根据测试用例的具体样本进行选择性的计算即可。理论上,朴素贝叶斯分类模型与其他分类方法相比具有最小的误差率,但其性假设在实际应用中往往是不成立的,这给朴素贝叶斯分类模型的正确分类带来了一定影响。针对这个缺点,也有一些改进的算法,此处不作罗列。

  文章出处:【微信号:rgznai100,微信号:AI科技大本营】欢迎添加关注!文章转载请注明出处。

  PolarFire SoC提供大量调试功能,包括指令、50个断点指令、可配置的被动运行时高级可扩....

  TensorFlow 不仅仅可以用于机器学习。在此教程中,我们所举的例子(较为寻常)是使用 Tens....

  技术现在允许我们捕获和存储大量的数据。在这些数据中发现模式、趋势和异常,并用简单的定量模型总结它们,....

  在典型的框架中,所有的内容需要用几十万行的C++代码来堆砌,而Flux仅仅是几千行简单的Julia代....

  随着信息化网络的发展,科技与信息正越来越深入的改变着人们的生活。以智慧城市建设为例,几乎每个国家都在....

  机器学习算法可帮助公司企业更快速检测恶意活动,并在开始前就予以。英国初创公司Darktrac....

  近日,亚马逊云计算服务公司(AWS)在美国拉斯维加斯召开的 re:Invent大会上,发布了十多个重....

  值得一提的是,该方案可以全面贯穿到学生在学校的所有活动场景之中,从学生入学使用人脸识别核验身份开始,....

  测速设备现在能提供比以往更多的功能,诸如车辆人员安全带检测、摩托车驾驶人员头盔检测等,它们通过机器学....

  大数据时代的到来,意味着海量数据的产生,给我们现有的数据存储技术带来了巨大的挑战。而随着时代的进步,大数据应用到越来...

  新兴的工业4.0技术的大部分并不是特别新的技术,多年界上最大制造商已经采用这些技术,但由于成本太....

  嵌入式系统可以通过网络连接和物联网(IoT)来传递信息、共享资源。无论是智能,低能耗,边缘设备,中间....

  对于贷前风险识别,我们整合了京东侧数据和外部数据,利用机器学习算法,给出了每个用户申请节点的信用评分....

  数据分析,包括大数据分析,在企业的业务中,特别是在传统的商务行业,已有多年的应用实践,在消费者市场的....

  本文作者:格创东智科技有限公司 OT团队人工智能是过去两到三年时间内科技行业最热的话题。而人工智能技....

  “基于阿里实践的互联网技术架构以及云计算、大数据的一些技术,来帮助企业实现中台的整个应用,从而达到企....

  一旦开始获取数据,非常重要的一点是及早查看数据,以便尽早找出可能存在的问题。例如,爬取程序可能漏掉了....

  近年来,城市公共交通安全事故频发,成为关注的焦点。公共交通安全关系到整个城市居民的生命安全,其重....

  .“区块链服务产业”,或者“通过区块链进行产业升级”的正确解读方式是:区块链是一项技术,将区块链技术....

  长沙市人民与腾讯签署合作协议。根据协议,双方本着优势互补、共同发展的原则,携手打造长沙城市超级大....

  据研究报告到2020年,将有超过200亿台互联网连接设备投入使用,这些设备每年将产生超过500个ze....

  但 Uber 的研究人员认为,这种方法忽略了人类探索好奇心的一个重要角度。“我们认为目前的”内在动机....

  对于机器学习来说,可视化是帮助我们理解算法和数据的有效手段。这一教程将概览目前的机器学习可视化方法,....

  一个worker对应一个物理的JVM(Java虚拟机)。通常,整个Topology会由一个或者多个w....

  对于有经验的程序员,或者已经在一定程度上掌握Ruby,Java或JavaScript的人来说,学习P....

  作者:(美国)·希利斯。《通灵芯片(计算机运作的简单原理)》深入浅出地阐述了计算机科学中许多基....

  神经电刺激设备可以通过电流脉冲治疗疾病,这种设备在医学界已经有很长的应用历史。例如,心脏起搏器、耳蜗....

  苹果今天宣布将于 12 月 2 日至 12 月 8 日在参加 2018 年神经网络信息....

  Seq2Seq-Vis 另一个很有用的功能是它能找出与某个字词相关的训练集,这也是解决 AI 黑盒问....

  “我认为,来自机器学习领域的代表性不足人群的研究人员应该要有机会参加这次会议,并向社会展示他们的研究....

  该方法适用于任何语言的任何NLP任务。来自世界各地的报告表明,该方法在德语、波兰语、北印度语、印度尼....

  即使是一点小气候变化,都会给自动驾驶系统带来很大的问题。尽管在过去几年时间里,许多自动驾驶初创公司都....

  能源结构低碳化、供需平衡调整及地缘风险莫测等因素正改变石油天然气行业竞争模式,影响企业战略重心。....

  时序数据是AIOps的基础数据,有着规模大、种类多、需求多样的特点。在自动化运维阶段,我们所采用的大....

  国家鼓励能源企业运用大数据技术对设备状态、电能负载等数据进行分析挖掘与预测,开展精准调度、故障判断和....

  阿里最新一次组织架构升级的消息了各大网站的新闻头条。阿里云事业群升级为阿里云智业群。阿里从做....

  近日,一则新闻出现在各大平台,代表中国商用飞机制造最高水平的中国商飞上海飞机制造有限公司(简称:....

  本周三,亚马逊发布了一款机器学习芯片,为了提升自身的盈利,亚马逊准备进军英伟达和英特尔所在的市场。一....

  继续分析我们之前提到的猫咪图片的案例:现在你负责运营一个移动端 app,用户会向这个app 上传许多不同内容的图片。而你希望这个...

  1 机器学习为什么需要策略? 机器学习(machine learning)已然成为无数重要应用的基石——如今,在网络搜索、垃圾邮件检测、语音...

  世界经济论坛最新公布的《未来就业报告》讨论了在未来五年人工智能、机器学习和大数据等技术发展会如何影响....

  “因为技术的突破和技术的发展,使得机器人进入2.0时代。”在曲道奎看来,眼下,机器人在技术上已经实现....

  基于行动学习的存量客户关键界面互联网化项目,最早于2016年底,由广东移动和百年基业联合启动,于20....

  从物联网国家标准角度来讲,8年以前,我们就开始推动技术的整个框架体系与整个行业的框架体系融合,在国家....

  在新的产业和社会发展的大背景下,业界5G可以作为社会数字经济和各行各业数字化的赋能者。然而,....

  但很多现存的方法却忽略了一个问题,从2D或者2.5D到3D形状的映射会涉及复杂但确定的几何投影过程,....

  11月29日,高通宣布设立总额高达1亿美元的Qualcomm创投人工智能(AI)风险投资基金,用于投....

  健康大数据领域,四年全行业投资近1600亿,但却没有产生独角兽企业,为何?10月11日,在2018小蛮腰科技大会上,中电健康基金管理...

  智慧一概念已经提出很多年,这是一种全新的能源形式,包括符合生态文明和可持续发展要求的相关能源技术和能源制度体能源这系。智...

  背景 一般大公司的机器学习团队,才会尝试构建大规模机器学习模型,如果去看百度、头条、阿里等分享,都有提到过这类模型。当...

  大数据经过多年的潜心发展,在当今可以说是进入到了一个快速发展期。各种围绕大数据的应用开发也迅速火热起来了。政务大数据解决...

  美国纽约大学医学院研究者报告的一种新的美国纽约大学医学院研究者报告的一种新的人工智能/机器学习程序可分析患者肺癌肿瘤影像...

  最近几年随着大数据技术快速发展与应用,智慧城市随即被正式提出。而且,我们也可以深刻感受到“智慧”正在慢慢改变我们的生活...