• 2020-11-02 12:05:06
  • 阅读(8981)
  • 评论(3)
  • 深度学习昆山到重庆物流价格、机器学习、人工智能——这些盛行词皆代表了剖析学的未来。在这篇文章中,咱们将经过一些实在国际的事例来解说什么是机器学习和深度学习。在今后的文章中,咱们将探究笔直用例。这样做的意图不是要把你变成一个数据科学家,而是让你更好地了解你能够用机器学习做什么。开发人员能越来越容易地运用机器学习,数据科学家经常与领域专家、架构师、开发人员和数据工程师一同作业,因而,具体了解机器学习的或许性对每个人来说都很重要。你的事务发生的每一条信息都有添加价值的潜力。这篇和今后的文章旨在激起你对自己数据的回忆,以发现新的时机。  

    纵观人工智能的前史,其界说被不断重写。人工智能是一个概括性术语(这个概念始于50年代);机器学习是AI的子集,而深度学习又是机器学习的子集。  

    1985年,当我仍是美国国家安全局的实习生时,人工智能也是一个十分抢手的论题。在美国国家安全局,我乃至上了一节麻省理工关于人工智能专家系统的视频课程。专家系统在规矩引擎中捕获专家的常识。规矩引擎在金融和医疗保健等工作中有广泛的运用,最近更是用于事情处理,可是当数据发生改变时,规矩的更新和保护会变得反常困难。机器学习的优势在于从数据中学习,而且能够供给数据驱动的概率猜测。  

    在曩昔10年里,剖析学发生了怎样的改变?

    依据《哈佛商业谈论》的托马斯•达文波特,剖析技能曩昔十年里发生了天翻地覆的改变,跨商用服务器功用更强壮、本钱更低的分布式核算,流媒体剖析、改善的机器学习技能,都使企业能够存储和剖析更多的、不同类型的数据。  

    类似Apache Spark这样的技能运用迭代算法,经过在内存中跨迭代缓存数据并运用更轻量级的线程,进一步加快了分布式数据的并行处理。  

    图形处理单元(GPUs)加快了多核服务器的并行处理速度。GPU具有一个由数千个更小、更高效的中心组成的大规模并行架构,这些中心专门规划用于一同处理多任务,而CPU由几个为次序串行处理而优化的中心组成。就潜在的功能而言,从Cray -1进化到现在具有很多GPU的集群,其功能进步大约是从前国际上最快核算机的100万倍,而本钱却只有其极小一部分。  

    机器学习运用算法在数据中发现形式,然后运用一个能辨认这些形式的模型对新的数据进行猜测。 

    一般来说,机器学习能够分为三种类型:监督型、非监督型、介于两者之间。监督学习算法运用符号数据,而非监督学习算法在未符号数据中发现形式。半监督学习运用符号数据和未符号数据的混合。强化学习练习算法在反应的基础上最大化奖赏。 

    监督算法运用符号数据,这些数据的输入和方针的成果或标签都会供给给算法。  

    监督学习也被称为猜测建模或猜测剖析,因为你建立了一个能够做出猜测的模型。猜测建模的一些比方是分类和回归。分类依据已知项的已符号示例(例如,已知是否为诈骗的买卖)来辨认一个项归于哪个类别(例如,某买卖是否为诈骗)。逻辑回归猜测了一个概率——例如,诈骗的概率。线性回归猜测一个数值——例如,诈骗的数量。

    一些分类的比方包含:

    信誉卡诈骗检测(诈骗,不是诈骗)。   信誉卡请求(杰出信誉,不良信誉)。   垃圾邮件检测(垃圾邮件,不是垃圾邮件)。   文字心情剖析(高兴,不高兴)。   猜测患者危险(高危险患者、低危险患者)。   恶性或非恶性肿瘤的分类。  

    逻辑回归(或其他算法)的一些比方包含:

    依据前史汽车保险诈骗性索赔以及这些索赔的特征,例如索赔人的年纪、索赔金额、事端严峻程度等,猜测诈骗发生的概率。 给定患者特征,猜测充血性心力衰竭的概率。  

    So线性回归的一些比方包含: 

    依据前史汽车保险诈骗性索赔以及这些索赔的特征,如索赔人的年纪、索赔金额、事端的严峻程度等,猜测诈骗金额。 依据前史房地产销售价格和房子特征(如平方英尺,卧室数量,方位),猜测房子的价格。   依据前史上的社区违法计算,猜测违法率。

    这儿还有其他的监督和非监督学习算法,咱们不会逐个介绍,但咱们会具体介绍每类中的一个。 

    分类示例 :借记卡诈骗  

    分类选用一组具有已知标签和预先确定特性的数据,并学习怎么依据这些信息符号新数据。特性是你问的"是否"问题。标签便是这些问题的答案。 

    让咱们看一个借记卡诈骗的示例。  

    咱们想要猜测什么?  

    某一笔借记卡买卖是否为诈骗。 诈骗是标签(对或错)。 

    你能够用来进行猜测的" 是否 "问题或特点是什么?  

    今日花费的金额是否大于前史均匀水平?   今日的这些买卖是否在多个国家?   今日的买卖数量是否大于前史均匀水平?   今日的新商户类型与曩昔三个月比较是否较高?   今日是否在多个带有危险类别代码的商家处购买?   今日是否有不寻常的签名与以往运用PIN比较? 与曩昔三个月比较,是否有新的购买行为?   与曩昔三个月比较,现在是否有国外购买?  

    要构建分类器模型,你需求提取对分类最有奉献的有用特性。 

    决议计划树创立一个依据输入特征猜测类或标签的模型。它的作业原理在于评价每个节点昆山到成都物流价格上包含一个特征的问题,然后依据答案挑选到下一个节点的分支。猜测借记卡诈骗的或许决议计划树如下所示。特性问题是节点,答案"是"或"否"是树中到子节点的分支。(留意,真实的树会有更多的节点。) 

    问题一:24小时内的花费是否大于均匀?  

    问题2:今日是否有多笔买卖来自高危险的商家?  

    决议计划树很受欢迎,因为它们易于可视化和解说。将算法与集成办法相结合,能够进步模型的精度。一个集成比方是一个随机森林算法,它结合了决议计划树的多个随机子集。  

    无监督学习,有时也被称为描绘剖析,没有预先供给的符号数据。这些算法发现输入数据中的类似性或规则。无监督学习的一个比方是依据购买数据对类似的客户进行分组。  

    在聚类中,一个算法经过剖析输入实例之间的类似性将它们分类。一些聚类用例包含:  

    查找成果分组。   分组类似客户。   分组类似患者。   文本分类。   网络安全反常检测(发现不类似之处,集群中的反常值)。  

    K均值算法将数据分组到K个集群中,每个数据都归于离其集群中心均值最近的集群。  

    聚类的一个比方是,一个公司期望细分其客户,以便更好地定制产品和服务。客户能够依据比方人口计算和购买前史记录等特征被分组。为了得到更有价值的成果,无监督学习的聚类常常与有监督学习相结合。例如,在这个banking customer 360用例中,首要依据问卷答案对客户进行细分。接着对客户集体进行剖析,并标上用户画像。然后,这些标签经过客户ID与账户类型和购买内容等特性进行链接。最终,咱们在被标签的客户身上运用了监督机器学习,答应将查询用户画像与他们的银行行为联系起来,以供给深化的见地。  

    深度学习用来称号多层神经网络,它是由输入和输出之间的节点"隐含层"组成的网络。神经网络有许多变种,你能够在这个神经网络备忘单上了解更多。改善的算法、GPUs和大规模并行处理(MPP)使得具有数千层的神经网络成为或许。每个节点承受输入数据和一个权重,然后向下一层的节点输出一个相信值,直到抵达输出层,核算出该相信值的差错。经过在一个叫做梯度下降的进程中进行反向传达,差错会再次经过网络发送回来,并调整权值来改善模型。这个进程重复了数千次,依据发生的差错调整模型的权值,直到差错不无法再削减停止。  

    在此进程中,各层学习模型的最优特征,其长处是特征不需求预先确定。但是,这也意味着一个缺陷,即模型的决议计划是不行解说的。因为解说决议计划或许很重要,研究人员正在开发新的办法来了解深度学习这个黑盒子。  

    AI研习社是AI学术青年和AI开发者技能沟通的在线社区。咱们与高校、学术组织和产业界协作,经过供给学习、实战和求职服务,为AI学术青年和开发者的沟通合作和工作开展打造一站式渠道,努力成为我国最大的科技立异人才聚集地。

    假如,你也是位酷爱共享的AI爱好者。欢迎与译站一同,学习新知,共享生长。

    来源:版权归属原作者,部分文章推送时未能及时与原作者取得联系,若来源标注错误或侵犯到您的权益烦请告知,我们会及时删除。联系QQ:110-242-789

    14  收藏