菜单图标

Machine Learning

机器学习专注于从经验中学到的应用程序,并随着时间的推移提高他们的决策或预测准确性。

什么是机器学习?

机器学习是一个分支 人工智能(AI) 专注于建立从数据学习的应用程序,并随着时间的推移提高他们的准确性,而不被编程为这样做。 

在数据科学中,算法是统计处理步骤的序列。在机器学习中,算法是“训练”,以找到大量数据中的模式和特征,以便根据新数据进行决策和预测。算法越好,决策和预测越准确将变得更加流程。

今天,机器学习的例子都在我们身边。数字助理在Web和播放音乐中搜索响应我们的语音命令。网站推荐产品和电影和歌曲,根据我们购买,观看或以前听取的东西。机器人在我们做的时候真空吸尘。 。 。我们的时间更好。垃圾邮件探测器阻止了不需要的电子邮件到达了我们的收件箱。医学图像分析系统帮助医生斑点肿瘤,他们可能错过了。第一个自驾车正在击中道路。

我们可以期待更多。随着大数据不断变大,随着计算变得更加强大且价格合理,随着数据科学家们不断发展更能力的算法,机器学习将推动我们个人和工作生活中的更大效率。 

机器学习如何运作

构建机器学习应用程序(或型号)有四个基本步骤。这些通常由数据科学家与与谁开发的商业专业人员密切合作进行。

第1步:选择并准备培训数据集

培训数据是一个数据集代表的数据,机器学习模型将摄取解决问题,以解决它设计的问题。在某些情况下,培训数据是 标记数据-Tagged'以调用功能和分类,模型需要识别。其他数据是 未标记,并且该模型需要提取这些功能并自行分配分类。

在任何一种情况下,培训数据都需要正确准备 - 随机,去欺骗,并检查可能影响培训的不平衡或偏差。它也应该分为两个子集: 训练子集,将用于培训申请,以及 评估子集,用于测试和改进它。

第2步:选择要在培训数据集上运行的算法

同样,算法是一组统计处理步骤。算法类型取决于培训数据集中的类型(标记或未标记)和数据量,以及要解决的问题类型。

用于使用的机器学习算法的常用类型 标记数据 包括以下这些:

  • 回归算法: 线性和逻辑回归是用于理解数据中关系的回归算法的示例。线性回归用于基于独立变量的值来预测从属变量的值。当从属变量是自然界的二进制文件时可以使用逻辑回归:A或B.例如,可以培训线性回归算法,以预测销售人员的年度销售(受抚养变量)的年度销售基于与销售人员的教育或多年的关系经验(独立变量。)当从属变量更难以进行分类时,另一种类型的回归算法是有用的。
  • 决策树: 决策树 使用分类数据根据一组决策规则制定建议。例如,建议在特定马上投注以获胜,地点或显示的决策树可以利用关于马的数据(例如,年龄,赢得百分比,习惯)并将规则应用于这些因素以推荐行动或决定。
  • 基于实例的算法: 基于实例的算法的一个很好的例子是K-最接近邻居或k-Nn。它使用分类来估计数据点是一个或另一个基于其与其他数据点的邻近的成员。

用于使用的算法 未标记的数据 包括以下这些:

  • 聚类算法: 将群集视为群体。群集侧重于识别类似记录的组并根据他们所属的组标记记录。这是在没有关于群体及其特征的事先知识的情况下完成的。聚类算法类型包括K-Means,TwoStep和Kohonen聚类。
  • 协会算法: 关联算法发现数据中的模式和关系,并识别频繁的'if-then'的关系 协会规则。这些类似于数据挖掘中使用的规则。
  • 神经网络: A 神经网络 是一种定义具有输入层的分层计算的分层网络的算法,其中数据被摄取;至少一个隐藏的层,在执行计算的情况下,对输入进行不同的结论;和输出层。每个结论被分配概率的地方。深神经网络定义具有多个隐藏层的网络,每个网络连续地改进前一层的结果。 (有关更多,请参阅下面的“深度学习”部分。)

第3步:培训算法创建模型

训练该算法是迭代过程 - 它涉及通过算法运行变量,将输出与结果进行比较它应该在算法中产生,调整权重和偏差,这些算法可能会产生更准确的结果,并再次运行变量直到算法大部分时间都返回正确的结果。由此产生的训练,准确的算法是机器学习模型 - 要注意的重要区别,因为“算法”和“型号”是不正确的,即使通过机器学习Mavens也可以互换使用。

第4步:使用和改进模型 

最后一步是使用具有新数据的模型,并且在最佳情况下,它可以随时间提高准确性和有效性。新数据来自的地方将取决于解决的问题。例如,旨在识别垃圾邮件的机器学习模型将摄取电子邮件,而驱动机器人吸尘器的机器学习模型将摄取由具有移动家具或房间内的新物体的现实世界互动产生的数据。

机器学习方法

机器学习方法(也称为机器学习方式)分为三个主要类别。

监督机器学习            

监督机器学习在标记的数据集中列车。也就是说,数据被标记为使用机器学习模型正在建立以确定并且甚至可能以模型来分类数据来分类数据的信息。例如,旨在识别纯种德国牧羊犬的计算机视觉模型可能会在各种标记的狗图像的数据集上培训。

监督机器学习需要较少的培训数据,而不是其他机器学习方法,并使培训更容易,因为模型的结果可以与实际标记的结果进行比较。但是,正确标记的数据准备昂贵,并且存在过度装备的危险,或者创建如此紧密相关的模型并偏向于训练数据,即它不能准确地处理新数据的变化。

了解有关监督学习的更多信息。   

无监督的机器学习

无监督的机器学习摄取未标记的数据批次和大量IT - 并使用算法来提取标签,排序和分类数据所需的有意义功能,而不存在人为干预。无监督的学习少于自动化决策和预测,更多关于识别人类会错过的数据模式和关系。采取垃圾邮件检测,例如 - 人们生成比数据师团队更好的电子邮件可以希望在寿命中标记或分类。无监督的学习算法可以分析大量的电子邮件,并揭示指示垃圾邮件的功能和模式(并随着时间的推移在标记垃圾邮件时保持更好)。

了解有关无监督学习的更多信息。

半监督学习 

半监督学习在监督和无人监督的学习之间提供快乐的媒介。在培训期间,它使用较小的标记数据集来指导从更大的未标记的数据集中引导分类和特征提取。半监督学习可以解决没有足够的标记数据(或者能够负担足够的数据)来培训监督学习算法的问题。 

钢筋机学习

钢筋机学习是一种类似于监督学习的行为机器学习模型,但算法没有使用示例数据训练。此模型通过使用试验和错误来学习。将加强一系列成功的结果,以制定给定问题的最佳建议或政策。

赢得了IBMWatson®系统 危险! 2011年挑战是一个很好的例子。系统 二手钢筋学习 决定是否尝试答案(或质疑,原样),将哪个广场选择在董事会上,以及投注多少 - 特别是每日双打。

了解有关强化学习的更多信息。    

深度学习

深度学习是机器学习的子集(所有深度学习都是机器学习,但并非所有机器学习都是深入学习)。深度学习算法定义了一个人工神经网络,旨在学习人类脑的学习方式。深度学习模型需要大量的数据通过多层计算,在每个连续层中应用权重和偏置,以不断调整和改进结果。

深度学习模式通常是无人监督或半监督的。强化学习模型也可以是深度学习模式。某些类型的深度学习模型 - 包括卷积神经网络(CNNS)和经常性神经网络(RNNS) - 在计算机视觉等领域的推动进展 - 自然语言处理 (包括语音识别)和自驾车。 

看到博客文章“AI与机器学习与深度学习与神经网络:有什么区别?“仔细看看不同的概念如何相关。

了解更多有关深度学习的信息。                                                               

现实世界机器学习用例

如上所述,机器学习无处不在。这只是一个机器学习的一些例子,你可能每天都遇到:

  • 数字助理: Apple Siri,Amazon Alexa,Google Assistant和其他数字助理由自然语言处理(NLP)提供动力,机器学习应用程序使计算机能够处理文本和语音数据,并“了解人们的人类方式。自然语言处理还驱动语音驱动的应用,如GPS和语音识别(语音到文本)软件。
  • 建议: 深度学习模型驱动器“人们也喜欢”和“只为您”提供的亚马逊,Netflix,Spotify和其他零售,娱乐,旅行,求职和新闻服务的建议。
  • 上下文在线广告: 机器学习和深度学习模型可以评估网页的内容 - 不仅是主题,而且可以对作者的意见或态度进行细微差别 - 以及为访客的利益量身定制的广告。
  • 聊天: 聊天 可以使用模式识别,自然语言处理和深神经网络的组合来解释输入文本并提供合适的响应。
  • 欺诈识别: 机器学习回归和分类模型已经取代了基于规则的欺诈检测系统,当标记被盗的信用卡使用时具有大量误报,并且很少在检测被盗或受损财务数据的刑事使用时。
  • 网络安全: 机器学习可以从事件报告,警报,博客帖子等内提取智能,以确定潜在的威胁,建议安全分析师,并加速反应。
  • 医学图像分析: 数字医学成像数据的类型和体积已爆炸,导致更多可用信息,用于支持诊断,而且更多的机会在阅读数据时的人为错误。卷积神经网络(CNNS),经常性神经网络(RNNS)以及其他深度学习模型在从医学图像中提取特征和信息时已经证明越来越成功,以帮助支持准确的诊断。
  • 自驾车: 自动驾驶汽车需要机器学习巡回赛 - 他们必须连续识别汽车周围环境中的物体,预测它们将如何改变或移动,并引导围绕物体以及朝向驾驶员目的地的汽车。实际上,上面提到的每种形式的机器学习和深度学习算法在实现自动驾驶汽车时发挥了一些作用。

机器学习和IBM云

IBM Watson机器学习 支持机器学习生命周期结束。它可以在一系列产品中提供,可让您在您的数据生存之前构建机器学习模型并在混合多罩环境中的任何位置部署它们。 

IBM Watson机器学习 IBM Cloud Pak用于数据 帮助企业数据科学和AI团队速度AI开发和部署在Anywhere上 云本地人 数据和AI平台。 IBM Watson机器学习云,IBM云环境中的托管服务是将模型从桌面上的实验移动到部署以进行生产工作负载的最快方法。对于寻找缩放机器学习部署的较小团队, IBM Watson机器学习服务器 在任何私人或公共云上提供简单的安装。

要开始,请注册IBMID和 创建IBM云帐户.