当前位置: 编码机 >> 编码机优势 >> 机器学习算法的四大金刚科技创造财富
有些算法很容易计算,而另一些则需要复杂的步骤和数学运算。好消息是,您通常不需要计算算法,因为有各种语言(如Python和R)可以使这个过程很简单。对于机器学习算法,它与传统算法不同是第一步先处理数据,然后,计算机将开始学习。
尽管有数百种可用的机器学习算法,但它们实际上可以分为四大类:监督学习、非监督学习、强化学习和半监督学习。我们将逐一介绍。
监督学习
监督学习监督学习使用标记数据。例如,假设我们有一组成千上万只狗的照片。如果每张照片都能识别出每个犬种,那么这些数据就被认为是有标签的。在大多数情况下,这使得分析更容易,因为我们可以将结果与正确答案进行比较。
监督学习的关键之一是要有大量的数据。这有助于优化模型并产生更准确的结果。但有一个大问题:现实是,很多可用的数据都没有标记。此外,如果有一个庞大的数据集,提供标签可能会很耗时。然而,有一些创造性的方法可以解决这个问题,比如众筹。ImageNet系统就是这样建立起来的,这是人工智能创新的一个突破。或者,在某些情况下,可以使用自动方法来标记数据。当然,这种方法也有缺陷。一个标签可能会给出照片的非视觉描述,也可能太模糊。所以自动化标记数据也别称为“弱监督数据”。
人工智能项目还需要创新的方法来构建基础设施。根据某社交网络平台的介绍:
因为一台机器需要一年多的时间来完成模型训练,我们创造了一种将任务分配到多达个GPU上的方法,将总训练时间缩短到仅几周。随着越来越大的模型尺寸——本次研究中最大的是具有超过8.61亿个参数的ResNeXt-32x48d——这种分布式训练变得越来越重要。此外,我们设计了一种去除重复的方法,以确保我们不会意外地在我们想要评估它们的图像上训练我们的模型,这个问题困扰着该领域的类似研究。
展望未来,服务商可以看到将其方法应用于多个领域的潜力,包括:
改善在新闻推送中的排名
更好地检测不良内容
为视障人士自动生成字幕
无监督学习
无监督学习无监督学习是指处理未标记的数据。这意味着您将使用深度学习算法来检测模式。到目前为止,最常见的无监督学习方法是聚类。它使用无标记的数据,并使用算法将相似的项目分组。这个过程通常从猜测开始,然后进行多次计算以获得更好的结果。其核心是找到紧密的数据项,这可以通过各种定量方法来完成:
欧几里德度量:这是两条数据点之间的直线。欧几里得度量在机器学习中很常见。
余弦相似度:顾名思义,你将使用余弦来测量角度。其目的是找到两个数据点在方向上的相似性。
曼哈顿度量:这涉及到在一个图的坐标上取两个点的绝对距离之和。它被称为“曼哈顿”,因为它参考了城市的街道布局,允许更短的距离旅行。
就聚类的用例而言,最常见的用例之一是客户细分,这有助于更好地定位营销信息。在大多数情况下,具有相似特征的群体很可能有共同的兴趣和偏好。
另一个应用是情感分析,借此你可以挖掘社交媒体数据并发现趋势。对于一家时装公司来说,这对于确定如何为即将推出的服装系列设定风格至关重要。
现在除了聚类还有其他的方法。下面是另外三个:
联想:基本概念是,如果X发生,那么Y很可能发生。因此,如果你买了我关于AI的书,你可能会想买同类型的其他书。通过关联,深度学习算法可以破译这些类型的关系。这可能会产生强大的推荐引擎。
异常检测:用于识别数据集中的异常值或异常模式,这对网络安全应用程序很有帮助。BarracudaNetworks负责电子邮件安全的副总裁AsafCidon表示:“我们发现,通过组合许多不同的信息——比如电子邮件正文、标题、通信的社交图、IP登录、收件箱转发规则等——我们能够在检测社交工程攻击方面达到极高的精度,尽管这些攻击是高度个性化的,针对的是特定组织中的特定人员。机器学习使我们能够检测来自组织内部的攻击,其来源是员工的合法邮箱,这是不可能用一个静态的万能规则引擎做到的。”
自动编码器:数据将被放入一个压缩形式,然后它将被重建。由此,可能会出现新的模式。目前,自动编码器的使用较少。但它可以被证明是有用的,特别是对于类似减少数据噪音的应用程序将非常有帮助。
许多人工智能研究人员认为,无监督学习很可能是下一阶段成功的关键。根据扬·勒昆、杰弗里·欣顿和约书亚·本吉奥在《自然》杂志上发表的一篇论文,“从长远来看,我们预计无监督学习将变得更加重要。人类和动物的学习在很大程度上是无监督的:我们通过观察来发现世界的结构,而不是通过被告知每个物体的名称。”
强化学习
强化学习当你还是个孩子,想要从事一项新的运动时,你很可能并不会去读运动说明。相反,你会观察其他人在做什么,并试图找出问题的答案。在某些情况下,你犯了错误,丢了球,因此你的队友会表现出不满。但在其他情况下,你做出了正确的动作并得分,同时队友会表现出赞赏。通过这种反复试错的过程,你的学习能力在正强化和负强化的基础上得到了提高。在高层次抽象的层面上,这很类似于强化学习。它是人工智能领域一些最显著成就的关键,如:
游戏:游戏是强化学习的理想应用场景,因为游戏中有明确的规则、分数和各种限制条件(如棋盘)。在构建一个模型时,您可以用数百万个模拟来测试它,这意味着系统将很快变得越来越智能。这是一个程序为何可以通过学习打败围棋或象棋世界冠军。
机器人:其关键功能之一是能够在空间中移动,这需要在移动的不同位置评估环境。如果机器人想要移动到,比如说,厨房,它将需要绕过家具和其他障碍。如果它碰到了什么东西,就会触发负强化行动。
半监督学习
半监督学习原理这是监督学习和非监督学习的混合。当您有少量未标记数据时,就会出现这种情况。但你可以使用深度学习系统将无监督数据转换为监督数据——这个过程被称为伪标记。在此之后,就可以应用监督学习算法了。
半监督学习的一个有趣的用例是对核磁共振图像(MRI,MagneticResonanceImaging)的解释。放射科医生首先可以对扫描结果进行标记,然后,一个深度学习系统可以找到其余的模式。
感谢您的学习,我每周都会发布几次关于机器学习、人工智能、编程和所有与计算机科学相关的内容。
往期内容:
过程决定成败?试试机器学习流程的最佳成功实践
机器学习有缺陷?深度学习如何补位?
价值十个微软?比尔盖茨为什么如此欣赏机器学习?
数学差就无缘机器学习?别慌,读完这篇指南,你就知道学习路径了