机器学习这些概念有什么区别

机器学习这些概念有什么区别,第1张

首先关注什么是机器学习?

机器学习有下面几种定义:

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

一种经常引用的英文定义是:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E

通俗一点的解释就是,机器学习算法可以从过去已知的数据中学习数据隐藏的规律,利用这些学习来的规律,在给定一定输入的情况下,对未来进行预测。

机器学习的应用领域有哪些?

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测xyk欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等众多领域。

机器学习算法的分类以及这些分类之间的区别是什么?

广义来说,有三种机器学习算法:① 监督式学习,② 非监督式学习,③ 强化学习,以下分别介绍这三种方法的区别。

监督式学习

定义:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括线性回归分析和逻辑回归分析。

监督式学习的例子有:线性回归、决策树、随机森林、K – 近邻算法、逻辑回归等。

非监督式学习

定义:与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。这种分析方式被广泛地用来细分客户,根据干预的方式分为不同的用户组。

非监督式学习的例子有:关联算法和 K – 均值算法。

强化学习

定义:通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。这个算法训练机器进行决策。它是这样工作的:机器被放在一个能让它通过反复试错来训练自己的环境中。机器从过去的经验中进行学习,并且尝试利用了解最透彻的知识作出精确的判断。

强化学习的例子有:马尔可夫决策过程。

常见的机器学习算法有哪些?

线性回归

逻辑回归

决策树

SVM

朴素贝叶斯

K最近邻算法

K均值算法

随机森林算法

降维算法

Gradient Boost 和 Adaboost 算法

使用 空间技术和最近邻居调整 来分析具有随机非连续单树图的黑云杉后代的农田试验,以评价在控制遗传参数的估计的位点异质性中使用的区组和邻居调整的有效性。在3-10岁的树高变化的空间分析显示, 行和列在6岁后显示不同形状的梯度(分别为大致V和N形状),这些梯度一起解释了10岁时的97%的位点变异此外,发现的斑块状结构遵循指数协方差模型,具有12个地块(即7-11m)的估计范围,并且占据了10岁时的站点变化的198% 。应用的区组有效地去除了227%的可移动位点变异,但是4,8和12最近邻的后验数据调整分别去除了576,776和831%。 邻居调整也对与家庭排名和家庭,个人和早期选择的遗传增益相关的遗传参数的估计显示出相当大的影响 。家庭平均估计值和所有家庭平均值的估计方差之间的标准误差分别降低到102和193%。家庭和个体遗传的估计以及早期选择的估计效率分别增加到67%,164%和166%。这些发现鼓舞了未来在森林遗传试验分析中使用空间技术和后相邻调整。

黑云杉(Picea marianna [MILL。] BSP)是加拿大安大略省北部一年种植6500万棵树的最重要的重新造林物种之一。安大略省的黑云杉的遗传改良在20世纪80年代初开始,选择大约8000棵树。这些加上树木后来被分配到27个育种计划。后代测试的后续测量已经用于相关联的秧苗种子园的增量卷积。近年来,工业和省政府都启动了第二代育种计划,以减少由于作为公园和保护区的土地数量的增加而导致的木材供应缺口。

1990年,安大略省东北部一个育种计划的黑云杉后代的两次田间试验被注销,因为在试验地点内存活率差和出乎意料的高异质性。因此,1992年建立了一个农田试验,目的是产生一些遗传信息,用于垄断相关的第一代幼苗种子园。农田测试可以通过广泛的现场准备,近距离和几乎完全的杂草控制在年轻时产生高质量的遗传信息。在过去十年中,在加拿大使用农田测试已经大大增加(CARL-SON,1990),但很少有关于农田实地测试在业务计划中的有效性的研究(WOODS等,1995) 。需要有关控制遗传异质性,遗传参数估计的质量以及早期选择生长潜力的相对效率的信息与常规田间试验中的相比,以支持关于先进一代育种计划的决定的信息。

在本研究中,我们对黑云杉后代的Aidie Creek农田试验进行了详细分析,希望了解(1)测试地点通过广泛的现场管理是如何均匀的; (2)应用区组在控制位点变化方面的有效性;和(3)后验数据调整的应用是否可以增强对场址变化的控制以实现其测试目标。具体来说, 首先应用空间技术来描述位点变异,并估计斑块大小和实验上可移除的位点变异(FU等人,1999) 。这些估计使我们能够推导出适用于邻居调整的最大邻域,并分别评估应用区组和邻居调整在控制站点变化方面的有效性。然后,在对各种遗传参数进行估计之前,对测试数据进行导出的最近邻近调整,以评估邻居调整的影响。

为了评价农田试验中场址变化的空间模式,我们分析了在八个年龄段测量的树高的残差。对于给定年龄的树高,计算家庭平均值,并从家庭成员的每次观察中扣除,这是用SAS PROC GLM(SAS®Institute Inc,1996)完成的。然而, 由于家族遗传变异不能从这样的开放授粉后代测试数据中有效地去除,所得到的残基应该仍然保留3/4的遗传变异。这些残差也可能与块和复制效应混淆

首先用中值抛光技术分析给定年龄的残留物,以(i)获得用于趋势(或梯度)分析的每一行和一列的残差的中值,以及(ii)通过去除这些中值而产生残留残差行和列用于小规模空间结构的分析(FU等人,1999)。注意,这里使用中位数而不是均值,因为前者比后者更稳健,因为行或列中可用的观测值数量不相等。还要注意,中间抛光只是通过行和列,而不是在其他方向,可能不能捕获所有的大规模的确定结构。在本研究中,中位数和去趋势数据首先用SAS IML(SAS®Institute Inc,1996)编写的程序生成。然后绘制行和列上的中值以评估梯度。绘制所有八个年龄的残余中值以评估它们的时间稳定性。

分析给定年龄的分解残差,以获得用于使用变差函数技术(MATHERON,1963)表征测试部位的斑块变化的块,基础和范围。这种技术及其在森林遗传试验数据的应用由FU等人详细讨论。 (1999)。该技术的主要思想是首先获得实验方差作为地块之间的距离函数,然后使用理论模型拟合这些实验方差,从而可以估计熔核,基石和范围。具体地,建模方差接近渐近最大值(定义为窗台)的滞后距离估计数据在空间上相关的范围。随着滞后距离接近零,建模方差也接近有限值,称为块。注意,sill等于块和补丁方差的总和。在本研究中,使用SAS PROC VARIOGRAM(SAS Institute Institute,1996)在最大60个滞后距离上获得各向同性变异图。尝试将实验变差函数拟合到各种理论空间模型(例如球形,指数,高斯)中是使用SAS PROC NLIN(SAS Institute Institute,1996)。发现以下指数空间模型主要解释实验变量[2γ(h)]:

其中n是块,p是块方差,h是滞后距离,以及范围。将指数空间模型拟合到实验变差函数给出了熔核,基石和范围的估计。为了说明拟合,绘制实验和拟合的变异函数,以及贴片方差,熔核和范围的估计。对所有八个年龄的变异图重复绘制以评估它们的时间稳定性。

在这项研究中,我们调整主体树的高度测量与4,8和12最近邻树(分别为N4,N8和N12,分别为简明)的高度测量如下:

其中s是主题树,x表示所选择的最近邻树。这些选择的邻域大小主要基于来自空间分析的斑块大小的估计,并且预期小于在该研究中检测的平均斑块大小(参见下文)。对于每个邻域大小,主体树的高度残差(在给定年龄)通过所有选择的最近邻树的平均高度残差来调整。如果平均高度残差为正(即,上述平均邻域),则对主题树进行向下调整,当平均高度残差为负时,向下调整。注意,用于主题树的所选择的最近邻树的数目可以等于或小于指定的邻域大小,因为一些选择的树可能具有缺失值,或者主题树可能位于边缘行或列上。然后加入调整的残留物及其相应的家族平均值。在测试中对每棵树重复该过程。它是用SAS IML(SAS®Institute Inc,1996)编写的计算机程序完成的,为每个邻域大小生成一个数据文件,以供以后分析。

在60列和200行的年龄为3到10的树高的残留中值的评价表明,在列和行方向的梯度不是线性的;它们在列方向上呈现N形,在行方向上呈现V形。当树龄为6岁时,这些模式变得明显,并且在较老的年龄没有变化(图1)。作为滞后(图)距离的函数的实验方差的模式以及具有指数协方差模型的下降残差的拟合,在图1中显示了在3,6和10岁的树。显然,实验使用对于6岁及以上的树的所使用的指数协方差模型很好地拟合了变差函数。正如预期的,斑块变化的估计随着年龄的增加而增加,因此也是块金(或图示方差)。在树木生长的前五年,范围的估计值从63大幅波动到134,并且在较老的年龄,大约12个地块(标准误差范围从066到072)没有改变太多。这意味着片状大小将为7-11米(注意,行和列中的树的间距不等于如上所述)。表1中给出了通过梯度,斑块性和绘图解释的总表型方差的比例。行和列中的梯度解释了总表型方差的97%,并且斑块性占198%,如针对H10所揭示的,树高10岁)。组合梯度和补片方差两者得到总表型方差的295%,其原则上可以通过先前的有效场布局(或各种区组)或后验数据分析(例如邻居调整)来移除。这种可去除的位点变异与来自南部沿海不列颠哥伦比亚省的道格拉斯 - 冷杉后代试验报道的那些相容(FU等人1999)。

估计的块方差相对于总表型方差的比例在表1中给出。显然,它们在八个年龄上从06到107%波动。在10岁时,总表型变异的67%由块解释。这意味着在该测试中应用的区组有效地去除了可移除位点变化的227%(= 67 / 295百分比)。表1中给出了去除位点变异的三个邻居调整的有效性。例如,三个邻居调整(N4,N8和N12)分别去除了总表型方差的170,229和245%,如所揭示的为H10。这三个相邻调整分别占可移动位置变化的576%,776%和831%。然而,这种效果在其他年龄上差别很大。

清除站点变化的邻居调整的有效性清楚地反映在家庭平均估计和所有家庭平均估计的差异的标准误差的减少中,如表2所示。例如, H10,三种调整(N4,N8和N12)的家庭平均值之间的差异的标准误差的减少分别为76,84和102%,并且它们相应的所有家庭平均值的方差的减少为143, 160和193%。显然,邻居调整增加了估计家庭手段的精度,从而提高了家庭排名的精确度,更多的邻居被调整。然而,估计家庭平均值的精度的增加相对于树龄而波动很大(表2)。

家庭差异的估计随年龄的增加而增加,但随着更多的邻居调整,他们略有减少(表3)。无邻居调整的家庭遗产估计范围为050至060(不包括3和4岁的家庭),并且随着邻居数量的增加而普遍增加。例如,对于H10,家庭遗传率的估计从0577(没有邻居调整)增加到0591,0616和0608,分别调整N4,N8和N12。无邻居调整的个体遗传力的估计为约020(不包括3和4岁的那些),但它们通常随着更多邻居调整而显着增加。例如,在10岁时,个体遗传力的估计分别从N4,N8和N12的调整值的0191(无邻近调整)增加到0201,022和0215。这些个体遗传力的估计增加高达16%。然而,从8个到最近的邻居的调整显示家庭和个体遗传的估计略有减少。注意,3-4岁时家庭和个体遗传的高估计是由于存在意想不到的家族差异的高估计

在表4中给出了在没有邻居调整的情况下的八个年龄的估计遗传年龄相关性。这些相关性在选择年龄上的线性回归被发现是非常显着的,其线性系数(及其标准误差)为0385(0042 )。类似地,来自三个相邻调整(N4,N8和N12)的线性回归也分别具有0433(0040),0444(0046)和0439(0045)的线性系数(和它们的标准误差)也是高度显着的。表3中还给出了相对于20岁时的选择,从3岁到10岁的黑云杉的早期选择的估计效率,以及来自三种邻近调节的估计效率相对于没有调节的估计效率的百分比变化。估计效率可高达182,取决于早期选择的年龄。邻域尺寸高达8的调整提高了早期选择的效率,高达24%取决于早期选择的年龄。这些研究结果清楚地表明,邻居调整可以对预测的年龄相关性和选择年龄的确定具有积极影响

这里提出的分析产生了一些来自Aidie Creek农田试验的综合结果。首先,农田试验,即使具有广泛的场地管理,仍然表现出梯度和斑块状结构的实质位点异质性。这种异质性在6岁后是稳定的。其次,估计的可去除位点变异是10岁时总表型变异的30%。应用的区组和用4,8和12最近邻的调整有效地去除23,58,78和83%的可移动位点变异。第三,应用的邻居调整对各种参数的估计显示出相当大的影响。家庭和个人幸福感和早期选择效率的估计分别从邻居调整增加到7%,16%和17%。这些研究结果不仅为我们提供了有效的艾迪溪农田实验在黑云杉的作业育种计划中的表现,而且对未来黑云杉和其他林木的农田试验的发展是有价值的。

我们的分析没有考虑从测试布局中使用的不等间距的不对称邻域问题。可以推断,这种不对称布局会影响斑块大小的估计,并且还会增加来自使用的邻域调整的各种遗传参数的估计的一些不确定性。关于邻域校正的进一步研究应该提供一些关于这个问题的见解。此外,由于有限的计算资源的可用性,我们的分析没有考虑逐个家庭的交互。这种相互作用的存在肯定会影响遗传参数的估计,并因此影响各种邻居调整的比较。此外,我们应用估计的补丁大小来指导邻居大小在所使用的邻居调整的选择,没有详细探讨邻域优化。在这项研究中获得的结果似乎暗示所使用的12个最近邻近应该接近最优,但是关于邻域大小的选择的进一步研究应该为邻域调整的有效使用提供信息。最后,我们应用邻域调整的家族的减法可以偏置各种遗传参数的估计(WILKINSON等人1983; MAGNUSSEN 1993; JALOO-DINKINS和JHWOODS未公开)。这表示在遗传试验数据分析中使用邻居调整的主要限制(LOO-DINKINS 1992)。因此,在调整数据的遗传估计的解释中需要谨慎。

为了有效应用后验数据调整,应首先使用SAS MIXED和VARIOGRAM程序(SAS®Institute Inc,1996)对各种空间协方差模型评估试验数据。然后,最佳拟合空间模型应该直接整合到各种遗传参数的分析中,如MAGNUSSEN(1990)和APIOLAZA et al。 (2000)。这种积分预期将消除更多的斑块变化并且具有比这里采用的方法更少的偏差(如果有的话),因此更有效。然而,集成方法需要相当多的计算资源,并且对于每次测试由超过10,000个记录组成的常规测试数据(例如,400个家庭×30个人)是不可行的,直到高级计算资源的可用性。当需要REML选项时,即使没有空间治疗,这个问题也存在于大型试验数据的分析中,但是仍然较少被认可(ADAMS等人1994)。所有这些挑战为后面的数据调整打开了一条研究大道。

本研究中获得的结果虽然主要针对艾迪河农田试验,但对黑云杉和其他林木的遗传检测有一些一般的意义。首先,在农田试验中仍然可以发现实质的位点异质性,即使具有广泛的位点管理和在试验位点观察到一致性。在选择测试场地,正确的场地准备和有效的场所管理方面需要注意(WOODS等人1995)。第二, 应用区组可以去除一定比例的位点变异,但是更有效的现场设计,例如Alpha设计(WILLIAMS和TALBOT,1996)的应用可以帮助消除更多的位点异质性以获得更高的遗传估计效率(FU等。1998) 。第三,不应忽略任何农田试验的空间分析,也不应忽视常规现场试验。这种分析可以产生有用的信息,不仅用于评估现场布局在控制位点变化(FU等人,1999)的有效性,而且还便于后面的数据调整,如本研究所示。可以使用诸如SAS PROC VARIOGRAM(SAS Institute Institute,1996)的各种SAS程序容易地进行空间分析。 (WRIGHT,1977; BONGARTEN和DOWD,1984; THOMPSON和EL-KASSABY,1988; LOO-DINKINS 1992; ANEKONDA和LIBBY),这些研究结果表明, ,1996)。这种有效性鼓舞了未来在森林遗传试验分析中使用后验数据调整。

以上就是关于机器学习这些概念有什么区别全部的内容,包括:机器学习这些概念有什么区别、Joyce 2002 NN 黑云杉、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10206358.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存