机器学习项目失败最大的原因的有这7种,你认同吗?

机器学习项目失败最大的原因的有这7种,你认同吗?,第1张

机器学习项目失败最大的原因的有这7种,你认同吗? 1 缺乏有经验的人才

截至2020年,数据科学和机器学习工程都是比较新的学科。目前仍然没有标准的方法来教授它们。一方面,大多数组织机构不知道如何聘请机器学习方面的专家,也不知道如何比较他们。市场上大多数可用的人才都是完成了一门或几门在线课程的人,他们并不具备丰富的实践经验。相当一部分劳动力在机器学习方面拥有肤浅的专业知识,这些知识是在课堂上的玩具数据集上获得的。许多人没有整个机器学习项目生命周期的经验。另一方面,组织机构中可能存在一些有经验的软件工程师,但他们不具备处理数据和机器学习模型的相应专业知识。

2 缺乏领导层的支持

正如2.4节关于两种文化的讨论,科学家和软件工程师常有不同的目标、动机和成功标准。一方面,他们的工作方式也非常不同。在一个典型的敏捷组织中,软件工程团队以短跑的方式工作,有明确的预期交付物,不确定性很小。

另一方面,科学家则是在高度不确定的情况下工作,并通过多个实验来推进工作。大多数这样的实验都不会产生任何可交付的成果,因此,没有经验的领导可能会认为没有进展。有时,在模型建立和部署后,整个过程不得不重新开始,因为模型并没有带来企业关心的指标的预期增长。这又会导致领导层认为科学家的工作是在浪费时间和资源。

此外,在许多组织机构中,负责数据科学和人工智能(AI)的领导,尤其是副总裁级别的领导,都具有非科学甚至非工程背景。他们不知道人工智能是如何运作的,或者对人工智能的理解来自于流行的资料,非常肤浅或过于乐观。他们可能会有这样的心态,认为只要有足够的资源、技术和人力,人工智能可以在短时间内解决任何问题。如果快速的进展没有发生,他们很容易责怪科学家,或者完全失去对人工智能的兴趣,认为人工智能是一种难以预测和不确定结果的无效工具。

很多时候,问题在于科学家无法将结果和挑战传达给上层管理人员。因为他们没有共同语言,而且技术专长水平也很不相同,即使是成功的成果,如果展现得不好,也会被视为失败。

这就是为什么在成功的组织机构中,数据科学家是很好的普及者,而负责人工智能和分析的高层管理者,往往具有技术或科学背景。

3 数据基础设施缺失

数据分析师和科学家与数据打交道。数据的质量对机器学习项目的成败至关重要。企业数据基础设施必须向分析师提供简单的方法来获取训练模型的高质量数据。同时,基础设施必须确保一旦模型在生产环境中部署,类似的高质量数据就可以得到。

然而在实践中,情况往往并非如此。科学家通过使用各种临时脚本来获取训练数据;他们还使用不同的脚本和工具来组合各种数据源。一旦模型准备好了,就会发现,通过使用现有的生产环境基础设施,不可能足够快地(或者根本不可能)为模型生成输入样本。第3章和第4章将广泛地讨论数据和特征的存储问题。

4 数据标签的挑战

在大多数机器学习项目中,分析师使用的是标签数据。这些数据通常是定制的,所以贴标签是针对每个项目专门执行的。一些报告 [5]显示,截至2019年,多达76%的AI和数据科学团队自行对训练数据贴标签,而63%的团队自行构建标签和注释自动化技术。

这导致熟练的数据科学家在数据标签和标签工具开发上花费了大量时间。这对于人工智能项目的有效执行是一大挑战。

一些公司将数据标签外包给第三方供应商。然而,如果没有适当的质量验证,这种标签数据可能变得质量低下或完全错误。组织机构为了保持各数据集的质量和一致性,必须投资于内部或第三方贴标员的正式和标准化培训。这反过来又会拖慢机器学习项目的进度。虽然根据同样的报告,外包数据标签的公司更有可能让他们的机器学习项目投入生产。

5 谷仓式组织和缺乏协作

机器学习项目所需的数据通常存在于一个组织机构内不同的地方,有不同的所有权、安全限制和不同的格式。在谷仓式组织中,负责不同数据资产的人员可能互不相识。当一个部门需要访问存储在不同部门的数据时,缺乏信任和协作会导致摩擦。此外,一个组织机构的不同分支有自己的预算,因此协作变得复杂,因为没有一方有兴趣将自己的预算用于帮助另一方。

即使在一个组织的一个分支中,也经常有几个团队在不同阶段参与到一个机器学习项目中。例如,数据工程团队提供对数据或单个特征的访问,数据科学团队致力于建模,ETL或DevOps致力于部署和监测的工程方面,而自动化和内部工具团队则为持续的模型更新开发工具和流程。任何一对参与团队之间缺乏协作,都可能导致项目被长期冻结。团队之间不信任的典型原因是工程师对科学家使用的工具和方法缺乏了解,科学家对软件工程的良好做法和设计模式缺乏了解(或完全不了解)。

6 技术上不可行的项目

由于许多机器学习项目的成本很高(因为专业技术和基础设施成本很高),一些组织机构为了“收回投资”,可能会将目标定得非常远大:彻底改变组织或产品,或者提供不切实际的回报或投资。这就导致了非常大规模的项目,涉及多个团队、部门和第三方之间的合作,并将这些团队推向能力极限。

因此,这种过于雄心勃勃的项目可能需要几个月甚至几年的时间才能完成。一些关键人物,包括领导者和关键科学家,可能会对项目失去兴趣,甚至离开组织。项目最终可能会被取消优先级,或者,即使完成了,也会因为太晚而无法进入市场。至少在开始的时候,最好把重点放在能够实现的项目上,涉及团队之间的简单合作,容易确定范围,并针对一个简单的商业目标。

7 技术团队和业务团队之间缺乏协调

许多机器学习项目在开始时,技术团队对业务目标没有明确的理解。科学家通常将问题框定为分类或回归,并设定一个技术目标,如高准确率或低均方误差。如果没有来自业务团队对业务目标实现情况的持续反馈(如增加点击率或用户保留率),科学家通常会达到模型表现的初级水平(根据技术目标),然后他们不确定是否取得了任何有用的进展,以及额外的努力是否值得。在这种情况下,项目最终会被搁置,因为时间和资源都消耗了,但业务团队并不接受这个结果。

本文摘自《机器学习工程实战》

本书侧重于对机器学习应用和工程实践的关注,是对机器学习工程实践和设计模式的全面回顾。全书共 10 章,在概述之后,分别从项目开始前的准备,数据收集和准备,特征工程,监督模型训练,模型评估,模型部署,模型服务、监测和维护方面进行讲解,最后做了简短的总结。

本书适合想要从事机器学习项目的数据分析师、机器学习工程师以及机器学习相关专业的学生阅读,也可供需要处理一些模型的软件架构师参考。

 

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5689051.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存