您可以做三件事来避免它发生
source: Long Ma on Unsplash
\"这种机器学习(ML)模型的准确性是多少?\"
\"训练时间多长?# 8 q j G = R s 1\"
\"您需要多少训练数据?\"
我在一家为机器人开发机器学习E U E g S X 4 (软件的公司工作,每天都会听到这些问题。 机器学习已成为每个人都追求的一个闪亮的对象。 超过80%的公* 3 @ - S司正在研究至少一个AI项目。
用户通常想知道新物品的装载需要多长时间,以及模{ 2 r O [ e N } S型的表现或推广效果如何。 他们想要一种根据性能衡量总体成本的方法。 但是,以上问题的答案并不能帮助您全面了解。 更糟糕的是,它们具有误3 * n导性。
模型训练只) V } o ; ^是冰山一角。 大多数用户和AI / ML公司忽略的是获取合适的数据^ z l集,清理,存储,聚合,标记,建立可靠的数据流以及基础架构管道的` B # { n u巨大隐性成本。
根据最近的研究,公司在AI / ML项目中花费了80%以上的时间用于数据准备和工程任务。 换句话说,8 B W V F z U如O t * k果您将大部分精力放在构建和训练模型上,则总的工程工作量和成本可能是您最初估计的五倍。
此外,机器学习模糊了用户和软件提6 F Q - @ l #供商之间的界线。
我们已经开始看到AI5 I e & k / A TaaSZ @ ` M或MLaaS的出现。 随着更# d s V 9 p P ] G多数8 ( 1 Z据的出现,云中的模型不断改进。 这是机器学习的最大好处,也是使MLaaS比SaaS更具挑战性的业务。
source: Bastiane Huang (medium.com/@Bastiane)
模型从训练数据中学习。 没有高质量的数据,模型将无法正S f 1 U ! W常运行。 用户并不总是了解生成或注释适当数据集的最佳做法。 实际上,在大多数H q E情况下,它们不是。
当系统表现不佳时,用户往往会指责n g N E D x模型。 因此,AI / ML公司通常花费大量时间和资源进行培训,并与用户合作以确保数据质量,这成为AI公司与其客户之间的共同责任。
例如,要训练生产线上的缺陷检查模型,一家计算机视觉公司需要与客户合作, 5 y I ? 2,以正确% 0 _ } a w |的角度和位置安装摄像头,检查分辨率和帧频,确保有足够的正像 每种情况的负面训练样本。
由于有人需要控制机器人或车辆以执行某些动作,因此使用机8 w 1 p 6器人技术或自动驾驶汽车应用程序T d B h进行数据收集更加耗时且成本更高。
即使进行了所有培训课程,用户手册和指南,您仍然不能完全控制用户生成的数据。 一家机l ( 1 %器视觉相机公司告诉我,他们有工程师手动验证100%的传入数据以确保数据完整性。
所有这些额外的,经常被忽视的培训,手动检查,数据清理和标记任务会给AI公司带来巨大的间接费用,从而使MLaaS成为具有较低毛利率的更具挑战性的业务。
要建立更具扩展性d N E P m V i的AI / ML业务,我们可以做三件事:
可扩展性为王。 确定大量客户愿意为您付费的正确用例,并可以使用相同的模型体系结构进行解决。 您要做的最后一件事是在没: k Y H g U + U有标准产品的情况下为不同的公司构建和训练不同的模型。
尽可能多地& 6 x e Q O N自助服务。 尽可能使培训和数据管道自动化,以提高运营效率并减少对! : ^ F y体力劳动的依赖。 公司倾向于将客户可见的功能放在内部工具或自动 y G { T V A 2化之上。 但是后者很快就会收到回报。 确保为内部流程自动化分配了足够的资源。
最后,确定并跟踪您的成本,尤其是隐性成本。 您的工程师花费多少时间清理,过滤或聚合数据? 他们花费多少时间来确保第三方正确完成注释? 他们需要多久帮助客户设置环境并正确收集数据? 其中有多少可以自动化或外包?
(本文翻译自Bastiane Huang的文章《The Single Biggest Reason Why AI/ML Companies Fail to Scale?》,参考:https://towardsdatascience.com/the-single-biggest-reason-why-ai-ml-companies-fail-to-scale-d22aa77c545y G 1 #24 q A c ] {)