“如果你有兴趣成为一名机器学习工程师,那么必须熟练掌握Python——但是,如果你对机器学习的基础架构感兴趣,则应该认真考虑Go。”
作者 | Caleb Kaiser
译者 | 弯月,责编 | 郭芮
以下为译文:0 z ; ! l 4
如今,众所周知Python是机器学习项目中最流行的语言。尽管R、C++ 和Julia等语言都有各自的支持者和使用情况,但Python仍然是使用最普遍的语言,几乎每个主流的机器学习框架都使用了Python。
然而,在我们的Cortex(用于将机器学习模型部署成API的开源平台)代码库中,87.5%的J X a _ R u Z代码都是Go。
P| D ? G b ?ython引以为豪的机器学习算法只是生产机器学习系统的一个组成部分。如果想大规模运行生产机器学习y P ;API,你的基础架构需要实现以下v ) S 5 { h 7 ;功能:
-
自动缩放,确保流量波动不会影响API。
-
API管理,处理同步API部署。
-
滚动更新,K ? 7 f # y 7 c 1确保更新模型时不会中断用户服务L } _ W。
我们构建Corte= Q 6x的目的是自动化上述所有的基础架构,以及日志记录和成本优化等其他问题。
出于以下原因,我们认为Go才是构建满足上述需求的软件的理想之选。
并发对于机器学习的基础架构至关重要
用户. M N d - )可以将许多不同的模型部署成不同的API,并把所有模型都放到同一个Cortex集群中进行管理。Cortex Operator需要通过一些API来管理这些不同的部署,比如:
-
Kubernetes API,Cortex调用这个API在集群上部署模型。t W @ 2 G I 3 _
-
各种AWS API,包括EC2 Auto Scaling、S3、Cl) G i joudWatf g I z x Q l Pch等,Cortex调用这些API来管理AWS上的部署。
用户不会直接与这些API进行交互。Cortex通过程序调用这些API来管理集群$ H S P d q、启动部署和监视API。
以s 0 高效、可靠的方式交叉调用这些API是一项难题。采用并发的方式处理这些API调用是最为高效的方式,但同时也带 . z f来了复杂性,因为我们不: s + 8 j m得不担心竞争状况等问题。
Go为解决这个问题提供了一个开箱即用的解决方案- / R:Goroutines。
Goroutines是Go以并发M C X e j的方式执行~ Z $ r q j代码的函数A ] K s。我们可以另写一篇( e ] e t 9 5 g文章深入探讨Goroutines背后的工作方式,但概括来说,GoL 9 y ! % J froutines是由Go运行时自动管理的轻量级线% ;程。你可以将多个Goroutine放在一个OSB 2 q线程上,而且如果Goroutine阻塞了OS线程,则Go运行时会自动将其余的GoroutineG T (s移到新的OS线程h , 5 A _ A 2 ?上。
Goroutines还提供了一) * [种名叫“通道”(channel)的功能,你可以利用这个功能在Gorou9 T i t etines之间传递消息,帮助我们调度请求并防止出现竞争状况。
当然,你也可以利用asyh 7 +ncio等最新的工具在Python中实现这些功能,但Go的设计考虑到了这些情况,使用Go可以减轻我们的工作负担。
使用Go构建跨平台的CLI更容易
Cortex CLI是一个跨平台工具,用户可以使用这个工具直接从命令行部署模型和管理API。
最初,我们使用Python编写了这个8 X sCLI,但事实证明,在多个平台上分6 p 0 ) i发这个CLI太困难了。由于Go可以编译成一个V @ n 1 $ l p :二进制文件(不需要管理依赖),所以可以为我们提供了. f & | 4 & f a m一个简单的解决方案,帮助我们在平台之间分发CLI,而无需额外的工程工作。
Go编译D r u z l a 9 1后的二进制文件与解释型语言相比,其性能优势也很明显。根据计算机基准测试_ 8 ^结果,Go的速度远胜Python。
许多其他的基础设施CLI工具也是用Go编写的,这绝非偶然,h u R + 2 I Y具体的理由请参照下面的第三点。
GW G w d E ( oo的生态系统非常适合基础设施项目
开源的好处之一在于# I % = ,你可以向自己欣赏的项目学习。例如,CoE _ 1 e - : r U Lrtex存在于Kubernetes的生态系统中,而Kube| R G Crnetes本+ + $身也是用Go编写。我们很幸运能够 c d Y ! n w $ Y借鉴这个生态系统中许多出色的开源项目,其中包括:
-
kubectl:Kubernetes CLI
-
minikube:一种在本地运行Kubernetes的工具
-
helm:Kubernetes软件包管理工具
-
kops:管理生产Kuberne) h } Xtes的工具
-
eksctl:亚马逊EKS的官方CLI
上述这些工具都是Kubernetes项目,而且都是用GoW 6 /语言编写的。如果你仔A 0 O L ( a 1细查看CockroachDB和Hashicorp的基础设施项目(包括Vault、Nomad、Terraform、Consul和Packer),就会发现它们统统是用Go语言编写的。
Go在基础架构领域的流行还有另一个影响,那就是大多数对基础架构感兴趣的工程师都很熟悉Go。所以,很容易吸引到这些# V ` C , F B工程师。我们公司最优秀的一位工程师就是通过AngelList找到我们的,我们很幸运他找到了我们。
Go语言编程是一种享受
我们使用Go构建Cortex的最后一个理由就是,我们很享受Go语言编程。
相对于Python,Go的入门有点艰难。但是,Go的宽容性可以为大型项目带来愉悦感。我们在测试软件上非常严格,但是静态输入和编译(对于初学者来7 u ) 7 _ I t说Go的两大难题)对我9 w & s们来说就像是防护栏 ` [ E ),帮助我们编写(相对而言)没有o , [ Q ^ C . d Cbug的代码。
你可能会说其他语言有不同的优势,但总的来说,Go能p y 1 Z N , 0够最大限度地满足我们的技术和美学需求。
Python适用于机器学习,而Go适用于基础架构
我们也很喜欢Python,它在Cortex中占有一席之地,尤其是在处理推理方面。
Cortex服务于TensorFlow、PyTorch、scikit-learn以及其他Python模型,这意味着与模型的接口以及推理之前和之后的处理均在5 1 u 7 ~ VPython中完成。虽然Python代码经过打包部署到Docker容器中,但这些容器是由Go编写的R m u k 0 J % v代码编排的。
如果你有兴趣成为一名机器学习工程师,那么必须熟练掌握Python。但是,如果你对机器学习的基础架构感兴趣,则应该认真考虑Go。
原文:httpsW H Y i r://towardsdatascience.co{ w T : L m #m/why-were-wri& 6 - * M ?ting-machine-learning-infrastructure-in-go-not-python-38d6a37e2d76
本文为 CSO j w ~DN 翻译,转载请注明来源出处。