您现在的位置:首页 >> 建材导购

机器学习正在走向实时既有

发布时间:2025/12/09 12:17    来源:祁门家居装修网

动性内核等。

2.使假设越来越小(假设压缩成)。

最初,这个系列的系统设计是使假设越来越小,以使它们适合大块设备。使假设拉长多半一定会使它们运营得越来越慢。最相似的、通用的假设压缩成系统设计是量立体化,例如,用16位浮点数(半精度)或8位整数(定时)换成32位浮点数(全精度)来透露你的假设系数。在极端前提,有些人设法用1位透露(二进制系数神经网络服务),例如 BinaryConnect和 Xnor-Net.Xnor-Net的所作从Xnor.ai分拆出来,这是公司总部专注于假设压缩成的草创子公司,它被苹果子公司以2亿美元的价位母公司。

另一种流向行的系统设计是 knowledge distillation 一个小的假设(校内)被操练来模仿一个更大的假设或一个假设集合(毕业生)。尽管校内多半是用自行操练好的老师来操练的,但两者也可以同时顺利收尾操练。产出之年前用作的烘烤网络服务的一个事例是 DistilBERT它将一个BERT假设的大小减缓了40%,同时始终保持相一致了97%的句法理解潜能,并且更快慢了60%。

其他系统设计包含修剪(找寻对分析最于是就的常量,并将其增设为0)和较低庶子因子立体化(用紧凑的块来替换过度常量立体化的卷积过滤器,以减缓常量需求量并增加更快)。见 A Survey of Model Compression and Acceleration for Deep Neural Networks (Cheng等人,2017)的详细分析。

关于假设压缩成的分析论文的需求量刚刚增长。现成的JVM也在激增。令人敬畏的开源项目有一个列表格,其之年前包含 The Top 121 Model Compression Open Source Projects.

3.让接口越来越慢

这是另一个刚刚迅猛发展的分析领域。大子公司和草创子公司都在越来越是开发接口,使大型ML假设尽可能在虚拟,之则有是在设备上越来越慢地顺利收尾侦探小真是,甚至操练。IDC分析,到2020年,要用侦探小真是的大块和旋转设备的之后组合将总共37亿台,还有1.16亿台在要用操练。

实时输油管

假设你有一个搭车应用,一心扫描欺诈性交易子系统,例如用作被盗借记卡付款。当真正的信用所有权推断出未经使用权的付款时,他们一定会向分行提出异议争议,而你则才会收回费用。为了解决问题获利最大立体化,欺诈者确实一定会连续拨打多个站内电话,或者从多个账户拨打。2019年,商家估计欺诈性交易子系统最少九成到了其亚太区该网页销售额的27%。你推断出被盗借记卡的时除此以则有越长,你的损失就越大。

要扫描一项交易子系统是否是欺诈性的,仅看该交易子系统是不够的。你将近才会调查加入该交易子系统的软件除此以则有的近代,他们除此以则有在应用之年前的旅行和社会活动,借记卡除此以则有的交易子系统,以及在同一时除此以则有愈演愈烈的其他交易子系统。

为了慢速访问这些类型的个人信息,你希望必要多地把它们保存在文件系统之年前。每当你谈论的暴力事件愈演愈烈时便是软件选项临近、预订空档、联系车上、取消空档、加到借记卡、删除借记卡等等。- 有关该暴力事件的个人信息就一定会转回你的文件系统驱动器之年前。只要它们是有用的(多半以天为该单位),它就一定会送回那里,然后要么转回永久驱动器(如S3),要么被丢弃。这方面最相似的工具是 Apache Kafka,Kafka是一种流向式驱动器:它是一种流向式驱动器方式也,它是由Amazon Kinesis发放的。Kafka是一个流向驱动器:它在资料流向之年前驱动器资料。

流向资料与型式资料相异便是型式资料不太可能清晰地存在于某处,如CSV份文件。当从CSV份文件之年前写入时,你真的管理工作何时告一段落。而资料流向总有一天不一定会告一段落。

一旦你有了行政流向媒体资料的方法有,你就一心提取则有观上来变换你的ML假设。除了来自流向媒体资料的则有观上则有,你确实还才会来自型式资料的则有观上(这个账户是什么时候创建的,软件的评论是什么,等等)。你才会一个工具,允许你检视流向媒体资料以及型式资料,并将它们从各种资料源通往起来。

流向检视与批检视

人们一般用 "批检视 "常指的是型式资料检视,因为你可以成百上千地检视它们。这是与 "流向检视 "相对的,后者在每个暴力事件到达时顺利收尾检视。批检视是很高效的便是你可以利用MapReduce等工具来检视大量的资料。流向检视是慢速的,因为你可以在每一个资料到来时几天后检视。Apache Flink的PMC领导者Robert Metzger对流向检视可以像批检视一样很高效提出异议异议,因为批检视是流向检视的一个通则。

检视流向资料越来越加困难,因为资料量是无限制的,而且资料进来的速率和更快是可变的。让一个流向检视器要用批检视比让一个批检视器要用流向检视越来越慢。

Apache Kafka有一定的流向检视潜能,一些子公司在Kafka流向驱动器的一新用作这种潜能,但Kafka流向检视在检视各种资料源方面的潜能是可用的。人们始终在努力引入SQL,这种常用型式资料表格的流向行的查阅句法,以检视资料流向。然而,最流向行的流向检视工具是 Apache Flink它具有对批检视的本地支持。

在机器修习产出的早期,许多子公司在这两项的MapReduce/Spark/Hadoop资料输油管之上设立了他们的ML子系统。当这些子公司一心要用实时侦探小真是时,他们才会为流向式资料设立一个单独的输油管。

有两个相异的输油管来检视你的资料是ML产出之年前显现出错误的相似原因,例如,一个输油管的变立体化无法正确地复制到另一个输油管,导致两个输油管提取两个相异的则有观上集。如果这两个输油管由两个相异的团队保证,这种情况尤其相似,例如,开发团队保证常用操练的批检视输油管,而地面部队团队保证常用侦探小真是的流向输油管。子公司包含 Uber和 Weibo等子公司不太可能顺利收尾了重大的交通设施改扩建,用Flink统一了他们的批检视和流向检视输油管。

暴力事件之则有设计与催促之则有设计

在以前的十年里,软件世界不太可能走向了旋服务于。其理念是将你的业务基本立体化分解小的框架便是每个框架都是一个自足的服务于便是可以独立保证。每个框架的所有权可以慢速越来越另行和检验该框架,而不必咨询子系统的其他大部分。

旋服务于往往与REST合力恢,REST是一套让这些旋服务于顺利收尾联系的方法有。REST APIs是催促之则有设计的。客户端(服务于)通过POST和GET等方法有发送催促,告诉它的服务于器确实要要用什么,它的服务于器一定会对结果作出回应。服务于器才会传唤催促,才能注册催促。

因为在一个催促之则有设计的世界里,资料是通过对相异服务于的催促来检视的,无法人对资料如何在整个子系统之年前流向动有一个总体的理解。顾虑一个有3个服务于的有用子系统。

A 行政车上的可用性B 行政乘坐期望C 在顾客每次承诺站内时,分析确实的最佳价位,向他们展示。

因为价位一般来真是可用性和期望,服务于C的举例来真是一般来真是服务于A和B的举例来真是。首先,这个子系统才会服务于除此以则有的联系。C才会ping A和B顺利收尾分析,A才会ping B真的是否调动越来越多的车上,ping C真的给他们什么价位鼓励。其次,将无法有用的方法有来监测A或B的基本立体化变立体化如何受到影响服务于C的机动性,或者在服务于C的机动性快要回升时同构资料流向来顺利收尾检查和。

只有3项服务于,什么事就不太可能变得复杂了。也许一下,如果无法成千上万的服务于,就像主要的网页子公司所拥有的那样。服务于除此以则有的因特网一定会爆炸的。在HTTP上以JSON blobs的基本对齐便是REST催促多半运用于的方式也便是也很慢。服务于除此以则有的资料传输一定会成为一个阻碍,使整个子系统减慢。

与其让20个服务于向服务于A索取资料,不如真是每当服务于A内愈演愈烈一个暴力事件,这个暴力事件就一定会被电视台到一个流向之年前,任何一个一心从A取得资料的服务于都可以订户这个流向并挑选出它所才会的资料。如果有一个流向,所有的服务于都可以电视台他们的暴力事件并订户,那一定会怎么样?这种方式上被称之为pub/sub:发布和订户。这就是像Kafka这样的解决方案所允许你要用的。由于所有的资料都是通过一个流向来流向动的,你可以增设一个可视来监控你的资料和它在整个子系统之年前的改变。因为它是基于服务于所电视台的暴力事件,这种框架是暴力事件之则有设计的。

Beyond Microservices: Streams, State and Scalability(Gwen Shapira, QCon 2019)

催促之则有设计的框架对那些越来越依赖基本立体化而非资料的子系统来真是功效很好。暴力事件之则有设计框架对重资料的子系统功效越来越慢。

过关斩将

许多子公司刚刚从批检视移向流向检视,从催促之则有设计的框架移向暴力事件之则有设计的框架。我与宾夕法尼亚州和之年前国的主要的网页子公司见面的印象是,这种变立体化在宾夕法尼亚州仍然很减慢,但在之年前国则慢得多。流向媒体框架的运用于与Kafka和Flink的流行有关。Robert Metzger告诉我,他观察到在亚洲用作Flink的机器修习管理工作负载比在宾夕法尼亚州要多。谷歌趋向之年前的 "Apache Flink "与这一观察相一致。

流向检视无法越来越畅销的原因有很多。

子公司无法见到流向检视的好处他们的子系统还无法达到服务于除此以则有因特网成为阻碍的为数。他们无法受益于该网页分析的应用。他们有确实从该网页分析之年前受益的应用,但他们还不真的,因为他们以年前从没要用过该网页分析。

2.对交通设施的初始融资很高交通设施的越来越另行是昂贵的,并确实危及这两项的该软件。行政者确实不愿意融资换装他们的交通设施以允许该网页分析。

3.心态改变从批检视变换到流向检视才会一个心理改变。在批检视之年前,你真的一项管理工作何时收尾。而在流向检视之年前,它总有一天不一定会收尾。你可以制定一些规则,比如取得以前2分钟内所有资料点的最少值,但如果2分钟年前愈演愈烈的暴力事件被延后了,还无法转回资料流向怎么办?在批检视之年前,你可以有度量明确的表格并将它们通往起来,但在流向检视之年前,无法表格可以通往,那么对两个流向顺利收尾通往操作是什么意思?

4.Python的不兼容性Python是机器修习的通用句法,而Kafka和Flink则运营在Java和Scala上。引入流向确实一定会在管理工作流向程之年前造成句法不兼容。Apache Beam在Flink之上发放了一个Python接口,常用与流向顺利收尾因特网,但你仍然才会尽可能用作Java/Scala的人。

5.较低的检视成本应用软件检视这样一来你可以越来越有效地用作你的推算资源。如果你的接口尽可能一次检视1000个资料点,那么用它来一次只检视1个资料点就是浪费了。

第二级:持续性修习便是你的子系统可以不属于越来越进一步资料并实时越来越另行

这里的实时被度量为几分钟的时除此以则有。

度量 "持续性修习"

我用作了 "持续性修习",而不是 "该网页操练 "或 "该网页修习",因为后两个词让人们一心到从每个起源于的资料点之年前修习。真正算是这一点的子公司非常、差不多,因为。

这种方法有受到主因遗忘的受到影响便是神经网络服务在修习越来越进一步个人信息时,一定会快要忘记以年前修习的个人信息。在一个资料点上运营一个修习步骤确实比在一个批次上运营越来越昂贵(这可以通过拥有足以强大的接口来检视正好一个资料点来缓解)。

即使一个假设在每个起源于的资料点上都在修习,也不这样一来每个资料点再次都一定会地面部队越来越进一步系数。由于我们目年前对ML算法如何修习的理解可用,越来越越来越进一步假设才会首先被检验,以理解它的表格现如何。

对于大多数要用实际上的该网页操练或该网页修习的子公司来真是,他们的假设在旋型批次之年前修习,并在一定时除此以则有后顺利收尾检验。只有在其机动性被检验为令人满意再次,假设才一定会被越来越广泛地地面部队。对于旋博来真是,他们从修习到地面部队假设越来越越来越进一步乘积周期是10分钟。

Machine learning with Flink in Weibo(建文帝,Flink Forward 2020)

然而,持续性修习并不是常指重另行操练的基频,而是常指重另行操练假设的方式也。

大多数子公司要用的是无平衡状态再操练便是假设每次都是从头开始操练。持续性修习这样一来允许有平衡状态的操练便是假设在另行资料上继续操练(旋调)。

一旦你的交通设施被增设为要用有平衡状态的操练,操练基频就只是一个旋钮。你可以每小时越来越另行一次假设,每天一次,也可以在你的子系统扫描到分布区变立体化时越来越另行你的假设。

用作犯罪暴力行为

TikTok是令人难以置信的上瘾。它的秘密在于其提拔子系统能慢速修习你的喜好,并提拔你整整确实一定会看的视频,给软件带来难以置信的滚动体验。这是确实的,因为TikTok背后的子公司字节跳动不太可能设立了一个成熟期的交通设施,使他们的提拔子系统尽可能实时修习软件的喜好(用他们的专有名词真是是 "软件档案")。

提拔子系统是持续性修习的令人难忘候选人。它们有自然现象的标记便是如果一个软件点击了一个提拔,那就是一个正确地的分析。并非所有的提拔子系统都才会持续性的修习。软件对住宅、汽车、国内航线、旅馆等物品的偏好不太确实从一分钟到下一分钟愈演愈烈变立体化,所以子系统持续性修习的意义不小。然而,软件对该网页概要便是视频、文章、另行闻、Facebook、博文、备忘录便是的偏好确实变立体化非常慢("我再一念书到章鱼有时一定会无缘无故地船家,那时候我一心看它的视频")。由于对该网页概要的偏好是实时变立体化的,广告子系统也才会实时越来越另行以显示就其的广告。

持续性的修习对于子系统适应环境罕见暴力事件至关重要。顾虑一下粉红色星期五的博客消闲。因为粉红色星期五每年只愈演愈烈一次,亚马逊或其他提供商网页不确实取得足以的近代资料来理解软件在那一天的暴力行为,所以他们的子系统才会在那一天迅速地修习以适应环境。

或者顾虑当某个著名的人在Facebook上发布一些愚蠢的从前时的Facebook抓取。例如,关于 "四季上半年美立体化 "的另行闻一上架,很多人就一定会去抓取 "上半年美立体化"。如果你的子系统无法几天后获知这里的 "上半年美立体化 "是常指另行闻发布一定会,那么你的软件就一定会得到大量的园艺提拔。

持续性的修习也可以鼓励解决冷启动弊端。一个软件再一加入你的该软件,你还无法他们的个人信息。如果你无法任何基本的持续性修习的潜能,你将不得不为你的软件发放一般的建议,直到下一次你的假设被其他用户操练。

解决方案

由于持续性修习仍然相当另行,而且大多数刚刚要用的子公司还无法公开谈论它的细节,所以无法规格的解决方案。

持续性修习并不这样一来 "无法应用软件操练"。那些最成功地用作持续性修习的子公司也在其他用户前提交叉操练他们的假设,然后将该网页版本与其他用户版本相结合。

过关斩将

持续性修习面临着许多过关斩将,包含理论假设和有系统。

理论假设上

持续性修习将我们所学到的很多关于机器修习的基础知识翻了个底朝天。在机器修习的入门课上,校内们确实一定会被教导相异版本的 "用足以需求量的历时来操练你的假设,直到不动点。"在持续性修习之年前,无法历时,你的假设对每个资料点只看一次。也无法实际上的不动点。你的基础资料分布区始终在变立体化。无法什么相同的从前可以不动点。

持续性修习的另一个理论假设过关斩将是假设检验。在传统的应用软件操练之年前,你在相同的检验集上检验你的假设。如果一个越来越进一步假设在完全相同的检验集上比这两项的假设表格现得越来越慢,我们就真是越来越进一步假设越来越慢。然而,持续性修习的目的是让你的假设适应环境迅速变立体化的资料。如果你的越来越另行假设是为了适应环境那时候的资料而操练的,而我们真的那时候的资料与以前的资料相异,那么用旧的资料来检验你的越来越另行假设就无法意义了。

那么我们怎么真的在以前10分钟的资料上操练的假设比20分钟年前的资料上操练的假设要好呢?我们才会在当年前资料上越来越为这两个假设。该网页操练才会该网页检验,但是把一个无法经过检验的假设发放给软件,听起来就像一个灾难的秘诀。

许多子公司还是这样要用了。越来越进一步方式上首先要经过其他用户检验,以确保它们不是主因的,然后通过复杂的A/B检验子系统与这两项方式上并行检验。只有当一个假设被证明在子公司谈论的某些常指标上优于这两项假设时,它才能被越来越广泛地地面部队。(不要让我开始为该网页检验选项一个常指标)。

可视

目年前还无法该网页培训的规格交通设施。一些子公司不太可能将流向媒体框架与常量服务于器,但除此之则有,与我见面过的要用该网页操练的子公司才会在实质上设立大量的交通设施。我不愿意在博客提问这个弊端,因为一些子公司承诺我对这些个人信息顺利收尾保密,因为他们刚刚为自己设立解决方案便是这是他们的竞争优势。

宾夕法尼亚州和之年前国之除此以则有的MLOs竞赛

我念书过很多关于宾夕法尼亚州和之年前国之除此以则有的人工智能竞赛的文章,但大多数越来越为似乎都集之年前于宾夕法尼亚州的人工智能需求量。 论文,专利,引用, 资金 只有在我开始与宾夕法尼亚州和之年前国的子公司提问实时机器修习再次,我才显然他们的MLOps交通设施有惊人的差异性。

仅仅有宾夕法尼亚州的网页子公司设法持续性修习,即使在这些子公司之年前,持续性修习也是常用有用的假设,如基本立体化回归。通过与之年前国子公司直接见面以及与邻国子公司合作的人见面,我的印象是,持续性修习在之年前国越来越大多,之年前国的发明家也越来越渴望解决问题这一起跳。你可以见到一些谈到的概要。

真是明了

机器修习刚刚走向实时,无论你是否准备好了。虽然大多数子公司仍在讨论该网页侦探小真是和持续性修习是否有价值,但其之年前一些要用得正确地的子公司不太可能见到了融资理应,他们的实时算法确实是鼓励他们优于巨头的一个主要因素。

我对实时机器修习还有很多一心法,但这篇名不太可能推移了。如果你有兴趣聊一聊这个弊端。

鸣谢

这篇名是与以下优秀的发明家和学者多次谈到的综合结果。我要答谢Robert Metzger, Neil Lawrence, Savin Goyal, Zhenzhong Xu, Ville Tuulos, Dat Tran, Han Xiao, Hien Luu, Ledio Ago, Peter Skomoroch, Piero Molino, Daniel Yao, Jason Sleight, Becket Qin, Tien Le, Abraham Starosta, Will Deaderick, Caleb Kaiser, Miguel Ramos。

还有几个候选人项始终保持匿名。无法他们,这个博文将是不清晰的。

答谢 Luke Metz谢谢你成为一个了不起的第一个念书者群!

福建白癜风医院哪家治疗最好
泉州白癜风医院哪个好
泉州白癜风比较正规的医院
福建看白癜风哪个医院好
泉州白癜风医院哪治得好
急支糖浆和强力枇杷露哪个好
夜尿增多
口苦
我成功啦
小儿退热

上一篇: 曝卡普空神秘倒计时网站将公布《的游戏6》

下一篇: 女人没用流过产,通过这4点就可以看出,每一条都显而易见

友情链接