网站首页
手机版

Fregata: Spark上支持万亿维机器学习模型

更新时间:2022-04-03 17:47:55作者:未知

Fregata: Spark上支持万亿维机器学习模型

  大规模机器学习工程上最大的挑战是模型的规模。在计算广告,推荐系统的场景下,运用Logistic Regression算法时常需要做特征交叉。原来两组,三组特征的数量可能并不是太大,但是通过交叉后可能会特征数会爆炸。例如,用户特征数1万,广告特征数1万,那么交叉后总特征数就是1亿,如果再与几十个广告位特征交叉,总特征数就会达到几十亿。有些情况下,特征交叉后,总数甚至能达到上千亿。特征数量的爆炸,也带来模型规模的爆炸,这给机器学习带来的挑战比庞大的训练数据量更大。

  

  通常认为,当模型的规模超过单节点的容量后,基于MapReduce计算模型的Spark, Hadoop MapReduce就无法支持了。为了解决这一问题,Parameter Server应运而生,目前是大规模机器学习研究方面的前沿。目前Parameter Server还在发展的过程中,其使用,开发门槛相较于Spark来说都是较高的,而且在大数据平台中再引入一套新的计算平台,对整个体系的管理,运维都将带来更大点挑战。

  

  Fregata致力于在Spark上解决大规模机器学习的问题,Fregata目前已经公开发布的版本已经能支持亿级维度的模型,而目前内部最新版本已经在一个月内连续突破了10亿,100亿,1000亿和10000亿4个台阶。在模型规模提高了4个数量级的同时保持了训练的高效性。下面是 Fregata的Logistic Regression算法在511412394个样本的训练集下的训练时间:

  

  从上表可以看出,对于5亿多样本的训练集,在仅使用48个Executor的情况下,千亿维度以内的问题,都可在500秒内完成,而且每个Executor仅需最多2G内存。对于万亿维度的问题,训练时间也仅需800秒多一点,只是Executor的内存加到了8G。Fregata最近的突破,打破了在Spark上无法支持超大规模模型的瓶颈,将进一步降低大规模机器学习的使用门槛和成本。


本文标签: 模型  百科  技术支持  机器  

为您推荐

HP M1522 MFP打印机卡纸怎么清除?

HP M1522 MFP打印机卡纸怎么清除? HP LaserJet M1522 MFP 系列 -- 如何从打印机中清除卡纸 1、清除进纸盒区域中的卡纸 请勿使

2024-07-05 00:11

联想激光打印机29例故障检修实例 联想激光打印机故障灯大全图解

联想激光打印机29例故障检修实例 激光打印机在使用一段时间后发生故障是在所难免的,对联想激光打印机来说也是如此…… 故障一、打印机无法打印 故障现象:联想LJ2

2024-07-05 00:11

打印机套打怎么设置?套打票据及打印机自定义纸张的教程

打印机套打怎么设置?套打票据及打印机自定义纸张的教程 一些部门因为一些原因不能直接联入系统,所以必须套打。 1、明确票据套打的位置,分别是名字、日期、收费项目,

2024-07-05 00:11

惠普打印机老是卡纸怎么办?惠普hp 惠普打印机总是卡纸怎么处理

惠普打印机老是卡纸怎么办?惠普hp CLJ2840.2820清除机器内部卡纸方法 惠普hp CLJ2840、2820清除机器内部卡纸方法 1. 打开机器后面的出

2024-07-05 00:10

清洁 为打印机做个大扫除

清洁 为打印机做个大扫除 由于打印机内部的部件比较精密,即使是普通的擦拭或者加润滑油都有可能会对打印质量产生不可低估的影像,所以内部的清理一定要谨慎小心,根据我

2024-07-05 00:10

解决打印机无法打印的10种方法(打印机无法打印怎么办步骤)

解决打印机无法打印的10种方法 在使用Windows程序向本地打印机发出打印文档的命令后,如果文档根本无法打印该怎么办呢?下面笔者以Epson LQ-1600K

2024-07-05 00:10