当前位置: 编码机 >> 编码机发展 >> 训练速度提升100多倍,美国返利
选自Medium
作者:EvanHarris
机器之心编译
参与:高璇、张倩
在本文中,Ibotta(美国版「返利网」)机器学习和数据科学经理EvanHarris介绍了他们的开源项目sk-dist。这是一个分配scikit-learn元估计器的Spark通用框架,它结合了Spark和scikit-learn中的元素,可以将sklearn的训练速度提升多倍。
在Ibotta,我们训练了许多机器学习模型。这些模型为我们的推荐系统、搜索引擎、定价优化引擎、数据质量等提供了支持,在与我们的移动app互动的同时为数百万用户做出预测。
虽然我们使用Spark进行大量的数据处理,但我们首选的机器学习框架是scikit-learn。随着计算成本越来越低以及机器学习解决方案的上市时间越来越重要,我们已经踏出了加速模型训练的一步。其中一个解决方案是将Spark和scikit-learn中的元素组合,变成我们自己的融合解决方案。