TXangel平台是TX大数据的第三代合计平台。TXangel平台运用Java以及Scala语言开拓,面向机械学习的高功能扩散式合计框架,接管参数效率器架构,处置了上一代框架的扩展性下场,反对于数据并行及模子并行的合计方式,能反对于十亿级别维度的模子磨炼。
TXangel平台简介:
Angel还接管了多种业界最新技术以及TX大数据自主研发技术,如SSP(Stale synchronous Parallel)、异步扩散式SGD、多线程参数同享方式HogWild、收集带宽流量调解算法、合计以及收集恳求流水化、参数更新索引以及磨炼数据预处置妄想等。这些技术使Angel功能大幅后退,抵达罕有开源零星Spark的数倍到数十倍,能在万万到十亿级的特色维度条件下运行。
TXangel平台特援用见:
一、ParameterServer 功能
基于 Matrix/Vector 的模子自动切分以及规画,统筹浓密以及浓密两莳格式
反对于对于 Model 妨碍 Push 以及 Pull 操作,可能自界说重大的 psFunc
提供多种同步操作机制(BSP/SSP/ASP)
二、开拓运行
语言反对于:零星基于 Scala 以及 Java 开拓,用户也可能逍遥抉择
部署利便:可能直接在 Yarn 社区版本中运行,也反对于当地调试方式
数据切分: 自动切分读取磨炼数据,默认兼容了 Hadoop FS 接口
增量磨炼:磨炼历程中会自动 Checkpoint,而且反对于加载模子后,增量磨炼
三、PS Service
只启动 PSServer 以及 PSAngent,为其余扩散式合计平台提供 PS 效率
基于 PS-Service,不需要更正 Spark 中间代码,直接开拓 Spark-on-Angel 算法,该方式无缝反对于 Breeze 数值运算库
四、算法库
集成 Logistic Regression,SVM,KMeans,LDA,MF,GBDT 等机械学习算法
多种优化措施,搜罗 ADMM,OWLQN,LBFGS 以及 GD
反对于多种损失函数、评估目的,搜罗 L一、L2 正则项
五、算法优化
LDA 接管了 F+LDA 算法用于减速采样的速率,同时运用流式参数取患上的措施削减收集参数取患上的延迟
GBDT 运用两阶段树割裂算法,将部份合计转移到 PS,削减收集传输,提升速率