DAT :成功申报中国科协开源评选

DAT :成功申报中国科协开源评选,第1张

DAT :成功申报中国科协开源评选

恭喜DAT :成功申报中国科协开源评选

中国科协首届2021“科创中国”开源创新榜评选正在进行中,全程免费参与,对于申报成功的开源产品/社区/机构,主承办方会组织各种形式的宣传报道。

  • DAT :开源的自动机器学习工具套件包
  • DAT :成功申报中国科协开源评选

开源项目介绍 简介

DataCanvas AutoML Toolkit(DAT)是一个自动机器学习工具套件包,包含了一系列功能强大的 AutoML 开源工具,从底层的通用自动机器学习框架到用于结构化及非结构化领域端到端的自动建模工具。DAT 的工具栈可以分为三层:首先是最底层的 AutoML 框架 Hypernets、机器学习和深度学习框架,中间是 AutoML 工具如 DeepTables、最上层是应用工具:HyperGBM、HyperDT、HyperKeras、Cooka。

解决难点

作为降低AI建模门槛的AutoML工具,DAT率先突破机器学习建模过程中“不均衡、概念漂移、泛化能力和大规模数据”4大难点:

1. 不均衡

使用降采样的方法防止主类过拟合,同时通过多种样本生成的方法去修补小类数据的真实分布,防止小类上面的欠拟合。

2. 概念漂移

针对概念漂移的问题,会用一种受生成对抗网络(GAN)启发的半监督学习技术“对抗验证(Adversarial Validation)”的方法,在建模之前就能够有效的识别哪些特征发生了漂移,然后针对性的做一些处理,这样就会提高整个模型的线上的一个稳定性,有效防止模型退化问题。

3. 泛化能力

对于提升泛化能力,会通过自动特征工程中有针对性的特征筛选,在建模过程中会对一些正则化的参数进行优化,还有通过模型融合Ensemble这样一系列的组合拳来提高模型整体的泛化能力。并引入了一些半监督的学习技术,像是伪标签学习,在结构化数据中使用伪标签学习也是相对比较先进的一种方式。

4. 大规模数据

底层的计算引擎和整个的系统架构上用分布式的架构,同时能够支持基于单机模式的训练,也可以支持分布式集群的模式来训练,整个的系统架构可以横向伸缩,满足任意量级的数据规模。

功能概述

整个DAT的工具站,从面向任务来分,同时可以覆盖结构化、以及非结构化;从面向人群来分,即可以面向于专业的AI从业人员,也可以让没有专业AI背景的人员,利用AutoML有相应的工具可以使用,即可以满足AI使用者的需求,还有面向AutoML工具开发者的相应框架。

其中,Hypernets作为一个自动机器学习的底层通用框架,满足单节点及分布式高性能的模型训练需求,可以在不同的空间进行搜索与训练,结合各种机器学习和深度学习框架开发专用自动机器学习工具,帮助用户快速开发专用领域的AutoML工具。

基于Hypernets框架,九章云极DataCanvas自主研发的HyperGBM不仅能够解决生产化困扰,同时实现了数据预处理、特征衍生、特征筛选、模型超参数优化、模型选择、模型融合全过程的全自动机器学习,仅需5行代码就可以实现高质量的模型,拥有开箱即用、简单易用等特点,解决企业在结构化数据建模的需求。

为避免共性问题重复开发,其研发的HyperKeras支持神经网络架构搜索和超参数优,专注非共性问题,实现灵活高效扩展。

未来展望

此外,九章云极DataCanvas对AutoML技术不断探索,开源项目DeepTables荣获全球知名国际性竞赛第一名,全新定义了深度学习技术在结构化数据分析领域的价值。DAT从不同角度和各个层面全方位地释放AutoML能力,融入千行百业,为用户来赋能。

活动火热进行中,点击链接赶快申报吧:申报链接

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5638827.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存