暂无搜索历史
在使用大数据spark做计算时,scala开发门槛比较高,一般多会去使用Spark Sql 和PySpark,而PySpark进行个性化开发时,需要引入第三方p...
由Uber公司的开发的Horovod架构,是一个集成了多个深度学习的统一平台,提供分布式训练效率的同事,让深度学习分布式训练变得更方便。
大数据数据需要查询分析可视化工具,AI数据挖掘和探索也需要相关可视化编辑工具,开源产品主要有两个一个是Zeppelin notebook 一个是jupyter ...
四年多前,入职一家大厂大数据部门主要工作就是从ambari集成大数据组件服务开始做起,当时需要把机器学习平台集成到大数据平台,当时把ambari进行了大量的修改...
最近几年国内大数据apache开源社区计算框架最火的莫过于Flink,得益于阿里在后面的推动以及各大互联网大厂的参与,flink业已成为流式计算事实上的标准。一...
机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)
目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->模型训练->模型评估-> 并在线上使用训练的有效模型进...
为了解决公司模型&特征迭代的系统性问题,提升算法开发与迭代效率,部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题,在大数...
WKT(Well-known text)是一种文本标记语言,用于表示矢量几何对象、空间参照系统及空间参照系统之间的转换。它的二进制表示方式,亦即WKB(well...
数据是机器学习的燃料,数据预处理就是为机器学习模型提供好燃料,数据好,模型才能跑得更带劲。。
大多数互联网企业都提供有类似Notebook类的产品,采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin...
当前的应用系统,通常数据量比较大、数据复杂度比较高以及数据快速多变,可以把这样的系统称之为数据密集型系统,数据密集型系统通常基于不同的模块组件进行构建,根据不同...
业务在使用ES集群读取ES数据,如果同时向ES集群写任务时,会遇到RT涨的情况,会出现一些抖动,尤其是在计算框架大量增加并发度像ES集群写的情况下会出现抖动,目...
去年从腾讯出来,换了家企业,涉及到一些安装运维工作,其中大数据AI产品需要落地,在大厂腾都有现成的可以用,来到这都没有K8S集群,后面需要借助k8s落地,就需要...
暂未填写个人网址