首页
学习
活动
专区
工具
TVP
发布

大数据及人工智能

专栏成员
19
文章
27813
阅读量
13
订阅数
PySpark任务依赖第三方python包的解决方案
在使用大数据spark做计算时,scala开发门槛比较高,一般多会去使用Spark Sql 和PySpark,而PySpark进行个性化开发时,需要引入第三方python包,尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等,安装这些依赖是一个非常痛苦的过程,尤其是涉及到需要在整个spark集群中去运行,不可能每个节点环境都是一致,也不可能去修改机器上的包依赖了。
house.zhang
2022-03-31
3.3K0
基于Pytorch多机分布式训练的实现
由Uber公司的开发的Horovod架构,是一个集成了多个深度学习的统一平台,提供分布式训练效率的同事,让深度学习分布式训练变得更方便。
house.zhang
2022-03-28
1.4K0
大数据AI Notebook产品介绍和对比
大数据数据需要查询分析可视化工具,AI数据挖掘和探索也需要相关可视化编辑工具,开源产品主要有两个一个是Zeppelin notebook 一个是jupyter notebook,其中juypter主要用于数据科学家、算法分析人员使用python进行数据分析、算法建模,相关企业如aws、百度、腾讯都有基于jupyter notebook去进行定制化开发,zeppelin notebook比较偏重于大数据数据查询分析可视化,支持多种大数据计算引、存储引擎擎如:Spark、Flink、Hive、Kylin等,现在对这两个产品进行介绍
house.zhang
2022-03-24
1.5K0
大数据Ambari自定义服务详细介绍
四年多前,入职一家大厂大数据部门主要工作就是从ambari集成大数据组件服务开始做起,当时需要把机器学习平台集成到大数据平台,当时把ambari进行了大量的修改,形成了一套完整的私有化平台,不仅是换了一层皮肤,而且把企业当中自研的组件和服务也集成进来,还在上面加入了用户登陆体系、安全认证体系、监控告警体系、license管理、自动增机器,在我看来应该是ambari最深入使用的一波人了。
house.zhang
2022-03-23
1.7K0
关于大数据Flink内存管理的原理与实现
最近几年国内大数据apache开源社区计算框架最火的莫过于Flink,得益于阿里在后面的推动以及各大互联网大厂的参与,flink业已成为流式计算事实上的标准。一句话来介绍 Flink 就是 “Stateful Computations Over Streams”,基于数据流的有状态计算。flink的四个基石:Checkpoint、State、Time、Window。
house.zhang
2022-03-11
6090
浅谈AI机器学习及实践总结
机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)
house.zhang
2022-03-08
1.8K3
在线学习FTRL介绍及基于Flink实现在线学习流程
目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->模型训练->模型评估-> 并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈:模型更新周期慢,不能有效反映线上的变化,最快模型更新都需要小时级别,一般是天级别甚至周级别。另外一个是模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。
house.zhang
2022-03-02
1.2K0
Flink on K8s 企业生产化实践
为了解决公司模型&特征迭代的系统性问题,提升算法开发与迭代效率,部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题,在大数据与算法间架起科学桥梁,提供强有力的样本及特征数据支撑。平台从 Hive 、Hbase 结合关系型数据库等大数据 ODS ( Operational Data store ) 层、DWD、DWS层进行快速的数据 ETL ,将数据抽取到特征平台进行管理,并统一了数据出口,供数据科学家、数据工程师、机器学习工程师做算法模型的数据测试、训练、推理及其他数据应用。
house.zhang
2022-03-02
1.8K0
Java Hive UDTF 将WKT格式的Geomotry转换成GeoJSON
WKT(Well-known text)是一种文本标记语言,用于表示矢量几何对象、空间参照系统及空间参照系统之间的转换。它的二进制表示方式,亦即WKB(well-known-binary)则胜于在传输和在数据库中存储相同的信息。
house.zhang
2021-12-27
9770
机器学习起步-数据收集及预处理常见的流程
数据是机器学习的燃料,数据预处理就是为机器学习模型提供好燃料,数据好,模型才能跑得更带劲。。
house.zhang
2021-12-02
2.4K0
三分钟了解下机器学习
机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)
house.zhang
2021-12-01
5450
jupyter notebook安装部署及实战组合漏斗图绘制
大多数互联网企业都提供有类似Notebook类的产品,采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin进行定制化开发,重点会打通大数据计算、存储及底层资源管理,支持常见的机器学习和深度学习计算框架,算法分析及建模中最常见的是采用jupyter notebook,能够在浏览器中,通过编写python脚本 运行脚本,在脚本块下方展示运行结果。
house.zhang
2021-12-01
1.1K0
三分钟了解下机器学习
机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)
house.zhang
2021-11-25
2970
构建可靠、可扩展与可维护的应用系统
当前的应用系统,通常数据量比较大、数据复杂度比较高以及数据快速多变,可以把这样的系统称之为数据密集型系统,数据密集型系统通常基于不同的模块组件进行构建,根据不同的功能采用不同的组件,各个组件相互配合组合成一个功能强大、满足不同需求场景的应用系统,比如一个互联网系统通常由类似以下结构组成:
house.zhang
2021-10-28
7530
线上ES集群提高读写能力的大致方案
业务在使用ES集群读取ES数据,如果同时向ES集群写任务时,会遇到RT涨的情况,会出现一些抖动,尤其是在计算框架大量增加并发度像ES集群写的情况下会出现抖动,目前的话是大数据计算集群减少并发写。以后还是期望增加并发度,加快写入速度,预期会对ES集群读性能带来挑战
house.zhang
2021-10-12
1.5K0
多次装K8S集群后整理的一键安装脚本及配置说明
去年从腾讯出来,换了家企业,涉及到一些安装运维工作,其中大数据AI产品需要落地,在大厂腾都有现成的可以用,来到这都没有K8S集群,后面需要借助k8s落地,就需要从头开始从K8S集群搭建开始做起,然后公司的业务涉及到海内外还分了开发、测试、预发布等多套K8S集群。采用kubeadm安装集群非常方便,只不过安装前还需要做些前置的系统配置,如果构建多个节点的集群会涉及到一些重复操作, 这时候最好编写成一个脚本快速的安装部署,这里整理个安装脚本。
house.zhang
2021-09-15
2.8K0
HDFS 是如何实现大数据高容量、高速、可靠的存储和访问的。
对于一个企业大数据应用来说,搞定了大数据存储基本上就解决了大数据应用最重要的问题。Google 三驾马车的第一驾是GFS,Hadoop最先开始设计的就是HDFS,可见分布式存储的重要性,整个大数据生态计算框架多种多样,但是大数据的存储却没有太大的变化,HDFS依旧是众多分布式计算的基础。当然HDFS也有许多缺点,一些对象存储等技术的出现给HDFS的地位带来了挑战,但是HDFS目前还是最重要的大数据存储技术,新的计算框架想要获得广泛应用依旧需要支持HDFS。大数据数据量大、类型多种多样、快速的增长等特性,那么HDFS是如何去解决大数据存储、高可用访问的了?
house.zhang
2021-08-26
1.9K0
三分钟了解下大数据应用方向
提到大数据搜索,作为全球最大的搜索引擎google,同时也是我们公认的大数据的鼻祖。储着全球万亿网页数据,发明了GFS分布式文件系统,也是因为他抓取几乎所有能访问的网页 以及采用pageRank做网页排名发明了MapReduce分布式计算框架,有了谷歌的探索才有了后来大数据搜索应用的百花齐放。
house.zhang
2021-08-23
1.4K0
三分钟了解下大数据技术发展史
我们常说的大数据技术,大致主要起源于Google在2004年前后发表的三篇论文,其实数据处理早就存在,每个公司或者个人都有自己的大数据处理系统,并没有形成编程框架和理念,而这三篇论文也就是我们熟知的大数据三驾马车,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库BigTable,这三篇论文影响了当今大数据生态,可以称得上大数据的基石,Doug cutting大佬在基于谷歌的三篇论文开发出了hadoop hdfs分布式文件存储、MapReduce计算框架,实际上从hadoop开源代码中窥见大数据并没有多么高深的技术难点,大部分实现都是基础的java编程,但是对业界的影响是非常深远的。那个时候大多数公司还是聚焦在单机上,如何尽可能提升单机的性能,需求更贵的服务器,谷歌通过把许多廉价的服务器通过分布式技术组成一个大的存储、计算集群给业界应对存储计算问题提供了新的发展思路。
house.zhang
2021-08-20
8630
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档