首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基于spark的数据采集平台

数据采集平台管理端 https://github.com/zhaoyachao/zdh_web 数据采集平台服务 https://github.com/zhaoyachao/zdh_server web...平台介绍 数据采集,处理,监控,调度,管理一体化平台具体介绍请看github连接中的readme 文档 # 数据采集,处理,监控,调度,管理一体化平台 # 提示 zdh 分2部分,前端配置...保持同步 大版本会同步兼容 如果zdh_web 选择版本1.0 ,zdh_server 使用1.x 都可兼容 # 特色 开箱即用 支持多数据源 高性能数据采集 单独的调度器...,redis,kafka,hbase,es,sftp,hive) + 数据加密 + 数据转换,数据离线同步,实时数据同步 + 质量检测 + 元数据,指标管理 + drools灵活动态的数据清洗...# 主要功能 zdh 主要的作用 是从hdfs,hive,jdbc,http-json接口 等数据源拉取数据,并转存到hdfs,hive,jdbc等其他数据源 支持集群式部署

74410
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    大数据平台搭建:基于Hadoop的数据分析平台

    15.jpg 企业要进行大规模的数据分析,基于开源的Hadoop及其生态圈来搭建起大数据系统平台,无疑是一种低成本高效率的选择。...Hadoop大数据平台 Hadoop在大数据技术生态圈,经过这么多年的发展,基础核心架构的地位,依然稳固。...Hadoop系统的可伸缩性、健壮性、计算性能以及低成本,使得它事实上已成为当前互联网企业主流的大数据分析平台解决方案。 基于Hadoop,可以根据企业实际的业务需求,来进行数据系统的规划和设计。...针对不同的具体需求,采用不同的数据分析架构和框架组件来解决实际问题。 大数据分析平台需求规划 按照数据分析的时效性需求,大数据分析可分为实时数据分析和离线数据分析两种。...在这类场景下,Hadoop无疑是就是低成本的高效解决方案了。 9.jpg 关于大数据平台搭建,基于Hadoop的数据分析平台,以上就是今天的分享内容了。

    2.1K1410

    基于Kubernetes优先的方法扩展数据平台

    数据平台是现代数据驱动型组织的核心,它能够大规模地集成、管理和分析数据。...无论是基于云的、本地部署的还是混合的,它都将来自各种来源(交易和运营、内部和外部)的数据集中存储,并供应用程序(主要用于机器学习、分析和报告)进行处理和访问。...数据平台为从金融交易到社交媒体信息流的一切提供动力。 随着应用程序和数据需求的发展,它们需要低延迟、可扩展的性能,并且不能停机。...Kubernetes 内部数据平台的新时代 在您自己的 Kubernetes 部署中运行数据平台提供了几个引人注目的优势,特别是对于已经标准化该系统的组织。...Operators使组织能够构建自己的自愈型自动化数据平台,提供更大的灵活性和成本节约以及对数据基础设施的控制。

    11210

    腾讯音乐基于 Apache Doris + 大模型构建全新智能数据服务平台

    当平台融入大模型后,平台用户输入的问题会进入大模型进行语义解析,自动转化为 SQL 语句触发 OLAP 引擎开启数据分析与查询。...大模型 + OLAP 引擎结合的全新数据服务模式,不仅为平台用户提供了个性化、灵活表达、秒级回复的服务体验,还大幅降低了企业内部技术与业务学习成本,加速数据分析效率,实现多端入口统一、界面统一的平台构建...大模型 + OLAP :开启数据服务平台新模式 在大模型 + OLAP 架构方案中,目前经典方案如下图所示,大模型充当中间层将用户输入的自然语言转化为 SQL 执行语句,OLAP 作为底层存储和数据处理的引擎...同时大模型整体按照 Token 收费,使用量增加时也会导致平台成本升高。 私域知识无法识别: 虽然大模型已经开展许多公开数据集的语言转换训练,但面对企业内部的大量专业术语仍无法很好地理解转化。...平台基于大模型 + OLAP 的模式加速业务分析效率,减少技术开发成本,向智能化、个性化、实时化的全新业务服务模式更近一步。

    88020

    JuiceFS 在大搜车数据平台的实践

    大搜车已经搭建起比较完整的汽车产业互联网协同生态。...在这一生态中,不仅涵盖了大搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网,还包括大搜车旗下车易拍、车行168、运车管家、布雷克索等具备较强产业链服务能力的公司..., 与大搜车在新零售解决方案上达成深度战略合作的长城汽车、长安汽车、英菲尼迪等主机厂商,以及与中石油昆仑好客等产业链上下游的合作伙伴。...基于这样的生态布局,大搜车数字化了汽车流通链条上的每个环节,进而为整个行业赋能。 说到大数据,对于每个公司都不陌生。...大数据集群现状 大搜车目前大数据集群分为离线计算集群和实时计算集群,离线计算基于 Hive 和 Spark,实时计算基于 Flink,这两类集群分别基于 HDP 和 CDH 两套管理方式。

    1.8K50

    基于Ambari构建自己的大数据平台产品

    我们公司最初是使用CDH的环境,近日领导找到我让我基于Ambari做一个公司自己的数据平台产品。...后来想想如果公司如果有自己数据平台的产品后续在客户面前也能证明自己的技术实力且我个人也能从源码级别更深入的学习了解大数据生态圈的各个组件。   个人在公司的数据平台从无到有的这个过程。...认为建设一个自己的数据平台应该包含三个部分。包括基础设施建设、大数据平台建设、业务系统数据接口三部分组成。...批处理针对于数据仓库,通过采集程序、对接业务系统或收集业务系统日志等数据,数据存储底层使用分布式文件系统HDFS,基于多种业务需求构建数据仓库用于多维度数据分析。...对于对接的业务系统数据如果有操作型数据可以构建ODS系统。用于数据分析的数据(含采集数据和对接业务数据)在Hadoop上构建数据仓库。 2.2. 数据仓库模块   基于Hadoop之上构建数据仓库。

    1.5K30

    大数据分析:基于Hadoop的数据分析平台

    互联网的发展,带来了各种数据的爆发式增长,所以接入互联网的相关操作行为,都化为虚拟的数据被记录了下来。...大数据时代的带来,一个明显的变化就是全样本数据分析,面对TB/PB级及以上的数据规模,Hadoop始终占据优势。今天的大数据学习分享,我们来聊聊基于Hadoop的数据分析平台。...Hadoop系统的可伸缩性、健壮性、计算性能以及低成本,使得它事实上已成为当前互联网企业主流的大数据分析平台。 基于Hadoop平台,可以根据实际的业务需求,来进行数据系统的规划和设计。...针对不同的具体需求,采用不同的数据分析架构来解决实际问题。 按照数据分析的实时性,分为实时数据分析和离线数据分析两种。...对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。

    1.9K20

    Amas:基于大数据平台技术开发的统一监控平台

    EaconTang 基于大数据平台技术开发的统一监控平台Amas开源项目核心开发者。...GitHub ID:EaconTang https://github.com/amas-eye/amas Amas是什么 Amas是基于大数据平台技术开发的统一监控平台,其特点包括: 全维度监控指标,覆盖从操作系统...、中间件、大数据平台(Hadoop/Spark/HBase/Kakfa等)到代码级别 可扩展、自定义的采集框架,支持不同语言(Python/Perl/Shell/...)开发的采集器 基于OpenTSDB...可分组聚合的告警信息,避免海量数据监控场景下的告警风暴 基于Jagger的分布式链路追踪数据提取和展示,历史事件可追溯 可对接基于机器学习的异常检测服务,落地AIOps智能运维 微服务架构,支持docker...ToDoList 告警引擎,支持DSL语言定义规则 集成开源的Zabbix、Nagios等监控数据 基于AspectJ的Java字节码注入监控 基于pyrasite的python字节码注入监控 更多AIOps

    3K30

    当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台

    当平台融入大模型后,平台用户输入的问题会进入大模型进行语义解析,自动转化为 SQL 语句触发 OLAP 引擎开启数据分析与查询。...大模型 + OLAP 引擎结合的全新数据服务模式,不仅为平台用户提供了个性化、灵活表达、秒级回复的服务体验,还大幅降低了企业内部技术与业务学习成本,加速数据分析效率,实现多端入口统一、界面统一的平台构建...大模型 + OLAP :开启数据服务平台新模式* * *在大模型 + OLAP 架构方案中,目前经典方案如下图所示,大模型充当中间层将用户输入的自然语言转化为 SQL 执行语句,OLAP 作为底层存储和数据处理的引擎...超音数平台框架构思* * *根据上述大模型 + OLAP 的四大解决方案进行了方案整合,以此进行框架设计并将其命名为超音数平台。...平台基于大模型 + OLAP 的模式加速业务分析效率,减少技术开发成本,向智能化、个性化、实时化的全新业务服务模式更近一步。

    64830

    当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台

    当平台融入大模型后,平台用户输入的问题会进入大模型进行语义解析,自动转化为 SQL 语句触发 OLAP 引擎开启数据分析与查询。...大模型 + OLAP 引擎结合的全新数据服务模式,不仅为平台用户提供了个性化、灵活表达、秒级回复的服务体验,还大幅降低了企业内部技术与业务学习成本,加速数据分析效率,实现多端入口统一、界面统一的平台构建...大模型 + OLAP :开启数据服务平台新模式 在大模型 + OLAP 架构方案中,目前经典方案如下图所示,大模型充当中间层将用户输入的自然语言转化为 SQL 执行语句,OLAP 作为底层存储和数据处理的引擎...超音数平台框架构思 根据上述大模型 + OLAP 的四大解决方案进行了方案整合,以此进行框架设计并将其命名为超音数平台。...平台基于大模型 + OLAP 的模式加速业务分析效率,减少技术开发成本,向智能化、个性化、实时化的全新业务服务模式更近一步。

    50930

    英伟达发布基于Xavier处理器的三大AI平台

    Nvidia还宣布了其DRIVE AI平台的三种新变体,这三种变体都基于Xavier SoC(系统级芯片)。...DRIVE AR为开发者提供了一种SDK,可以让开发人员利用计算机视觉、图形和人工智能开发新的驾驶功能,比如覆盖有关路况的信息、兴趣点以及使用交互式车载显示的其他真实世界的位置。...英伟达在Xavier的基础上推出的三个新平台中的另一个——DRIVE IX,将进一步简化车内人工智能助手构建和部署,同时具备内部和外部传感器数据的功能,不仅可以与司机互动,还可以与路上的乘客互动。...所有的汽车制造商最终都有可能拥有自己的汽车专用的AI助手,而Nvidia可能将借助DRIVE IX的成为其中的巨大推动力。 最后一个平台实际上是对其现有自主出租车大脑——Pegasus的修改。...新的Pegasus改进了之前的版本,将两个Xavier SoC和两个英伟达GPU封装成一个包,这个包的大小相当于一个汽车牌照的大小。

    88860

    007.基于CentOS7.8安装Ambari2.7+HDP3.1大数据平台

    Ambari-Server、Ambari-Agent、Apache、MySQL hdp02 数据节点 Ambari-Agent hdp03 数据节点 Ambari-Agent hdp04 数据节点 Ambari-Agent.../data目录,/data目录的磁盘是独立挂载的大容量磁盘 datadir=/data/mysql character_set_server=utf8mb4 character-set-client-handshake...Anywhere [7] - BDB ============================================================================== # 在选择数据库的环节...Ambari+HDP大数据平台部署 4.1 部署Ambari集群和HDFS集群 ? ? ? 接着要把滚动条往下拉,把无用的其他操作系统的仓库删掉: ?...剩余的组件的安装都是一样的,有需要的话直接在页面操作安装即可,要注意的就是需要修改日志目录和数据目录。 至此,Ambari2.7+HDP3.1大数据平台就安装部署完成了!

    2.3K33

    JSW - 基于WEB的MSSQL数据库查询平台

    一般做法都是: 通过数据库账号限制查询人员、限制查询的表和字段。但不好统计开发人员都查询了什么数据 使用跳板机,所有查询都要在跳板机上进行。进出跳板机数据文件要过审查机制。...第三级基本都是基于WEB的系统,查询语句入库限制查询结果,并记录用户查询SQL。 我们想使用第三级,但能支持的数据库只有MySql没有发现能支持微软SqlServer的。...使用druid数据库连接池 数据库记录每次SQL执行脚本,并限制返回的结果数量 支持查询结果的csv格式导出 脚本输入框语法高亮,智能提醒 存储过程查看,表数据大小快速查看 项目部署 环境安装 本项目使用...首选我们看如何增加待管理的数据库服务器,选择服务器管理=>增加服务器。在弹层中添加你的服务器相关信息。 我们顺便给平台在增加一个用户。点击账号管理=>增加用户,在弹层内输入新用户的账号和密码即可。...后台日志:经过几次的试用可以去往后台的查询日志。可以看到用户的数据执行情况。

    2.5K10

    基于AI技术的大数据安全审计平台研究

    系统的解决大数据安全,必须建设一套符合大数据平台自身特点的事后安全审计体系,以统筹解决安全威胁,并进行系统性的安全威胁消除。...通过借鉴国内外大数据平台安全体系建设经验,参考业界前沿的安全技术手段和经验,我们提出了数据安全审计层进建设体系。该体系以组织架构为基础,通过组织架构的信息需求,建立大数据安全审计框架。...该安全审计框架自底向上依次建设“内容计算层、要点审计层、目标分析层”,并在建设过程中引入AI技术,构建基于AI技术的数据安全审计平台。...通过利用两种算法的特性,所取到的结果数据有一定的差异,在K-Means贴合行为分类的基础上,DBSCAN的噪点数据更加符合风险用户特性,因此采用两者结果集,使用取二者交集的方法获得复合需要的结果数据。...基于聚类算法与故障树算法相结合,依据ISO/IEC 27002 标准的层次结构建立故障树,过程如下。

    2.9K230

    基于CDH(Cloudera Distribution Hadoop)的大数据平台搭建

    “Apache Hadoop存在版本管理混乱、部署过程繁琐、升级过程复杂、兼容性差、安全性低等问题,CDH是Hadoop商业发行版之一,本文介绍基于Cloudera Manager的Cloudera...Hadoop 6.1.0大数据平台搭建,简单易上手 ” 基础环境准备 1、CM和CDH包 准备cm的rpm包,cdh的parcel包,第1个链接内的需要完全下载,第2个链接内根据linux版本(centos6...192.168.242.134/cm-6.1.0,能够访问则成功; ② 制作本地yum源 #下载yum源工具包 yum -y install yum-utils createrepo # 在cm-6.1.0目录下生成rpm元数据...安装CDH 1、安装Cloudera-manager 这里使用默认的pgsql作为元数据库,可以自己安装mysql库,并将其作为元数据库; # ① 安装必要rpm包 cd /var/www/html...2、配置cdh中的大数据相关组件 按照指引进行,记住数据库的登录名和密码; ? 初始化组件安装时容易出现主机资源不足,前期应该给cm节点足够的存储空间; ?

    1.1K30

    开源基于.NET8管理平台,支持智慧大屏

    软件介绍 RuYiAdmin是一款强大的企业级WEB RBAC统一安全管理平台解决方案,具有前后端分离、代码自动生成、基于.NET 8平台和跨平台等特点。...此外,它还集成了VForm表单设计器,支持PC、Pad、手机H5页面表单的设计与预览。 强大的后端框架:RuYiAdmin采用.NET 7平台作为后端框架,并支持跨平台和Linux Docker。...它还支持锁屏、水印,以及按钮和视图的可见性控制。RuYiAdmin还提供了按钮和视图级别的颗粒授权,支持权限下放。另外,软件支持视图层业务的多语、敏感数据通信加密和智慧大屏幕等功能。...数据库和中间件支持:软件支持多种关系数据库,包括MySQL、SQL Server、Oracle、PostgreSQL和OpenGauss等。...此外,它还支持非关系型数据库,如Redis、MongoDB、Elasticsearch和Meilisearch等。RuYiAdmin还内置了可视化的ER关系模型、数据库初始化脚本和自动构建数据库功能。

    41210

    基于大模型的多模态数据融合实战应用

    基于大模型的多模态数据融合实战应用引言多模态数据融合是当前人工智能(AI)研究的热门领域,涉及文本、图像、音频、视频等多种数据类型的集成。...随着大型语言模型(LLM)和多模态大模型(如GPT-4V、BLIP-2、Flamingo等)的发展,AI 在处理多模态数据的能力得到极大提升。...本文将探讨基于大模型的多模态数据融合方法,并通过 Python 代码示例演示如何构建多模态应用。...基于大模型的多模态数据融合案例我们以 BLIP-2(Bootstrapped Language-Image Pre-training) 为例,展示如何使用大模型进行图像和文本的多模态融合。...结合两者,形成完整的语音+文本融合应用。多模态融合的应用场景基于大模型的多模态数据融合可以应用于多个领域,包括:智能问答:图像+文本结合,支持输入图片进行描述或问答(如 GPT-4V)。

    28110

    大快DKH大数据基础数据平台的监控参数说明

    2018年国内大数据公司50强榜单排名已经公布了出来,大快以黑马之姿闯入50强,并摘得多项桂冠。Hanlp自然语言处理技术也荣膺了“2018中国数据星技术”奖。对这份榜单感兴趣的可以找一下看看。...本篇承接上一篇《DKM平台监控参数说明》,继续就大快的大数据一体化处理架构中的平台监控参数进行介绍和说明。 DKhadoop大数据处理平台架构的安装相关文章已经分享过,详细的内容可以找一下看看。...今天就把剩下的一些监控参数一起介绍完,关于大快大数据处理平台监控参数的介绍就完整了。...1、Yarn监控界面 (1) 执行失败的应用程序 图片1.png 监控 yarn资源管理中总执行失败的应用程序数量 纵轴表示应用程序数量,单位个 横轴表示时间,单位分钟 (2)已提交的应用程序 图片...资源管理中被杀死的应用程序数量 纵轴表示应用程序数量,单位个 横轴表示时间,单位分钟 2、Spark监控界面 注意:(spark 运行任务后才有监控数据) (1) 最大可使用内存 图片7.png 监控

    1.2K20
    领券