首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据技术分享:十开源的大数据技术

数据已然成为当今热门的技术之一,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点受欢迎的十开源的大数据技术。 ?...1.Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。...3.NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。...两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。 ? 4.Apache Hive 2.1——Hive是建立在 Hadoop 上的数据仓库基础构架。...它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。

85930

数据技术分享:十开源的大数据技术

数据已然成为当今热门的技术之一,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点受欢迎的十开源的大数据技术。 ?...1.Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。...3.NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。...两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。 ? 4.Apache Hive 2.1——Hive是建立在 Hadoop 上的数据仓库基础构架。...它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。

1.3K31
您找到你想要的搜索结果了吗?
是的
没有找到

蚂蚁技术开源看点:专攻“卡脖子”,扎根“基础软件”

蚂蚁开源发展了十几年,积累了近900个开源仓库,近百个社区头部开源项目。开源技术领域涉及:数据库、操作系统、隐私计算、云原生等核心基础技术领域。...2 开源基础软件技术 真正携手行业实现技术突破 我们认为,基础软件技术开源,对行业突破技术瓶颈,乃至国家解决卡脖子技术难题有着至关重要的作用。...目前蚂蚁开源的自研核心技术包括:四系统软件技术、两应用基础软件技术。 系统软件方面,蚂蚁最广为行业所知的是开源技术是 OceanBase。...数据库作为最为复杂、跨技术领域最多的关键基础软件,在数字经济时代其战略性、基础性的地位更加凸显。过去十年,OceanBase一直在尝试攻克数据库特别是原生分布式数据库领域的“卡脖子”难题。...下个月,我们也即将开源蚂蚁大规模图计算数据库TuGraph。TuGraph是蚂蚁从2015年起开始布局的基础软件技术。去年“大规模图计算系统GeaGraph”项目,入选世界互联网领先科技成果。

30420

【盘点】十最受欢迎的开源数据技术

幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十开源的大数据技术开源技术   1.Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS...和基础架构,并且运行主要的大数据服务和应用程序。   ...两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。   4.ApacheHive2.1——Hive是建立在Hadoop上的数据仓库基础构架。...2.Cloudera Cloudera有开源Hadoop的发行版,这个发行版采用了Apache Hadoop开源项目的很多技术,不过基于这些技术的发行版也有很大的进步。...Pivotal一直努力构建一个性能优越的Hadoop发行版,为此,Pivotal在开源Hadoop的基础上又添加了一些新的工具,包括一个名为HAWQ的SQL引擎以及一个专门解决大数据问题的Hadoop应用

1.6K90

2021年数据基础(五):​​​​​​​​​​​​​​​​​​​​​分布式技术

---- 分布式技术 为什么需要分布式 计算问题 无论是我们在学校刚开始学编程,还是在刚参加工作开始处理实际问题,写出来的程序都是很简单的。因为面对的问题很简单。...以处理数据为例,可能只是把一个几十K的文件解析下,然后生成一个词频分析的报告。很简单的程序,十几行甚至几行就搞定了。 直到有一天,给你扔过来1000个文件,有些还特别,好几百M了。...前者很容易到瓶颈,毕竟数据无限,而一台机器的容量有限,所以在大数据量的情况下,只能选后者。把数据分散到多台机器,本质上解决的是存不下的问题。...同时,刚才提到计算分布式化后,总不能所以程序都去同一台机器读数据吧,这样效率必然会受到单台机器性能的拖累,比如磁盘 IO、网络带宽等,也就逼着数据存储也要分散到各个机器去了。...基于这两个原因,数据存储也分布式起来了。 分布式系统概述 分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。

69210

2023开源技术报告——数据技术

图片 最近几年,中国的开源技术开源社区步入了发展的快车道,其主客观的原因很多,包括: 国家政策的支持:中国政府在近年来陆续出台了一系列政策来支持开源技术开源社区的发展,例如《政府开放数据条例》、《关于鼓励支持互联网...从操作系统和框架到数据技术、自动化工具和编程语言,开源软件无处不在,并嵌入到我们最关键的基础设施系统和经济部门中。 ...本文中,我们截取开源技术中的数据技术篇,向大家展示在开源领域最受欢迎的大数据技术是哪些,在每个行业中的应用情况,以及企业用户在使用中的痛点。...顶级开源数据技术 ----- 在我们的数字时代,数据为王,而更好地管理数据的需要导致了开源数据技术的激增,技术的扩散。这些技术远远超出了传统数据库的能力。...图片 AI/ML对开源数据技术的影响 人工智能/ML应用在很大程度上驱动了对开源数据技术的使用增长,因为人工智能/ML模型 是通过大量的数据来训练的。下图显示,一些行业继续使用基于SQL的数据库。

1.7K151

数据安全技术基础

安全四要素 机密性 完整性 身份验证 不可抵赖 机密性-数据加密 结局数据机密性的问题 > 算法的分类 【对称加密】: 原理:加密和解密适用同一个密钥,数据传输之间需要先在网络中传输密钥,一旦密泄露,...数据安全就得不到保障,会泄露 【非对称加密】: 原理:将密钥分为两种,公钥和私钥,公钥在网络中传播,私钥为独立保存的秘钥,不再在网络中公开 他的安全性高,但是处理的效率比较低 【混合加密】: 原理:使用非对称加密来保护对称加密的密钥协商阶段...使用对称加密密钥来保护数据传输 完整性-数字签名 一次性解决两个问题,数据完整性,和身份验证 工作原理: 数据发送方根据报文摘要计算出Hash值 数据发送方使用本端私钥对Hash值进行加密后,附加在报文中传输...数据接收方使用发送方的公钥对Hash值进行解密,解密成功,则确认对方身份,解密失败,则判断身份伪造 数据接收方对报文摘要自行计算出Hash值,与发送方附加的Hash值进行对比,对比一致,则数据完整,对比不一致...,则判断数据被篡改 不可抵赖-数字证书 非对称和数字签名本身无法验证公钥真伪 需要第三方全为机构来下发和管理公钥 数字证书由证书机构下发 包含用户身份、用户公钥、根证书签名 PKI体系 定义:一个签发证书

39220

数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。...Hadoop作为数据分布式处理系统的典型代表,形了成完整的生态圈,已经成为事实上的大数据标准,开源数据目前已经成为互联网企业的基础设施。...HDP好处是完全开源,可以在其基础上进行二次开发,但对于技术比较薄弱中小型企业来说稳定性没有CDH高。2018年10月Cloudera合并Hortonworks,方向暂时未知。...Swift构筑在比较便宜的标准硬件存储基础设施之上,无需采用 RAID(磁盘冗余阵列),通过在软件层面引入一致性散列技术数据冗余性,牺牲一定程度的数据一致性来达到高可用性和可伸缩性,支持多租户模式、容器和对象读写操作...相关网站:Apache Geode Neo4j:Neo4j是一个开源的高性能NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是由Neo技术使用Java语言完全开发的。

2K21

APE|全开源多模态基础感知模型

NLP论文投稿、LLM交流、论文直播群 编辑:李rumor 论文地址:https://arxiv.org/pdf/2312.02153 开源:https://github.com/shenyunhang.../APE Demo链接: https://huggingface.co/spaces/shenyunhang/APE_demo 简介:训练和推理代码以及模型权重全部开源!...数据配比: 我们使用了10中常见的开源数据集进行训练,包括通用检测分割数据(COCO、Objects365),长尾检测分割数据(LVIS),联邦标注的数据(OpenImages),指向性检测分割数据(VG...论文一共训练了四组模型: APE (A):基础版,基于DETA构建,并只在通常的检测和分割数据集上训练,包括COCO, LVIS, Objects365, OpenImages, and Visual...APE (B):APE (A)的基础上加入Visual Genome和COCO的指向性检测和分割数据进行训练。 APE (C):进一步加入大规模SA-1B数据集进行训练。

19310

APE|全开源多模态基础感知模型

NLP论文投稿、LLM交流、论文直播群 编辑:李rumor 论文地址:https://arxiv.org/pdf/2312.02153 开源:https://github.com/shenyunhang.../APE Demo链接: https://huggingface.co/spaces/shenyunhang/APE_demo 简介:训练和推理代码以及模型权重全部开源!...数据配比: 我们使用了10中常见的开源数据集进行训练,包括通用检测分割数据(COCO、Objects365),长尾检测分割数据(LVIS),联邦标注的数据(OpenImages),指向性检测分割数据(VG...论文一共训练了四组模型: APE (A):基础版,基于DETA构建,并只在通常的检测和分割数据集上训练,包括COCO, LVIS, Objects365, OpenImages, and Visual...APE (B):APE (A)的基础上加入Visual Genome和COCO的指向性检测和分割数据进行训练。 APE (C):进一步加入大规模SA-1B数据集进行训练。

16610

APE|全开源多模态基础感知模型

NLP论文投稿、LLM交流、论文直播群 编辑:李rumor 论文地址:https://arxiv.org/pdf/2312.02153 开源:https://github.com/shenyunhang.../APE Demo链接: https://huggingface.co/spaces/shenyunhang/APE_demo 简介:训练和推理代码以及模型权重全部开源!...数据配比: 我们使用了10中常见的开源数据集进行训练,包括通用检测分割数据(COCO、Objects365),长尾检测分割数据(LVIS),联邦标注的数据(OpenImages),指向性检测分割数据(VG...论文一共训练了四组模型: APE (A):基础版,基于DETA构建,并只在通常的检测和分割数据集上训练,包括COCO, LVIS, Objects365, OpenImages, and Visual...APE (B):APE (A)的基础上加入Visual Genome和COCO的指向性检测和分割数据进行训练。 APE (C):进一步加入大规模SA-1B数据集进行训练。

17210

腾讯开源技术揭秘,大波技术干货等你来!| 沙龙报名中

12月21日,深圳腾讯大厦,腾讯技术专家将聚焦在腾讯开源项目TencentOS tiny、TubeMQ、Kona JDK、TARS以及MedicalNet:3D,展开一场开源技术盛宴,带来腾讯开源最新成果...,与广大开发者共同探讨开源趋势。...活动信息 收获多多 收获腾讯开源技术一手“情报”,了解其最新进展和未来方向 收获腾讯开源技术应用和实践干货,更新开源技术知识库 收获与腾讯技术咖面对面交流机会,共同探讨开源发展新趋势 礼品多多 活动现场设置了抽奖环节...广东省深圳市南山区深南大道10000号)  公共交通 1,乘坐地铁1号线,深大地铁站下车,步行约1.3公里  2,乘坐19/21/36/42/70/79/113/369等,在深大北门2公交站下车,步行约500米  技术交流...扫描上方二维码添加小助手微信,回复“开源”  可提前进群与讲师及参会嘉宾互动交流  往期活动 高效智能运维沙龙(点此进入详情回顾) ?

36710

腾讯开源技术揭秘,大波技术干货等你来!| 沙龙报名中

12月21日,深圳腾讯大厦,腾讯技术专家将聚焦在腾讯开源项目TencentOS tiny、TubeMQ、Kona JDK、TARS以及MedicalNet:3D,展开一场开源技术盛宴,带来腾讯开源最新成果...,与广大开发者共同探讨开源趋势。...活动信息 收获多多 收获腾讯开源技术一手“情报”,了解其最新进展和未来方向 收获腾讯开源技术应用和实践干货,更新开源技术知识库 收获与腾讯技术咖面对面交流机会,共同探讨开源发展新趋势 礼品多多 活动现场设置了抽奖环节...广东省深圳市南山区深南大道10000号)  公共交通 1,乘坐地铁1号线,深大地铁站下车,步行约1.3公里  2,乘坐19/21/36/42/70/79/113/369等,在深大北门2公交站下车,步行约500米  技术交流...什么叫做开源治理呢?第一点,包括开源相关风险的治理;第二点是开源社区的治理,怎么把社区治理好。第三点是开源项目的治理。国内很多都是专注在项目技术上,而不是在治理上。

32320

腾讯开源技术揭秘,大波技术干货等你来!| 沙龙报名中

12月21日,深圳腾讯大厦,腾讯技术专家将展开一场开源技术盛宴,带来腾讯开源最新成果,与广大开发者共同探讨开源趋势。 活动信息 ?...收获多多 收获腾讯开源技术一手“情报”,了解其最新进展和未来方向 收获腾讯开源技术应用和实践干货,更新开源技术知识库 收获与腾讯技术咖面对面交流机会,共同探讨开源发展新趋势 礼品多多 活动现场设置了抽奖环节...另外就是,我发现国内对开源治理还有一些不理解的地方。什么叫做开源治理呢?第一点,包括开源相关风险的治理;第二点是开源社区的治理,怎么把社区治理好。第三点是开源项目的治理。...国内很多都是专注在项目技术上,而不是在治理上。这部分是我觉得国内开源还不够成熟的地方,还需要不断学习不断成长的地方。...—— 《开源社联合创始人刘天栋:开源社区重于代码,应避免“KPI”项目》 ? ? ? ? ?

47020

盘点5技术板块、洞察56个开源项目:InfoQ研究中心带你探秘中国开源数据

在中国数字化变革和数字经济发展背景的推动下,作为基础软件,数据库日益成为中国数字经济发展背后最重要的基础设施之一。在形势日益复杂的国际环境下,自主可控的行业共识也日益被中国技术界所认可。...InfoQ 研究中心研究发现目前中国开源数据库项目主要可以分为 5 技术板块,分别为关系型数据库、图数据库、时序数据库、空间 & 向量数据库和键值数据库。...与关系型开源数据库不同,非关系型开源数据库起步较晚,但其整体与云上和微服务等基础设施的适配度较高。在特定的非结构化数据计算场景下,数据计算能量也更大。...为了更好地了解国产开源数据库的发展情况,InfoQ 研究中心结合国内外两代码托管平台 GitHub、Gitee 的相关数据,从代码健康和社区活跃等角度分析现有开源数据库项目,并选取了获得 Gitee...TiDB 和 TDengine 则都采取了内容、活动、用户三运营方式相结合的方式,通过产品文档、视频教程、技术论坛、技术峰会等形式激发开源社区活力。

42630

Docker基础数据技术介绍

一、Docker数据管理大家在生产环境使用Docker部署项目的时候,基本都需要进行数据持久化、或多个容器间进行数据共享,这个就需要容器的数据管理来进行操作。...1.2 Docker数据持久化Docker数据持久化就是容器中的数据不会随着容器的结束而随之结束,在Docker中如果需要实现数据的持久化,前提把数据从Docker容器挂载到宿主主机上去。...1.2 容器中数据管理的方式数据卷(Data Volumes):容器内的数据直接映射到宿主主机环境数据卷容器(Data Volume Containers):使用特定容器维护数据卷二、数据卷的介绍数据卷是一个可供容器内部使用的特殊目录...2.3 数据卷的特点数据卷可以在容器之间实现共享和重用,容器间传递数据将变的高效方便对数据卷内数据的修改会立马生效,无论是容器内操作还是本地操作对数据卷的更新不会影响Docker镜像,解耦了应用和数据数据卷的生命令周期不受容器的影响...三、Docker数据卷常见的作用数据持久化:比如MySQL数据库,数据目录要挂载到宿主主机或者别的地方,否则MySQL容器删除你的数据也会随之删除。

45140

阿里大数据之路:数据技术总结

统一计算平台 3.2 统一开发平台 3.3 任务调度系统 3.4 特点 四、实时技术 4.1 流式技术架构 4.1.1 数据采集 4.1.2 数据处理 4.1.3 数据存储 4.2 流式数据模型 4.2.1...此类日志是最基础的互联网日志,也是目前所有互联网产品的两基本指标:页面浏览量(Page View,PV)和访客数(UniqueVisitors,UV)的统计基础。...日志分流与定制处理 采集与计算一体化设计 二、数据同步 2.1 数据同步基础 数据同步的三种方式: 数据直抽。 数据文件同步。 数据库日志解析同步。...四、实时技术 4.1 流式技术架构 架构分为数据采集、数据处理、数据存储、数据服务四部分。...4.1.2 数据处理 SQL语义的流式数据分析能力。 流式处理的原理:多个数据入口、多个处理逻辑,处理逻辑可分为多个层级逐层执行。 数据倾斜:数据量非常时,分桶执行。

80111

MOMENT:CMU发布首个开源的时间序列基础模型

MOMENT是美国卡内基梅隆大学(CMU)的研究者发布的首个开源大型预训练时间序列模型系列。...这个系列的模型(1)可以作为多样化时间序列分析任务(如预测、分类、异常检测和插补等)的基础构建块;(2)即插即用,即无需(或只需少量)特定任务的样本(例如,零样本预测、少样本分类等);(3)可以使用分布内和任务特定数据进行调优...实验效果 数据集方面,研究者使用了与 TimesNet 相同的数据集进行预测和插补。...无需任何针对数据的微调,MOMENT 可以学习不同数据类别的独特表示,并且在其表示上训练的 SVM 的性能优于除四种专为时间序列分类模型构建的方法外的所有方法,并且这些方法在每个单独的数据集上都进行了训练...总结 研究者发布了首个开源的时间序列基础模型系列——MOMENT,并且系统地解决了几个时间序列特有的挑战,这些挑战一直阻碍着对大规模多数据集预训练的广泛探索。

48210
领券