首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签大数据处理

#大数据处理

基于PHP扩展Phpy实现Apache ORC高效读写,搞定大数据处理

Tinywan

沃土股份 | 技术经理 (已认证)

Apache ORC 是一种专为 Hadoop 生态系统设计的列式存储文件格式,它具备高效的数据压缩和快速的查询性能。由于采用列式存储,ORC 格式在处理大规模...

5200

Python爬取某云热歌榜:解析动态加载的歌曲数据

小白学大数据

某云音乐的热歌榜数据是通过动态加载的方式呈现的,这意味着网页的HTML结构中并没有直接包含完整的歌曲信息,而是通过JavaScript动态请求后端接口获取数据并...

4600

数据治理:某环境公司主数据管理项目经验分享

数据狗忙忙忙

作为企业运营的基石,主数据承载着企业决策和业务流程优化的关键。某环境股份有限公司在应对项目、组织、客商及设备与物资等多领域主数据管理挑战的过程中,不断探索与创新...

7710

【大数据技术基础 | 实验十一】Hive实验:新建Hive表

Francek Chen

Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive...

9710

Spark Gluten 向量化执行框架

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

向量化执行模型已在现代数据库引擎被广泛应用,例如ClickHouse、TiDB、StarRocks等。为进一步提升计算性能,充分利用CPU计算能力,大数据计算引...

28550

2024年,中国开源商业到底行不行?我的答案是,行!

郭大侠说开源

全文摘要:2024,开源的温度刚刚好;中国开源商业化蜕变;“要做主流中的非主流开源项目”;ToB行业不存在赛道级创新;要做时间的朋友

13610

未来数据处理领域的PK:大模型Transformer vs 大数据Transform

郭大侠说开源

随着大模型的快速发展,许多人开始设想未来是否不再需要传统的大数据处理方式,甚至怀疑ETL的存在价值。大模型能够从海量数据中自主学习规则、挖掘模式,其强大能力令人...

18410

用Scrapy精准爬取BOSS直聘特定行业职位

小白学大数据

BOSS直聘作为国内领先的招聘平台,拥有海量的职位信息,对于求职者、招聘者以及行业分析师来说,这些数据具有极高的价值。本文将详细介绍如何使用Scrapy框架精准...

10710

网页内容解析技巧:Typhoeus 与 Nokogiri 的结合使用

小白学大数据

Typhoeus 是一个基于 Hydra 的库,它提供了一个简单而强大的 API 来发送 HTTP 请求。Nokogiri 是一个高效的 HTML、XML 和 ...

8910

优化Go语言中的网络连接:设置代理超时参数

小白学大数据

在分布式系统和微服务架构中,网络请求的效率直接影响到整个系统的响应速度。合理的超时设置可以防止系统在等待网络响应时陷入无限期的阻塞,从而提高系统的吞吐量和用户体...

10710

SQL入门教程(2):怎么用SQL做基础信息检索?

效率时空

在上一篇文章中,我们介绍了 SQL(结构化查询语言)的基本概念,以及它在用户研究中的重要作用。今天,我们将深入了解 SQL 的基本语法,并通过实际应用场景帮助你...

9910

轻量级的大数据处理技术

朱迪

综合来看,应用端计算需要的是一种不依赖于数据库的、可被集成嵌入的、具备较强开放性能直接处理多源数据、能够解决数据范围问题、简单方便的轻量级大数据处理技术,但现在...

13510

分布式是大数据处理的万能药?

朱迪

使用分布式集群来处理大数据是当前的主流,将一个大任务拆分成多个子任务分布到多个节点进行处理通常能获得显著的性能提升。因此,只要发现处理能力不足就可以通过增加节点...

9410

大数据挖掘实战-PyODPS基础操作

fanstuck

文章链接:https://cloud.tencent.com/developer/article/2465951

33330

Python数据分析:揭秘"黑神话:悟空"Steam用户评论趋势

小白学大数据

"黑神话:悟空"是一款以中国古典名著《西游记》为背景的动作角色扮演游戏。自公布以来,就因其精美的画面和流畅的战斗系统受到了广泛关注。然而,要真正理解玩家的反馈,...

9910

超酷炫Python技术:交通数据的多维度分析

小白学大数据

在实际应用中,可能需要考虑更多的因素,如天气条件、特殊事件、节假日等,这些都可以通过集成更多的数据源和使用更复杂的分析方法来实现。此外,随着数据量的增加,可能需...

8000

高效爬取B站评论:Python爬虫的最佳实践

小白学大数据

在视频分享平台如B站(哔哩哔哩)上,用户生成的评论数据不仅能够反映用户对视频内容的喜好和反馈,还可以用于视频内容推荐系统的优化、用户行为分析、舆情监控和市场趋势...

47110

Python爬虫开发中的分析与方案制定

小白学大数据

网站分析作为获取数据的重要手段,其重要性不言而喻。Python作为一种强大的编程语言,因其简洁的语法和强大的库支持,成为开发爬虫的首选工具。本文将深入探讨Pyt...

10310

提速银行用户画像客群交集计算200+倍

朱迪

X银行用户画像应用中,需要完成客群交集计算。客群数量多达数千个,每个客群包含的客户数量不等,从几十万到上亿都有。要计算出任意N(一般是2-10)个客群共同的客户...

10110
领券