首页
学习
活动
专区
圈层
工具
发布
首页标签数据处理

#数据处理

数据处理是指对数据(包括数值的和非数值的)进行分析和加工的技术过程。

Hive扩展能力全解析:手把手教你编写自定义UDF、UDAF和UDTF

用户6320865

在大数据处理的日常工作中,Hive作为基于Hadoop的数据仓库工具,凭借其类SQL查询语言HiveQL,大大简化了海量数据的处理与分析流程。然而,随着业务场景...

300

Hive函数宝典:内置函数与UDF初探,一文掌握数据处理利器

用户6320865

在大数据处理的广阔领域中,Hive作为构建在Hadoop之上的数据仓库工具,凭借其类SQL的查询语言HiveQL,显著降低了大数据处理的技术门槛。Hive不仅允...

1100

Flink数据类型与序列化深度解析:TypeInformation体系如何驱动高效数据处理

用户6320865

在大数据技术飞速发展的今天,流处理已成为企业实时数据分析的核心能力。Apache Flink作为新一代分布式流处理引擎,凭借其高吞吐、低延迟和精确一次(exac...

3410

数据工程中的10个常见设计方式

半吊子全栈工匠

除了 ETL(抽取、转换、加载)、ELT(抽取、加载、转换) 和 CDC(变更数据捕获)等常见数据集成设计模式之外,行业中还广泛采用了许多其他类型的设计方式,以...

8910

Pathway 实时数据处理框架:流批一体的现代数据处理引擎

安全风信子

随着大数据时代的到来,实时数据处理的需求日益增长。传统的数据处理框架主要分为两类:批处理(如Hadoop)和流处理(如Spark Streaming、Flink...

10610

跟着Cell学习:巨噬细胞高表达肌细胞基因但是不是双包体!(看看怎么操作)

生信技能树

对来自15例胎儿和4例成人供体、涵盖23个器官的321份样本分选的CD45+免疫细胞进行了scRNA-seq及α/β scTCR-seq测序(图1A):

12310

跟着NC杂志文献学习处理scATAC-seq和bulk ATAC-seq数据

生信技能树

本研究通过单细胞分辨率描绘了发育期和成年小鼠肾脏的开放染色质与基因表达图谱。我们发现基因表达高度依赖于远端调控元件(增强子),揭示了肾脏细胞中关键细胞类型特异性...

13610

‌Daft:AI驱动的多模态数据融合引擎

老周聊架构

本文主要讲解 Daft 在分布式 Python 计算、多模算子处理、流式调度等方面的核心设计,以及在智能驾驶大规模数据处理、LLM离线推理等实际应用场景中的落地...

15710

从 Snowflake 到 Apache Doris:Planet 实时分析成本直降 80%、查询加速 90 倍

SelectDB技术团队

Planet 是一家全球领先的金融科技企业,在零售、酒店和旅游行业的支付与税务数字化服务领域深耕近四十年。公司业务广泛,覆盖支付处理、免税退税及行业软件等,致力...

11310

Nat. Protoc. | 面向单细胞蛋白质组学的数据处理工作流优选方法ANPELA

DrugOne

单细胞蛋白质组学已广泛应用于当前生物医药研究,但其数据处理长期面临方法选择的困境。一方面,处理流程众多且性能高度地依赖于所研究的具体数据集,增大了对处理流程的选...

12310

Redis定时监控与数据处理实践:从Set到Hash的迁移与优化

用户8589624

在现代分布式系统中,Redis 作为高性能的内存数据库,常用于缓存、消息队列和实时数据处理。合理使用 Redis 数据结构(如 String、Set、Hash、...

8410

《Web应用开发实战:文件上传与数据处理全流程解析》

用户8589624

在现代Web应用开发中,文件上传与数据处理是常见的功能需求。本文将全面解析一个基于Python Flask的Excel文件处理Web应用的开发过程,从文件上传功...

15410

使用ECharts实现数据可视化:横纵坐标配置与数据处理详解

用户8589624

数据可视化是现代前端开发中的重要环节,而ECharts作为一款强大的可视化库,能够帮助开发者快速实现复杂的图表需求。本文将以两个实际案例(年份-数量统计和评分-...

15410

中国自治州数据处理优化实战:精准匹配与智能提取

用户8589624

在中国的地理信息系统中,自治州是重要的行政区划单位,共有30个自治州分布在多个省份。由于自治州名称较长(如“昌吉回族自治州”),在数据存储、分析或展示时,往往需...

8710

【Flink第二篇】实时计算演进之路:流处理场景与Flink的核心能力

用户8589624

13610

12 种 Pandas 测试技巧,让数据处理少踩坑

deephub

Pandas 的 bug 有个特点,就是不会在控制台里大喊大叫,而是悄悄藏在 dtype 转换、索引操作、时区处理的某个角落,或者那种跑十万次才能复现一次的边界...

9110

Doris 3.1让湖仓一体从概念变现实:帮你省下90%的数据处理时间

数据微光

尤其是在 半结构化数据处理 和 湖仓一体 这两个方向上,Doris 3.1 几乎是带着重塑游戏规则的姿态来的。今天,我就想和大家深入聊聊,这个版本到底解决了哪些...

10610

Vue.js入门系列(九):表单数据处理、过滤器及常用指令

用户8589624

在Vue.js的日常开发中,处理表单数据、使用过滤器以及理解各种Vue指令是基础且必须掌握的技能。这些功能和工具帮助开发者有效管理数据显示和数据输入,提升用户界...

6710

🤩 Seurat | 空间转录组数据分析的标准流程!~(一)(数据处理与整合分析)

生信漫卷

随着空间转录组学的发展,我们不仅能看到基因在细胞里表达多少,还能够真正回答这些细胞究竟在哪里的问题。😅

39610

Python 生成器

YaoQi

生成器是 Python 中一种特殊的迭代器,它按需生成值,而不是一次性生成所有值。生成器使用 yield 关键字来返回值,并在每次产生值后暂停执行,等待下一次请...

12210
领券