首页
学习
活动
专区
圈层
工具
发布
首页标签数据挖掘

#数据挖掘

跨学科的计算机科学分支。用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程

电商数据泄露驱动的精准钓鱼攻击机制与防御研究

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

随着电子商务平台的规模化发展,用户个人信息的集中存储使其成为网络攻击的高价值目标。2026年初韩国电商巨头Coupang发生的数据泄露事件,揭示了新型网络威胁的...

100

基于mice包的数据多重插补学习

凑齐六个字吧

数据缺失的类型在统计学和医学研究中主要依据缺失机制(missing mechanism)进行分类,国际公认的标准分为三种,这一分类最早由Rubin(1976)提...

2800

商业实战复盘:并发不是越多越快

jackcode

在商业数据采集的战场上,新手往往迷信“天下武功唯快不破”,喜欢在代码里把线程池的 max_workers 拉到满;而成熟的爬虫工程师往往是“资源精算师”,他们深...

7110

使用TwoSampleMR进行孟德尔随机化分析

凑齐六个字吧

TwoSampleMR 是一个用于进行双样本孟德尔随机化分析的R包,由 MRC Integrative Epidemiology Unit开发,并与OpenGW...

3710

供应链数据泄露诱发的针对性钓鱼攻击机制与防御策略研究——基于Ledger与Global-e事件的实证分析

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

随着区块链技术的普及与加密货币资产规模的扩张,硬件钱包作为冷存储解决方案的核心载体,其安全性直接关系到用户的资产存续。然而,近年来针对硬件钱包用户的攻击手段正从...

5210

从0开始全面认识高质量数据集建设(7)

zhouzhou的奇妙编程

一个单位,想做这件事情,最开始肯定是得做好顶层设计,但是有的人可能想说,我们公司那么多年都没做过顶层设计啥的,不也过的好好的吗?但是这里我想说的是,在高质量数据...

12420

基于元路径的异构信息网络相似度搜索

用户11764306

某机构学者孙怡舟(Yizhou Sun)近日荣获非常大型数据库(VLDB)基金会颁发的“经受时间考验奖”,获奖的是她在2011年发表的一篇论文。该论文引入了一种...

4410

从0开始全面认识高质量数据集建设(6)

zhouzhou的奇妙编程

上一篇中,我们了解了数据集编目上架与符合性检测的关键机制。我们掌握了如何通过多维度分类体系与五大模块信息挂载,为数据资产建立详尽的“数字档案”;同时深入学习了利...

12210

从0开始全面认识高质量数据集建设(5)

zhouzhou的奇妙编程

上一篇中,我们了解了数据工程实施环节的核心全流程,深入掌握了如何通过多样化的采集手段打破数据孤岛,利用智能化的预处理插件清洗多源异构数据,以及通过端到端的标注体...

15410

从0开始全面认识高质量数据集建设(4)

zhouzhou的奇妙编程

上一篇中,我们了解了高质量数据集建设流程中至关重要的“需求调研”与“数据规划”两大环节,掌握了从现状摸底、场景拆解到供需确认的五步调研法,成功输出了高质量数据集...

33221

元数据平台选型避坑指南:从“血缘不准”到“DataOps 自动化治理”的跨越

Aloudata

摘要:本文基于真实选型实践,深入剖析了企业在元数据平台选型中普遍面临的三大核心痛点:数据血缘不准、数据资产盘点不动、数据变更管控失灵。文章指出,传统工具在复杂 ...

10210

数据治理新解法:基于算子级血缘的主动元数据如何破解数仓重构难题?

Aloudata

摘要:本文深入探讨了数据仓库重构中因依赖链路“看不清”而导致的三大核心痛点:依赖黑盒、变更失控与成本黑洞。通过对比传统血缘工具的局限,解析了基于算子级血缘的新技...

10710

从0开始全面认识高质量数据集建设(2)

zhouzhou的奇妙编程

上一篇中,我们了解了高质量数据集建设的政策蓝图、核心分类与“场景驱动”的逻辑框架。然而,从认知到落地,挑战往往隐藏在具体的实施环节中,如何将模糊的业务需求转化为...

27420

从“救火”到“防火”:基于算子级血缘实现 ETL 异常 5 分钟根因定位

Aloudata

摘要:本文深入剖析了数据运维中ETL任务失败后根因定位的痛点,指出传统表级/列级血缘工具因解析率低、逻辑黑盒、静态滞后导致的排查困境。进而提出基于算子级血缘的主...

9610

信创合规下的元数据平台选型:从自动化盘点、算子级血缘到 DataOps 的完整指南

Aloudata

摘要:在信创合规与精细化数据治理的双重驱动下,企业元数据平台选型面临新挑战。本文提供一套聚焦自主可控、算子级血缘精度与DataOps协同的选型方法论,通过对比传...

11710

聊聊Python爬虫与反爬虫系统的技术博弈

小飞 飞的快

现代Web应用部署了日益复杂的反爬虫机制,从简单的频率限制到 sophisticated 的行为分析系统。Python爬虫开发者需要理解这些防御技术的原理,才能...

9910

基于算子级血缘的 Oracle 存储过程自动化迁移:从“黑盒”重构到“白盒”治理

Aloudata

摘要:Oracle 数据库“去 O”迁移中,海量存储过程是核心挑战。传统人工梳理或表级血缘工具效率低、风险高。本文介绍如何通过 算子级血缘 技术实现存储过程内部...

13410

数据治理决策指南:元数据平台自研与采购的真实成本账单

Aloudata

摘要:企业在数据治理中面临元数据平台“自研还是采购”的决策时,常因低估技术代差与隐性成本而陷入误区。本文深度剖析了传统列级血缘与算子级血缘在解析精度、自动化能力...

14210
领券