学习
实践
活动
工具
TVP
写文章
首页标签数据挖掘

#数据挖掘

跨学科的计算机科学分支。用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程

数据分析/数据运营/商业分析

hankleo

最近有不少同学在后台问我数据分析的职业发展相关,这里先列一个简易大纲。它更多是以我所在的互联网行业展开的。

1000

虹科分享|终端安全防护|网络安全术语列表(二)

虹科网络可视化与安全

如果你与网络安全有关,你就知道它使用了自己独特的、不断发展的语言。术语和缩略语是清晰写作的敌人,受到网络安全专家的喜爱。因此,我们创建了一个全面的网络安全词汇表...

2000

ICML | 基于异构基序图神经网络的分子表示学习 编译 | 程宁

DrugAI

本文介绍由爱荷华州立大学的Zhaoning Yu 与Hongyang Gao发表于ICML的研究工作。作者提出了一种新的分子图表示学习方法,构建了一个包含基序节...

1710

NLP: Word Embedding 词嵌入(Part1: 基础和 Word2Vec)

JiahuiZhu1998

例如:[1, 0, 0, 0, 0, 0, 0, 0, 0, 0] 这个 one-dimension vector 就代表这是整个句子里的第一个词

5900

【说站】Python中Tf-idf文本特征的提取

很酷的站长

1、TF-IDF是如果词或词组出现在文章中的概率较高,而在其他文章中很少出现,那么它就被认为具有很好的类别区分能力,适合进行分类。

8510

[Python从零到壹] 十七.可视化分析之Matplotlib、Pandas、Echarts入门万字详解

Eastmount

欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例...

8430

虹科分享 | 终端安全防护 | 网络安全术语列表(上篇)

虹科网络可视化与安全

如果你与网络安全有关,你就知道它使用了自己独特的、不断发展的语言。术语和缩略语是清晰写作的敌人,受到网络安全专家的喜爱。因此,我们创建了一个全面的网络安全词汇表...

8510

华汇数据带你了解下大数据服务能力

华汇数据

大数据服务能力其实是一个相对于大数据产品能力的概念。从企业实际建设大数据项目的角度来说,多数情况下简单地购买一些大数据产品并不能满足实际需求,往往需要供应商提供...

10430

精准用户画像!商城用户分群2.0!⛵

ShowMeAI

很多公司的技术人员在做用户画像的工作,细分客户/客户分群是一个很有意义的工作,可以确保企业构建更个性化的消费者针对策略,同时优化产品和服务。

13240

详解数据仓库和数据库的区别「建议收藏」

全栈程序员站长

1.如有错误欢迎大家指出,我会及时更正,有什么不懂也可以留言提问,互相交流吗。 2.也许大家觉得这没什么,但是我会认真对待,把它当成我的笔记、心得、这样才能...

8010

数据导入与预处理-课程总结-01~03章

用户2225445

备注:本文主要是课程总结,不做过多的拓展,如果需要详细了解,可以查看本专栏系列内容,专栏链接直达

5620

文本相似度度量_文本相似度分析

全栈程序员站长

文本相似度度量就是衡量两个文本相似度的算法。主要包括两个步骤:将文本表示为向量(文本表示);衡量两个向量的相似度(相似度度量)。

6920

hadoop生态圈相关技术_hadoop的生态

全栈程序员站长

  最早Doug Cutting(后面被称为hadoop之父)领导创立了Apache的项目Lucene,然后Lucene又衍生出子项目Nutch,Nutch又衍...

7640

k means聚类算法实例数据_Kmeans聚类算法详解

全栈程序员站长

k-means算法又称k均值,顾名思义就是通过多次求均值而实现的聚类算法。是一种无监督的机器学习方法,即无需知道所要搜寻的目标,而是直接通过算法来得到数据的共同...

12330

数据挖掘 韩家炜_数据挖掘的特点

全栈程序员站长

数据挖掘又称知识发现(KDD:Knowledge Discovery in Database),即“从数据中挖掘知识”。   丰富的数据以及对强有力的数据分析...

7750

机器学习十大算法简介

全栈程序员站长

K-Means算法是一种聚类算法,把n个对象根据他们的属性分成k个分类,并且使这K个分割的内部相似度最大,而分割之间的相似度最小。 其主要的算法流程如下: 1...

6020

spark面试题目_面试提问的问题及答案

全栈程序员站长

1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zo...

9720

生信初学者基础知识资源推荐

医学和生信笔记

如果你是一个生信初学者,又或者你是一个学临床的,为了发文章开始学生信,学了点数据挖掘,GEO,TCGA什么的,但是对很多专有名词不理解,对很多流程或者步骤云里雾...

10130

算法比赛 | KDD Cup2022 风力发电预测比赛总结

郭好奇同学

空间动态风力发电预测(Spatial Dynamic Wind Power Forecasting)对风能的利用具有实际意义,参与者应准确估计风电场的风能供应。

13140

万字长文:安全知识图谱技术概述

绿盟科技研究通讯

知识图谱是下一代可信人工智能领域的关键技术组成之一。围绕知识的归纳抽取、演绎推理等处理与分析过程,诸多关键问题逐步被攻克,大幅推动了机器认知技术的发展。在网络空...

8430

扫码关注腾讯云开发者

领取腾讯云代金券