首页
学习
活动
专区
工具
TVP
发布

大数据

多年海量数据处理经验,化数据为力量
专栏作者
174
文章
273971
阅读量
108
订阅数
腾讯云—蓝鸥正式签约,强强联手打造强大云教育生态
7月12日,腾讯云-蓝鸥科技签约暨蓝鸥科技2018年教育部“产学合作协同育人”项目启动大会在上海浦东绿地铂骊酒店隆重启幕。大会上腾讯云与蓝鸥签约成为重要合作伙伴,双方将在云计算、云运维、云安全等前沿技术领域,集取行业最 强实力共建强大的云教育生态。腾讯云教育认证中心负责人 李峰先生、蓝鸥科技有限公司董事长 李静波先生以及众多厂商、高校代表纷纷到会。而这场企业、高校共享的云计算饕餮盛宴也引发了业内众多知名媒体的强烈关注。
大数据弄潮儿
2018-11-22
1K0
用R处理不平衡的数据
在分类问题当中,数据不平衡是指样本中某一类的样本数远大于其他的类别样本数。相比于多分类问题,样本不平衡的问题在二分类问题中的出现频率更高。举例来说,在银行或者金融的数据中,绝大多数信用卡的状态是正常的,只有少数的信用卡存在盗刷等异常现象。
大数据弄潮儿
2018-06-04
1.6K0
100000个故事的情节分析:一个简单案例
最近我从马克·里德尔 那拿到了很棒的自然语言方面的数据集 :从WIKI下载了112000个故事作品的情节。其中包括了书籍,电影,电视剧集,视频游戏等有“情节”的任何内容。
大数据弄潮儿
2018-06-04
1.8K4
十的次方 - 第一部分
这篇文章最初由Stephen Mallette和Daniel Kuppitz在Aurelius发表。
大数据弄潮儿
2018-06-01
1.7K0
大数据图:循环点阵
本文的内容最初由Marko Rodriguez和Bobby Norton在Aurelius博客上共同撰写。
大数据弄潮儿
2018-06-01
3.5K2
关注专栏作者,随时接收最新技术干货
Techeek
腾讯产品运营
花落花飞去
腾讯社区运营
QiqiHe
腾讯产品运营
Kafka 的详细设计及其生态系统
原文地址:https://dzone.com/articles/kafka-detailed-design-and-ecosystem
大数据弄潮儿
2018-05-31
1K0
API场景中的数据流
原文地址:https://dzone.com/articles/data-streaming-in-the-api-landscape
大数据弄潮儿
2018-05-30
1.5K0
使用Go构建一个Data Thrashing CLI工具
以下所撰就是这个快速上手的项目。最后,我将在容器中搭建服务,并将其放入Kubernetes(k8s)集群中,不过下面操作都是在CLI环境下进行的。
大数据弄潮儿
2018-05-30
8720
在Ubuntu上启动并运行Hadoop
Hadoop是一个用Java编写的框架,它允许在大型商品硬件集群上以分布式方式处理大型数据集。
大数据弄潮儿
2018-05-29
4.4K0
带有Apache Spark的Lambda架构
市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果?这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构。我们将利用Apache Spark(Core,SQL,Streaming),Apache Parquet,Twitter Stream等实时流数据快速访问历史数据。还包括清晰的代码和直观的演示!
大数据弄潮儿
2018-05-29
1.9K0
采购中的高级分析方法
原文地址:https://dzone.com/articles/advanced-analytics-in-procurement
大数据弄潮儿
2018-05-29
1.2K0
内存计算网格解释
Dmitriy Setrakyan在最近为In-Memory数据网格 (IMDG)提供了一个很好的解释 - 现在我尝试为In-Memory Compute Grid(IMCG)提供一些类似的描述。
大数据弄潮儿
2018-05-29
1.7K0
大数据架构最佳实践
原文地址:https://dzone.com/articles/big-data-architecture-best
大数据弄潮儿
2018-05-28
5210
概率数据结构简介
在处理大型的数据集时,我们常常进行一些简单的检查,如稀有项(Unique items)的数量、最常见的项,以及数据集中是否存在某些指定的项。通常的做法是使用某种确定性的数据结构,如 HashSet(哈希集) 或 Hashtable(哈希表) 来达此目的。但是当我们所处理的数据集十分巨大时,这样的数据结构完全不可行,因为数据量太大,我们没有足够的存储空间。对于通常需要在一次传递(One pass)中处理数据并执行增量更新的流媒体应用(Streaming application)来说,这就变得更加困难。
大数据弄潮儿
2018-05-28
3.3K0
Hadoop/R 集成 I:流处理
原文地址:https://dzone.com/articles/hadoopr-integration-i
大数据弄潮儿
2018-05-28
6650
使用Elasticsearch进行智能搜索的机器学习
众所周知,机器学习正在改变许多行业。搜索行业也是如此,公司通过手动调整搜索相关性来压榨潜能。成功的搜索组织希望通过“足够好”的手动调整来构建更智能的自学习搜索系统。
大数据弄潮儿
2018-05-25
3.1K0
使用Hadoop分析大数据
大数据由于其庞大的规模而显得笨拙,并且大数据需要工具进行高效地处理并从中提取有意义的结果。Hadoop是一个用于存储,分析和处理数据的开源软件框架和平台。本文是Hadoop如何帮助分析大数据的初学者指南。
大数据弄潮儿
2018-05-24
7290
协同过滤的R语言实现及改进
协同过滤算法(CF)是构建推荐系统时最常用的技术之一。它可以基于收集到的其他用户的偏好信息(协同)来自动地预测当前用户的兴趣点。协同过滤算法主要分为两种:基于记忆(memory-based)的协同过滤算法和基于模型(model-based)的协同过滤算法。一般来说,将两者融合可以获得预测准确度上的提升。
大数据弄潮儿
2018-05-23
1.8K1
季节性单位根
正如MAT8181课程中所讨论的那样,至少有两种非平稳的时间序列:存在趋势的和存在单位根(这种类型被称为 单整的)。单位根测试不能用来评估一个时间序列是否平稳,这种方法只能检测整合的时间序列。 季节性单位根也是如此。
大数据弄潮儿
2018-05-23
1.7K0
大数据处理的开源框架:概述
本文讨论大数据处理生态系统和相关的架构栈,包括对适应于不同任务的多种框架特性的调研。除此之外,文章还从多个层次对框架进行深入研究,如存储,资源管理,数据处理,查询和机器学习。
大数据弄潮儿
2018-05-23
2K1
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档