腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据

多年海量数据处理经验，化数据为力量

专栏作者

174

文章

273971

阅读量

108

订阅数

腾讯云—蓝鸥正式签约，强强联手打造强大云教育生态

大数据云计算

7月12日，腾讯云-蓝鸥科技签约暨蓝鸥科技2018年教育部“产学合作协同育人”项目启动大会在上海浦东绿地铂骊酒店隆重启幕。大会上腾讯云与蓝鸥签约成为重要合作伙伴，双方将在云计算、云运维、云安全等前沿技术领域，集取行业最强实力共建强大的云教育生态。腾讯云教育认证中心负责人李峰先生、蓝鸥科技有限公司董事长李静波先生以及众多厂商、高校代表纷纷到会。而这场企业、高校共享的云计算饕餮盛宴也引发了业内众多知名媒体的强烈关注。

大数据弄潮儿

2018-11-22

1K0

用R处理不平衡的数据

r 语言大数据数据处理

在分类问题当中，数据不平衡是指样本中某一类的样本数远大于其他的类别样本数。相比于多分类问题，样本不平衡的问题在二分类问题中的出现频率更高。举例来说，在银行或者金融的数据中，绝大多数信用卡的状态是正常的，只有少数的信用卡存在盗刷等异常现象。

大数据弄潮儿

2018-06-04

1.6K0

100000个故事的情节分析:一个简单案例

最近我从马克·里德尔那拿到了很棒的自然语言方面的数据集：从WIKI下载了112000个故事作品的情节。其中包括了书籍，电影，电视剧集，视频游戏等有“情节”的任何内容。

大数据弄潮儿

2018-06-04

1.8K4

十的次方 - 第一部分

这篇文章最初由Stephen Mallette和Daniel Kuppitz在Aurelius发表。

大数据弄潮儿

2018-06-01

1.7K0

大数据图：循环点阵

本文的内容最初由Marko Rodriguez和Bobby Norton在Aurelius博客上共同撰写。

大数据弄潮儿

2018-06-01

3.5K2

关注专栏作者，随时接收最新技术干货

大数据弄潮儿

腾讯产品运营

花落花飞去

腾讯社区运营

腾讯产品运营

Kafka 的详细设计及其生态系统

原文地址：https://dzone.com/articles/kafka-detailed-design-and-ecosystem

大数据弄潮儿

2018-05-31

1K0

API场景中的数据流

原文地址：https://dzone.com/articles/data-streaming-in-the-api-landscape

大数据弄潮儿

2018-05-30

1.5K0

使用Go构建一个Data Thrashing CLI工具

以下所撰就是这个快速上手的项目。最后，我将在容器中搭建服务，并将其放入Kubernetes（k8s）集群中，不过下面操作都是在CLI环境下进行的。

大数据弄潮儿

2018-05-30

8720

在Ubuntu上启动并运行Hadoop

linux ubuntu hadoop

Hadoop是一个用Java编写的框架，它允许在大型商品硬件集群上以分布式方式处理大型数据集。

大数据弄潮儿

2018-05-29

4.4K0

带有Apache Spark的Lambda架构

大数据 hadoop apache

市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果？这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构。我们将利用Apache Spark（Core，SQL，Streaming），Apache Parquet，Twitter Stream等实时流数据快速访问历史数据。还包括清晰的代码和直观的演示！

大数据弄潮儿

2018-05-29

1.9K0

采购中的高级分析方法

原文地址：https://dzone.com/articles/advanced-analytics-in-procurement

大数据弄潮儿

2018-05-29

1.2K0

内存计算网格解释

Dmitriy Setrakyan在最近为In-Memory数据网格（IMDG）提供了一个很好的解释 - 现在我尝试为In-Memory Compute Grid（IMCG）提供一些类似的描述。

大数据弄潮儿

2018-05-29

1.7K0

大数据架构最佳实践

原文地址：https://dzone.com/articles/big-data-architecture-best

大数据弄潮儿

2018-05-28

5210

概率数据结构简介

在处理大型的数据集时，我们常常进行一些简单的检查，如稀有项（Unique items）的数量、最常见的项，以及数据集中是否存在某些指定的项。通常的做法是使用某种确定性的数据结构，如 HashSet（哈希集）或 Hashtable（哈希表）来达此目的。但是当我们所处理的数据集十分巨大时，这样的数据结构完全不可行，因为数据量太大，我们没有足够的存储空间。对于通常需要在一次传递（One pass）中处理数据并执行增量更新的流媒体应用（Streaming application）来说，这就变得更加困难。

大数据弄潮儿

2018-05-28

3.3K0

Hadoop/R 集成 I：流处理

hadoop 大数据

原文地址：https://dzone.com/articles/hadoopr-integration-i

大数据弄潮儿

2018-05-28

6650

使用Elasticsearch进行智能搜索的机器学习

机器学习人工智能

众所周知，机器学习正在改变许多行业。搜索行业也是如此，公司通过手动调整搜索相关性来压榨潜能。成功的搜索组织希望通过“足够好”的手动调整来构建更智能的自学习搜索系统。

大数据弄潮儿

2018-05-25

3.1K0

使用Hadoop分析大数据

大数据 hadoop

大数据由于其庞大的规模而显得笨拙，并且大数据需要工具进行高效地处理并从中提取有意义的结果。Hadoop是一个用于存储，分析和处理数据的开源软件框架和平台。本文是Hadoop如何帮助分析大数据的初学者指南。

大数据弄潮儿

2018-05-24

7290

协同过滤的R语言实现及改进

协同过滤算法（CF）是构建推荐系统时最常用的技术之一。它可以基于收集到的其他用户的偏好信息（协同）来自动地预测当前用户的兴趣点。协同过滤算法主要分为两种：基于记忆（memory-based）的协同过滤算法和基于模型（model-based）的协同过滤算法。一般来说，将两者融合可以获得预测准确度上的提升。

大数据弄潮儿

2018-05-23

1.8K1

季节性单位根

腾讯云测试服务

正如MAT8181课程中所讨论的那样，至少有两种非平稳的时间序列：存在趋势的和存在单位根（这种类型被称为单整的）。单位根测试不能用来评估一个时间序列是否平稳，这种方法只能检测整合的时间序列。季节性单位根也是如此。

大数据弄潮儿

2018-05-23

1.7K0

大数据处理的开源框架：概述

大数据开源

本文讨论大数据处理生态系统和相关的架构栈，包括对适应于不同任务的多种框架特性的调研。除此之外，文章还从多个层次对框架进行深入研究，如存储，资源管理，数据处理，查询和机器学习。

大数据弄潮儿

2018-05-23

2K1

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态