腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用户画像

专栏作者

981

文章

987566

阅读量

53

订阅数

为什么要用Hive？

hive hadoop sql 数据库大数据

Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。

2022-11-26

6420

58同城 Elasticsearch 应用及平台建设实践

Elasticsearch Service 云数据库 SQL Server kafka 数据库大数据

导读：Elasticsearch是一个分布式的搜索和分析引擎，可以用于全文检索、结构化检索和分析，并能将这三者结合起来。Elasticsearch基于Lucene开发，现在是使用最广的开源搜索引擎之一。Elasticsearch可以应用于在/离线日志流水、用户标签画像、数据库二级缓存、安全风控行为数据、图数据库索引、监控数据、Wiki文档检索等应用场景。58同城有自己的主搜，而一些内部创新搜索业务和大规模的数据实时OLAP ( On-Line Analytical Processing，联机分析处理 ) 则是使用Elasticsearch。

2020-07-20

8620

移动腾讯网 | 推荐系统 embedding 技术实践总结

特征工程聚类算法编程算法腾讯云开发者社区大数据

当前主流的推荐系统中，embedding 无处不在，从一定意义上可以说，把 embedding 做好了，整个推荐系统的一个关键难题就攻克了。因此，本文总结了移动腾讯网推荐系统中的 embedding 技术实践，力图达到娱人娱己的目的。

2020-05-28

1.6K1

数据科学研究的现状与趋势全解

大数据数据库数据处理 sql 编程算法

大数据时代的到来催生了一门新的学科——数据科学。首先，本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题，并提出了专业数据科学与专业中的数据科学之间的区别与联系；其次，分析现阶段数据科学的研究特点，并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题；接着，探讨了数据科学研究中的10个争议及挑战：思维模式的转变（知识范式还是数据范式）、对数据的认识（主动属性还是被动属性)、对智能的认识（更好的算法还是更多的数据）、主要瓶颈（数据密集型还是计算密集型）、数据准备（数据预处理还是数据加工）、服务质量（精准度还是用户体验）、数据分析（解释性分析还是预测性分析）、算法评价（复杂度还是扩展性）、研究范式（第三范式还是第四范式）、人才培养（数据工程师还是数据科学家）。再次，提出了数据科学研究的10个发展趋势：预测模型及相关分析的重视、模型集成及元分析的兴起、数据在先，模式在后或无模式的出现、数据一致性及现实主义的回归、多副本技术及靠近数据原则的广泛应用、多样化技术及一体化应用并存、简单计算及实用主义占据主导地位、数据产品开发及数据科学的嵌入式应用、专家余及公众数据科学的兴起、数据科学家与人才培养的探讨。最后，结合本文工作，为数据科学研究者给出了几点建议和注意事项。

2019-12-03

1.8K0

浅谈推荐系统

大数据推荐系统特征工程编程算法信息流

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-11-20

7230

Mac搭建Hadoop环境

ssh hadoop http 大数据 xml

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-09-27

6900

hive hadoop sql 数据库大数据

Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。

2019-08-29

5980

大数据 node.js hadoop spark apache

HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的，是Apache Hadoop Core项目的一部分。HDFS被设计为可以运行在通用硬件（commodity hardware）上、提供流式数据操作、能够处理超大文件的分布式文件系统。HDFS具有高度容错、高吞吐量、容易扩展、高可靠性等特征，为大型数据集的处理提供了强有力的工具。

2019-06-26

1K0

大数据的特征（4V+1O）

数据量大（Volume）。第一个特征是数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。

2019-03-15

4.3K0

剑指offer 数据流中的中位数

链接：https://www.nowcoder.com/questionTerminal/9be0172896bd43948f8a32fb954e1be1 来源：牛客网如何得到一个数据流中的中位数？如果从数据流中读出奇数个数值，那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值，那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流，使用GetMedian()方法获取当前读取数据的中位数。

2018-12-27

4100

windows搭建hadoop分布式系统架构

hadoop xml java http 大数据

1、下载hadoop的安装包：http://hadoop.apache.org/->Releases->mirror site

2018-08-24

5930

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态