首页
学习
活动
专区
工具
TVP
发布

用户画像

专栏作者
981
文章
987566
阅读量
53
订阅数
为什么要用Hive?
Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据仓库)和Cassandra这样的数据库中的数据。
week
2022-11-26
6420
58同城 Elasticsearch 应用及平台建设实践
导读:Elasticsearch是一个分布式的搜索和分析引擎,可以用于全文检索、结构化检索和分析,并能将这三者结合起来。Elasticsearch基于Lucene开发,现在是使用最广的开源搜索引擎之一。Elasticsearch可以应用于在/离线日志流水、用户标签画像、数据库二级缓存、安全风控行为数据、图数据库索引、监控数据、Wiki文档检索等应用场景。58同城有自己的主搜,而一些内部创新搜索业务和大规模的数据实时OLAP ( On-Line Analytical Processing,联机分析处理 ) 则是使用Elasticsearch。
week
2020-07-20
8620
移动腾讯网 | 推荐系统 embedding 技术实践总结
当前主流的推荐系统中,embedding 无处不在,从一定意义上可以说,把 embedding 做好了,整个推荐系统的一个关键难题就攻克了。因此,本文总结了移动腾讯网推荐系统中的 embedding 技术实践,力图达到娱人娱己的目的。
week
2020-05-28
1.6K1
数据科学研究的现状与趋势全解
大数据时代的到来催生了一门新的学科——数据科学。首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题;接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。再次,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视、模型集成及元分析的兴起、数据在先,模式在后或无模式的出现、数据一致性及现实主义的回归、多副本技术及靠近数据原则的广泛应用、多样化技术及一体化应用并存、简单计算及实用主义占据主导地位、数据产品开发及数据科学的嵌入式应用、专家余及公众数据科学的兴起、数据科学家与人才培养的探讨。最后,结合本文工作,为数据科学研究者给出了几点建议和注意事项。
week
2019-12-03
1.8K0
浅谈推荐系统
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
week
2019-11-20
7230
Mac搭建Hadoop环境
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
week
2019-09-27
6900
Hive
Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据仓库)和Cassandra这样的数据库中的数据。
week
2019-08-29
5980
HDFS
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的,是Apache Hadoop Core项目的一部分。HDFS被设计为可以运行在通用硬件(commodity hardware)上、提供流式数据操作、能够处理超大文件的分布式文件系统。HDFS具有高度容错、高吞吐量、容易扩展、高可靠性等特征,为大型数据集的处理提供了强有力的工具。
week
2019-06-26
1K0
大数据的特征(4V+1O)
数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
week
2019-03-15
4.3K0
剑指offer 数据流中的中位数
链接:https://www.nowcoder.com/questionTerminal/9be0172896bd43948f8a32fb954e1be1 来源:牛客网 如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流,使用GetMedian()方法获取当前读取数据的中位数。
week
2018-12-27
4100
windows搭建hadoop分布式系统架构
1、下载hadoop的安装包:http://hadoop.apache.org/->Releases->mirror site
week
2018-08-24
5930
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档