首页
学习
活动
专区
工具
TVP
发布

灯塔大数据

专栏作者
1001
文章
955613
阅读量
115
订阅数
技术分享 | 基于Intel Analytics Zoo的人脸识别应用与实践(上)
AnalyticsZoo是由Intel开源,基于Apache Spark、TensorFlow、Keras和BigDL的大数据分析+AI平台,能够帮助用户利用Spark的各种流水线、内置模型、特征操作等,构建基于大数据的深度学习端到端应用。
灯塔大数据
2019-07-22
1.5K0
盘点:这些企业是如何在大数据上写“+”字的
相信今天已经没有多少人还会固执地认为“互联网+”,“大数据+”只是个热点或是“噱头”。正所谓千淘万漉虽辛苦,吹尽狂沙始到金,大数据带来的产业革命正在倒逼传统产业革新,数据经济正在成为企业新的增长引擎。 📷 “为什么大数据现在会这么热?是因为它能够真正解决一些实际的问题。比如,更有效地处理数据。也正因为如此,大数据的应用软件就变得非常重要。对于用户而 言,他并不在乎用什么样的硬件,甚至都不在乎用什么样的Hadoop或者是Spark的产品。只要给我一个高性能的、有效的应用程序、应用软件就好了。所
灯塔大数据
2018-04-10
7730
4位专家解读2015大数据技术进展
2015年,整个IT技术领域发生了许多深刻而又复杂的变化。本文是大数据解读篇,在这篇文章里我们将回顾2015展望2016,看看过去的一年里广受关注的技术有哪些进展,了解下数据科学家这个职业的火热。 在
灯塔大数据
2018-04-10
7400
2016年大数据到底还算不算个 “东西” (附2016 大数据版图)
在喜新厌旧的技术初创企业界,已有 3年 历史 “大数据” 听起来似乎已经过气了。虽然 Hadoop 在 2006年 已经出来,但 “大数据” 这个概念大概是在 2011 到 2014年 左右才真正火起来的。也就是在这段时间里,至少是在媒体或者专家眼里,“大数据” 成为了新的 “金子” 或者 “石油”。然而,至少在我跟业界人士交谈中,大家越来越感觉到这项技术已经在某种程度上陷入了停滞。2015年 可能是数据领域的那些酷小子转移兴趣,开始沉迷于 AI 以及机器智能、深度学习等许多相关概念的年份。 抛开不可避免的
灯塔大数据
2018-04-10
5710
建立数据场的七大技能
摘要:成为数据极客,建立自己的数据场需要哪些技能呢?遇到普通的数据,通过SQL做分析。如果数据量比较大,可以使用Hadoop等大数据框架处理。在深入挖掘上,可用Python或者R语言进行编程。 1 数
灯塔大数据
2018-04-09
6290
大数据行业人士必知10大数据思维原理
大数据思维原理是什么?简单概括为10项原理,当样本数量足够大时,你会发现其实每个人都是一模一样的。 一 数据核心原理 从“流程”核心转变为“数据”核心 大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。 例如:IBM将使用以数据为中心的设计,目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下,云计算找到了破茧重生
灯塔大数据
2018-04-09
2.1K0
大数据圈盘点:你不知道的15个新技术
大数据中的大作为 对于大数据来说,业界这几周算是比较忙碌的。因为很多初创公司和一些老牌的公司都推出了数据分析和数据管理产品,以及更新了现有产品,提供更丰富的功能与性能。 虽然这些技术都还只是蓝图规划,但是一些常见的主题还是对其贯穿始终:为用户提供简单的获得数据的访问方式,更好的管理大规模数据以及预先分析的功能,例如Spark、HAWQ 和 Geode等新兴的大数据技术来实现更多的功能。 下面一起来看看吸引眼球的十五项大数据公告。虽然罗列了很多,但还不是全部内容,只是最近在加利福尼亚州圣何塞市Strata +
灯塔大数据
2018-04-09
8810
干货|大数据主流工具,你知道几个?
业内有这样一种说法,SQL虽然在大数据分析领域久经考验,但是无奈长江后浪推前浪,和炙手可热的Hadoop相比,SQL已经过时了。这个说法有点言过其实,现在很多的项目都是将Hadoop作为数据存储,然后利用SQL进行前端查询。这说明Hadoop需要一种高级查询语言的支持。 Hadoop MapReduce虽然能够进行数据分析,但是太复杂了。于是,开发人员开发出了类似SQL的Pig和Hive。 大数据时代,我们有很多的查询工具可以选择。虽然SQL占据着绝对优势,但是随着大数据的持续升温,也给了Apache P
灯塔大数据
2018-04-09
6190
创业者如何抓住大数据行业的风潮?
大数据不仅仅是一个营销词汇,大数据是一种思维,一种技术。一言以蔽之,大数据最直接的意义就是让“随机性”的事情变得可提前预测,从而提高效率和行动价值。下文主要是跟大家分享大数据领域的创业思考,大数据行业的创业机会如何,未来的创业方向又有哪些。 1 资本层面关注点 对于大数据项目,投资人到底看什么?在写这篇文章之前,我们与多家投行的投资人曾经做过访谈,下面是我们根据访谈内容整理出来的内容。 大数据没有直截了当的变现模式,那么一个新创大数据企业想要获得成功,拿什么去拼?当然是人才。这也是投资人最关注的东西。 投
灯塔大数据
2018-04-09
5840
干货|管理大数据存储的十大技巧
在1990年,每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的—
灯塔大数据
2018-04-09
2.8K0
荐读|大数据架构面临技术集成的巨大障碍
企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求。但把所有的技术集成在一起并不是一件容易的事。 IT团队寻求构建大数据架构时有大量的技术可供选择,他们可以混合搭配各种技
灯塔大数据
2018-04-08
6630
干货|6个公司的大数据岗位的面试经验
本人住在有人间天堂之称的城市,6年多开发经验,最近2年主要在做大数据相关的开发,最近考虑换工作,基本也只考虑大数据相关岗位。目前新工作已经找好,但想分享一下最近面试的失败一些经历(成功的那些就不讲了),吐槽吐槽,跟广大吃瓜群众分享一下过程中的经历心得,我的语文体育老师教的,还请大家莫怪。 1.公司:国内知名电信运营商,其下面的大数据研究院,面两轮 一面:技术人员面,先自我介绍,项目经验相关介绍,问比较细,问了一些Hadoop、HBase的问题,JAVA基础,JVM内存分配小于32G原因,G1和CMS对比,
灯塔大数据
2018-04-08
9120
洞察|大数据分析专家?或许这样的人根本不存在!
因为大数据这个词过于“忽悠”,乃至于大数据分析专家也让人十分景仰而不知其真身。 说实话,什么样的人可以称为大数据分析专家可能根本没有一个标准。就像笼统的说这个人是一个好人一样。这篇文章告诉我们,我们应该先搞清楚我们需要具备什么样的能力,再自封或寻找专家不迟。 在谷歌上搜索最希望在Linkedin上获得的人才,其结果是大数据专家。而各个公司在谷歌上搜索具有大数据专家履历的候选人仍保持了最大的搜索量。在与这些公司讨论了他们真正需要什么样的人才后,得出的结论是: 大数据专家不存在。 下文将告诉你为什么。 公司认为
灯塔大数据
2018-04-08
5380
塔说 | 常见Hadoop面试题及答案解析
导读:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中
灯塔大数据
2018-04-04
1.1K0
每周学点大数据 | No.62 Hadoop MapReduce 实践—环境搭建(上)
NO.62  Hadoop MapReduce 实践—环境搭建(上) Mr. 王:前面我们讲了很多关于并行算法的理论,今天我们来看看如何在计算机上实际运行一些并行算法。 小可:我早就迫不及待想试试了。 Mr. 王:我们要先安装和配置Hadoop。前面我们提到过,Hadoop 是MapReduce 的一个开源实现版本,如今的Hadoop 已经成为了包含许多部分的独立集合,比如Hive、HBase、ZooKeeper 等。但从根本上讲,Hadoop 的基本组成部分主要有两个:一个是MapReduce ;另一个
灯塔大数据
2018-04-04
7660
每周学点大数据 | No.67 Hadoop 实践案例——记录去重
No.67 Hadoop 实践案例——记录去重 Mr. 王:现在我们看一个和 WordCount 很相似,在实际中应用也很多的例子——记录去重。 小可 :嗯,从字面上理解就是将重复的数据记录去除吧? Mr. 王 :是的,就是如此。这个工作在实际的应用中是非常常见的,在进行数据管理时,不论是录入记录错误,还是新旧数据的原因,都是非常容易出现重复的记录的。很多时候,重复的记录会对我们进行个数统计等操作产生影响,造成统计结果错误。另外,出现重复记录的数据集合可能会非常大,单靠人工挑重,或者是靠简单的单机去查找会
灯塔大数据
2018-04-04
6950
每周学点大数据 | No.64 配置Hadoop
NO.64 配置Hadoop 在开始使用Hadoop 之前,先要对Hadoop 进行配置。Hadoop 的配置分为单机模式、完全分布式、伪分布式三种。单机模式一般用于系统的调试,我们不去使用它。当我们要在机群上执行真正的大数据并行计算时,需要使用完全分布式模式才能让并行计算顺利完成。也只有在完全分布式模式下,才能真正地发挥并行计算的效果。 小可:那什么是伪分布式呢? Mr. 王:我们知道,分布式系统是基于网络的多机计算系统。也就是说,至少要有两台计算机参与到任务的处理之中。但是当需要写程序和进行一些简单的实
灯塔大数据
2018-04-03
5510
每周学点大数据 | No.66 “Hello World”程序—— WordCount(下)
NO.66 “Hello World”程序—— WordCount 接下来把输入文件从磁盘放入 HDFS 中。首先我们来看看 HDFS 的常用命令。 可以使用 $ bin/hadoop dfs 命令来
灯塔大数据
2018-04-03
5890
每周学点大数据 | No.68 Hadoop 实践案例——等值连接
No.68 Hadoop 实践案例——等值连接 Mr. 王 :我们再来看看另一个非常常见的例子。很多时候,我们关心的数据来自多个表。比如在某学校的教务系统中,有学号和学生姓名的关系表。 表中的两列分别
灯塔大数据
2018-04-03
8850
每周学点大数据 | No.69 多机配置
No.69 多机配置 Mr. 王:在关于 Hadoop 内容介绍的最后,我们来谈谈如何把 Hadoop 配置在多台计算机上。 小可 :嗯,到目前为止,所有的程序还都仅仅运行在一台计算机上。 Mr. 王
灯塔大数据
2018-04-03
6450
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档