首页
学习
活动
专区
工具
TVP
发布

Albert陈凯

专栏作者
530
文章
787057
阅读量
55
订阅数
2018-11-06 图表设计-远不止“好看”这么简单图表设计-远不止“好看”这么简单
图表设计的过程实则是将数据进行可视化表达的过程,其研究的对象源头是数据,然而,数据本身价值不大,所谓的“数据”往往是由一些看起来有用和没用的“数字”组成,用户很难从这些散乱的数字中发现有价值的信息,so,如果把这些“数字”从商业目的、用户动机进行有机组合、关联或定义就使得数据变得有意义(价值),图表只是最终的表现形式。
Albert陈凯
2018-12-07
5060
您知道什么叫大数据吗?下面通过一段对话,您就知道了!
您知道什么叫大数据吗?下面通过一段对话,您就知道了! XXX快餐店的电话铃响了。 客服拿起电话:必胜客。您好! 请问有什么需要我为您服务? 顾客:你好! 我想要一份…… 客服:先生,请先把您的会员卡号告诉我,好吗? 顾客:2628***。 客服:陈先生,您好!您是住在帝景12楼1205室。您家电话是8588****,您公司电话是2389****,您的手机是1390234****吗? 顾客:你为什么知道我所有的电话号码? 客服:陈先生,因为我们联机CRM系统。 顾客:我想要一个海鲜比萨…… 客服:陈先生,海鲜
Albert陈凯
2018-04-08
7040
NO
N ---- 非关系型数据库( Not Only SQL):这个词听起来几乎就是「SQL,结构化查询语言」的反义词,SQL 是传统的关系型数据管理系统(RDBMS)必需的,但是 NOSQL 实际上指的是「不止 SQL」。NoSQL 实际上指的是那些被设计来处理没有结构(或者没有「schema」,纲要)的大量数据的数据库管理系统。NoSQL 适合大数据系统,因为大规模的非结构化数据库需要 NoSQL 的这种灵活性和分布式优先的特点。 自然语言处理(Natural Language Processing):自然
Albert陈凯
2018-04-08
5760
PQR
P 模式识别(Pattern Recognition):当算法需要在大规模数据集或者在不同的数据集上确定回归或者规律的时候,就出现了模式识别。它与机器学习和数据挖掘紧密相连,甚至被认为是后两者的代名词。这种可见性可以帮助研究者发现一些深刻的规律或者得到一些可能被认为很荒谬的结论。 规范性分析(Prescriptive Analytics):这里我们还是用信用卡转账的例子来理解。假如你想找出自己的哪类消费(如食品、娱乐、衣物等等)可以对整体消费产生巨大影响,那么基于预测性分析(Predictive Analy
Albert陈凯
2018-04-08
8040
大数据人工智能词汇索引S大数据人工智能词汇索引S
大数据人工智能词汇索引S S ---- 流处理(Stream processing):流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来,流处理方法特别能够针对大规模数据的实时处理。 社交分析(Social analytics):指基于信息学、数学、社会学、管理学、心理学等多学科的融合理论和方法,为理解人类各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法。 结构化 vs 非结构化数据(Structured v Unstruc
Albert陈凯
2018-04-08
8910
大数据人工智能词汇索引TUVWXYZ大数据人工智能词汇索引
大数据人工智能词汇索引 T ---- T字节(TB: Terabytes):约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。 时序分析(Time series analysis):分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。 拓扑数据分析(Topological Data Analysis) :拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。 交易数据(Transactional
Albert陈凯
2018-04-08
7700
手把手教你安装大数据开发测试环境手把手教你安装大数据开发测试环境
手把手教你安装大数据开发测试环境 下载地址 http://isoredirect.centos.org/centos/6/isos/x86_64/ 安装虚拟化软件 http://www.jianshu.com/p/6b589ecd62c2 安装Linux操作系统 CentOS http://www.jianshu.com/p/9a65e26cb1c7 设置Linux操作系统网络 http://www.jianshu.com/p/dece534c011a 设置服务器时间 sudo
Albert陈凯
2018-04-08
7920
大数据系列课程——根据情况调整Hadoop系列课程安排
Hadoop系列课程安排 手把手带你转行大数据人工智能 大数据和人工智能的发展前景 大数据开发都在开发什么 项目整体介绍与大数据开发训练速成 开发运行测试环境的介绍与搭建 通过前端代码了解大数据业务 离线日志分析系统页面展示 程序后台框架搭建 用户信息分析结果展示 用户数据的抽取转换加载(ETL数据清洗) 新增会员和总会员分析代码编写 活跃用户分析模块代码编写 活跃会员分析模块代码编写 新增会员和总会员分析模块代码编写 会话分析模块代码编写 每小时会话分析模块代码编写 数据分析
Albert陈凯
2018-04-08
5870
企业级Hadoop、Spark平台应用、开发、整合企业级Hadoop、Spark平台应用、开发、整合
企业级Hadoop、Spark平台应用、开发、整合 公司从Hadoop向Spark整合,主要的业务需求是做实时性要求更高的一些业务 系列课程的重点就是: 实用的一些技巧, 调优的一些手段、 企业中实际应用的一个场景 根据企业的应用场景,我们如何用Hadoop、Spark去解决 在这里,聆听最专业的实战指引 和我们一起,学习最热门的大数据技术 课程大纲 大数据的故事 Hadoop的演变 企业级大数据应用 大数据必备技能 平台一览 IOE VS HADOOP --IBM Oracle EMC 想必大家也都
Albert陈凯
2018-04-08
1.4K0
大数据实战项目《大型电商日志分析》的知识点大数据实战项目的知识点
大数据实战项目的知识点 1、大数据集群环境的搭建 CentOS 6.8、 hadoop-2.7.3、 hive-0.13.1 zookeeper-3.4.10 kafka_2.10-0.10.2.0、 flume-ng-1.7.0 日志采集流程、 Spark 1.6.3 2、企业级大数据项目的架构搭建 Java、配置管理组件、JDBC辅助组件(内置数据库连接池)、Domain与DAO模型 scala:只适合用于编写一些比较纯粹的一些数据处理程序(比如说一些复杂的数据etl) 真正的讲师本人做
Albert陈凯
2018-04-08
1.4K0
1.4 弹性分布式数据集
Spark大数据分析实战 1.4 弹性分布式数据集 本节将介绍弹性分布式数据集RDD。Spark是一个分布式计算框架,而RDD是其对分布式内存数据的抽象,可以认为RDD就是Spark分布式算法的数据结构,而RDD之上的操作是Spark分布式算法的核心原语,由数据结构和原语设计上层算法。Spark最终会将算法(RDD上的一连串操作)翻译为DAG形式的工作流进行调度,并进行分布式任务的分发。 1.4.1 RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Dist
Albert陈凯
2018-04-08
7600
Spark生态系统BDAS介绍
1.2 Spark生态系统BDAS 目前,Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS)。其核心框架是Spark,同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和Shark,提供机器学习功能的系统MLbase及底层的分布式机器学习库MLlib、并行图计算框架GraphX、流计算框架Spark Streaming、采样近似计算查询引擎BlinkDB、内存分布式文件系统Tachyon、资源管理框架Mesos等子
Albert陈凯
2018-04-04
1.8K0
1.1.2 Spark生态
1.1.2 Spark生态 Spark大数据计算平台包含许多子模块,构成了整个Spark的生态系统,其中Spark为核心。 伯克利将整个Spark的生态系统称为伯克利数据分析栈(BDAS),其结构如图1-1所示。 [插图] 图1-1 伯克利数据分析栈的结构 以下简要介绍BDAS的各个组成部分。 1. Spark Core Spark Core是整个BDAS的核心组件,是一种大数据分布式处理框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供如filter、join、gro
Albert陈凯
2018-04-04
7290
传统信息系统与大数据架构对比
image.png
Albert陈凯
2018-04-04
6670
《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系
《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系 课程特色: 本课程以 “互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技术,涉及数据收集,存储,数据分析以及数据可视化,最终会形成一个完整的大数据项目。 本课程以目前主流的,最新Hadoop稳定版2.7.x为基础,同时兼介绍3.0版本新增特性及使用,深入浅出地介绍Hadoop大数据技术体系的原理、内幕及案例实践, 内容包括大数据收集、存储、分布式资源管理以及各类主要计算引擎, 具体包括数据收集组件Flume、分布式文件
Albert陈凯
2018-04-04
1.2K0
Kylin正式发布:面向大数据的终极OLAP引擎方案
日前,eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎:Kylin(http://kylin.io)。作为一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案,Kylin成功将SQL接口与多维分析机制(OLAP)引入Hadoop,旨在对规模极为庞大的数据集加以支持。 背景信息 eBay公司当前面临的主要挑战在于,数据规模正随着用户群体的多样化拓展而水涨船高。我们的用户——比如在分析与业务部门当中希望能在保持最低延迟水平的前提下继续使用自己所熟悉的工具方案,例如
Albert陈凯
2018-04-04
1.2K0
大数据方向的十个岗位
随着大数据的趋势引起的越来越多的重视,各大企业对与大数据相关高端人才的需求也越来越紧迫。这一趋势,也给想要从事大数据方面工作的人员提供了难得的职业发展机遇。 目前,大数据方面的工作人员主要有三大就业方向:大数据系统研发类人才、大数据应用开发类人才和大数据分析类人才。 大数据系统研发工程师、 大数据应用开发工程师 数据分析师 从企业方面来说,大数据人才大致可以分为产品和市场分析、安全和风险分析以及商业智能三大领域。产品分析是指通过算法来测试新产品的有效性,是一个相对较新的领域。在安全和风险分析方面
Albert陈凯
2018-04-04
7830
PRESTO-分布式大数据SQL查询引擎
http://prestodb-china.com/ PRESTO是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 它可以做什么? Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。 一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。 Presto以分析师的需求作为目标,
Albert陈凯
2018-04-04
1.6K0
XX公司大数据笔试题(A)
XX公司大数据笔试题(A) 大数据基础(HDFS/Hbase/Hive/Spark〉 1.1. 对出Hadoop集群典型的配置文件名称,并说明各配置文件的用途。 1.2 怎么往HDFS上传文件和目
Albert陈凯
2018-04-04
2.1K0
大数据项目如何落地之路线图探讨
文 | 田军   今天,继续来谈一谈“大数据项目如何落地?”这个话题。从事过多个大数据项目的规划方案及项目落地工作,在这里与大家分享一些心得,主要是关于大数据项目如何成功落地并取得预期目标,也可以说
Albert陈凯
2018-04-04
1.2K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档