blog.csdn.net/LHWorld

欢迎大家关注我的微信公众号LHWorld 带你领略算法和大数据的魅力
158 篇文章
28 人订阅

全部文章

LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

Hive篇--相关概念整理一

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务...

732
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【机器学习】--线性回归从初识到应用

线性回归是机器学习的基础,所以比较重要。这里边线性是指一次,回归实际上就是拟合。Copy过来一段线性回归的描述如下:确定一个唯一的因变量(需要预测的值)和一个或...

681
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【Redis篇】Redis集群安装与初始

前提是安装好redis具体可参考http://www.cnblogs.com/LHWorldBlog/p/8463269.html

771
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【Redis篇】初始Redis与Redis安装

Redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统。和Memcache类似,但很大程度补偿了Memcache的不足,它支持存储的v...

441
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

Yarn篇--搭建yarn集群

 <property>         <name>yarn.nodemanager.aux-services</name>         <value>ma...

662
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【Azkaban搭建】---Azkaban 3.25.0搭建细则 超实用

Azkaban是一个工作流调度工具,因为需要各个任务之间有依赖关系,传统的Crontab 任务已经不能满足。

1035
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【常见错误】--Nltk使用错误

AttributeError: module 'nltk' has no attribute 'word_tokenize'

1532
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

Python可视化库Matplotlib的使用

1293
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

Python爬虫知识点二

671
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

Python爬虫知识点一

1.1.HTTP简介 HTTP = HyperText Transfer Protocol URI = Uniform Resource Identifier ...

1002
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

从0到1搭建spark集群---企业集群搭建

今天分享一篇从0到1搭建Spark集群的步骤,企业中大家亦可以参照次集群搭建自己的Spark集群。

1783
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

hadoop集群篇--从0到1搭建hadoop集群

本来有套好好的集群,可是不知道为什么虚拟机镜像文件损坏,结果导致集群不能用。所以不得不重新搭套集群,借此机会顺便再重新搭套吧,顺便提醒一句大家,自己虚拟机的集群...

1401
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

Spark算子篇 --Spark算子之aggregateByKey详解

rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值

1333
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

Hadoop源码篇---解读Mapprer源码outPut输出

上次讲完MapReduce的输入后,这次开始讲MapReduce的输出。注意MapReduce的原语很重要:

1113
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

Hadoop源码篇--Reduce篇

Reduce文件会从Mapper任务中拉取很多小文件,小文件内部有序,但是整体是没序的,Reduce会合并小文件,然后套个归并算法,变成一个整体有序的文件。

1591
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【Spark篇】---Spark资源调度和任务调度

Spark的资源调度是个很重要的模块,只要搞懂原理,才能具体明白Spark是怎么执行的,所以尤其重要。

1424
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【Spark篇】---Spark中内存管理和Shuffle参数调优

Spark执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程,Driver负责创建SparkContext上下文,提交任务,tas...

1393
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

          Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。

1041
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【强化学习篇】--强化学习案例详解一

转变为如下图:先构造奖励,达到5,即能够走得5的action则说明奖励比较高设置成100,没有达到5说明奖励比较低,设置成0。

1801
LhWorld哥陪你聊算法

联想集团 · 高级算法工程师 (已认证)

【深度学习】--GAN从入门到初始

GAN,生成对抗网络,在2016年基本火爆深度学习,所有有必要学习一下。生成对抗网络直观的应用可以帮我们生成数据,图片。

1572

扫码关注云+社区