腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

LhWorld哥陪你聊算法

欢迎大家微信公众号LHWorld 带你领略算法和大数据的魅力；主页地址：https://blog.csdn.net/LHWorldBlog

专栏作者

159

文章

244699

阅读量

42

订阅数

【Spark篇】---Spark中内存管理和Shuffle参数调优

spark jvm 存储大数据 ide

Spark执行应用程序时，Spark集群会启动Driver和Executor两种JVM进程，Driver负责创建SparkContext上下文，提交任务，task的分发等。Executor负责task的计算任务，并将结果返回给Driver。同时需要为需要持久化的RDD提供储存。Driver端的内存管理比较简单，这里所说的Spark内存管理针对Executor端的内存管理。

LhWorld哥陪你聊算法

2018-09-13

1.3K0

【自然语言处理篇】--Chatterbot聊天机器人

NLP 服务机器人机器学习 python 存储

ChatterBot是一个基于机器学习的聊天机器人引擎，构建在python上，主要特点是可以自可以从已有的对话中进行学(jiyi)习(pipei)。

LhWorld哥陪你聊算法

2018-09-13

4.9K0

【Linux篇】--sed的用法

linux 正则表达式存储

Sed是一种流编辑器，它是文本处理中非常中的工具，能够完美的配合正则表达式使用，功能不同凡响。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。

LhWorld哥陪你聊算法

2018-09-13

1.5K0

【Spark篇】---Spark中Master-HA和historyServer的搭建和应用

spark zookeeper 分布式存储 java

Standalone集群只有一个Master，如果Master挂了就无法提交应用程序，需要给Master进行高可用配置，Master的高可用可以使用fileSystem(文件系统)和zookeeper（分布式协调服务）。

LhWorld哥陪你聊算法

2018-09-13

1K0

【CDH篇】---CDH从初识到搭建到应用

apache hadoop 存储分布式大数据

CDH（Cloudera's Distribution, including Apache Hadoop）是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建提供了Hadoop的核心可扩展存储、分布式计算基于Web的用户界面。简单来说CDH就是把我们知道的大数据家族组件进行了一个组合，然后提供了一个WEB-UI的页面，使原来的搭建操作变得非常简单。CDH架构图如下：

LhWorld哥陪你聊算法

2018-09-13

2.8K0

Flume篇---Flume安装配置与相关使用

apache 存储分布式 hbase http

Copy过来一段介绍Apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。官网：http://flume.apache.org/FlumeUserGuide.html

LhWorld哥陪你聊算法

2018-09-13

1.3K0

Hive篇---Hive与Hbase整合

hive hbase 存储 http apache

Hive会经常和Hbase结合使用，把Hbase作为Hive的存储路径，所以Hive整合Hbase尤其重要。

LhWorld哥陪你聊算法

2018-09-13

3K0

HBase篇--初始Hbase

hbase 分布式数据库 hadoop 存储

1.HBase，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。 2.利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。

LhWorld哥陪你聊算法

2018-09-13

4.3K0

Hive篇--搭建Hive集群

hive 存储数据库云数据库 SQL Server jar

Hive中搭建分为三中方式 a)内嵌Derby方式 b)Local方式 c)Remote方式三种方式归根到底就是元数据的存储位置不一样。

LhWorld哥陪你聊算法

2018-09-13

1K0

【Redis篇】初始Redis与Redis安装

云数据库 Redis nosql 存储缓存 http

Redis是当前比较热门的NOSQL系统之一，它是一个key-value存储系统。和Memcache类似，但很大程度补偿了Memcache的不足，它支持存储的value类型相对更多，包括string、list、set、zset和hash。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作。在此基础上，Redis支持各种不同方式的排序。和Memcache一样，Redis数据都是缓存在计算机内存中，不同的是，Memcache只能将数据缓存到内存中，无法自动定期写入硬盘，这就表示，一断电或重启，内存清空，数据丢失。所以Memcache的应用场景适用于缓存无需持久化的数据。而Redis不同的是它会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，实现数据的持久化。

LhWorld哥陪你聊算法

2018-09-13

8120

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态