首页
学习
活动
专区
工具
TVP
发布

文渊之博

专栏作者
182
文章
305562
阅读量
38
订阅数
phoenix 索引实践
开启索引支持 HBase --> 配置 --> 高级 --> 搜索 hbase-site.xml。 在服务端添加下面配置:
用户1217611
2020-06-19
1.2K0
Spark DataFrame简介(二)
Spark的TimestampType类型与Java的java.sql.Timestamp对应,
用户1217611
2020-06-19
4120
Spark DataFrame简介(一)
本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。
用户1217611
2020-06-19
1.7K0
yarn-site.xml 配置介绍
yarn-site.xml 配置介绍 yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb 说明:单个容器可申请的最小与最大内存,应用在运行申请内存时不能超过最大值,小于最小值则分配最小值,从这个角度看,最小值有点想操作系统中的页。最小值还有另外一种用途,计算一个节点的最大container数目注:这两个值一经设定不能动态改变(此处所说的动态改变是指应用运行时)。 默认值:1024/8192 yarn.scheduler.minimum-allocation-vcores yarn.scheduler.maximum-allocation-vcores 参数解释:单个可申请的最小/最大虚拟CPU个数。比如设置为1和4,则运行MapRedce作业时,每个Task最少可申请1个虚拟CPU,最多可申请4个虚拟CPU。 默认值:1/32 yarn.nodemanager.resource.memory-mb yarn.nodemanager.vmem-pmem-ratio 说明:每个节点可用的最大内存,RM中的两个值不应该超过此值。此数值可以用于计算container最大数目,即:用此值除以RM中的最小容器内存。虚拟内存率,是占task所用内存的百分比,默认值为2.1倍;注意:第一个参数是不可修改的,一旦设置,整个运行过程中不可动态修改,且该值的默认大小是8G,即使计算机内存不足8G也会按着8G内存来使用。 默认值:8G /2.1 yarn.nodemanager.resource.cpu-vcores 参数解释:NodeManager总的可用虚拟CPU个数。 默认值:8 AM内存配置相关参数,此处以MapReduce为例进行说明(这两个值是AM特性,应在mapred-site.xml中配置),如下: mapreduce.map.memory.mb mapreduce.reduce.memory.mb 说明:这两个参数指定用于MapReduce的两个任务(Map and Reduce task)的内存大小,其值应该在RM中的最大最小container之间。如果没有配置则通过如下简单公式获得: max(MIN_CONTAINER_SIZE, (Total Available RAM) / containers)) 一般的reduce应该是map的2倍。注:这两个值可以在应用启动时通过参数改变; AM中其它与内存相关的参数,还有JVM相关的参数,这些参数可以通过,如下选项配置: mapreduce.map.java.opts mapreduce.reduce.java.opts 说明:这两个参主要是为需要运行JVM程序(java、scala等)准备的,通过这两个设置可以向JVM中传递参数的,与内存有关的是,-Xmx,-Xms等选项。此数值大小,应该在AM中的map.mb和reduce.mb之间。 我们对上面的内容进行下总结,当配置Yarn内存的时候主要是配置如下三个方面:每个Map和Reduce可用物理内存限制;对于每个任务的JVM对大小的限制;虚拟内存的限制; 下面通过一个具体错误实例,进行内存相关说明,错误如下: Container[pid=41884,containerID=container_1405950053048_0016_01_000284] is running beyond virtual memory limits. Current usage: 314.6 MB of 2.9 GB physical memory used; 8.7 GB of 6.2 GB virtual memory used. Killing container. 配置如下:
用户1217611
2020-06-19
1.6K0
yarn一些最佳配置
合理设置队列名 mapreduce.job.queuename 设置队列名 map读取时进行小文件整合
用户1217611
2020-06-19
1.6K0
简单介绍python的双向队列
  大家都知道利用 .append 和 .pop 方法,我们可以把列表当作栈或者队列来用(比如,把 append 和 pop(0) 合起来用,就能模拟栈的“先进先出”的特点)。但是删除列表的第一个元素(抑或是在第一个元素之前添加一个 元素)之类的操作是很耗时的,因为这些操作会牵扯到移动列表里的所有元素。这个时候双向队列就又作用了。
用户1217611
2019-05-25
6330
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档