首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Elasticsearch 可以更改 Mapping ?如何修改?

1、实战线上问题 最近几个线上问题,都和 Mapping 字段更新有关系,问题列表如下: 问题 1: Mapping新创建后,还可以更新?...问题 2: 群友 A:有人知道怎么在kibana里面给索引新增,删除字段? 群友 B: 不就是改 mapping 群友 A:怎么改? 群友 B:写dsl啊… 群友 A:只能加不能删吧?...2、问题拆解解读 问题1:Mapping新创建后,还可以更新?...实战环节不需要 reindex 就可以更新 Mapping,还是非常便捷的。 问题2:如何给索引新增、删除字段? 有人知道怎么在kibana里面给索引新增,删除字段?...Runtime field 运行时类型也能很好的解决本文提出的动态扩展字段的问题,鉴于篇幅原因,本文没有展开。

11.5K10
您找到你想要的搜索结果了吗?
是的
没有找到

自适应查询执行:在运行时提升Spark SQL执行性能

核心在于:通过在运行时对查询执行计划进行优化,允许Spark Planner在运行时执行可选的执行计划,这些计划将基于运行时统计数据进行优化,从而提升性能。...用户可以在开始时设置相对较多的shuffle分区数,AQE会在运行时将相邻的小分区合并为较大的分区。...大量的task也会给Spark任务调度程序带来更多的负担 为了解决这个问题,我们可以在开始时设置相对较多的shuffle分区数,然后在运行时通过查看shuffle文件统计信息将相邻的小分区合并为较大的分区...对于在运行时转换的broadcast hash join,我们可以进一步将常规的shuffle优化为本地化shuffle来减少网络流量。...启用AQE 可以通过设置参数spark.sql.adaptive为true来启用AQE(在Spark3.0中默认为false)。

2.2K10

有哪些方法可以在运行时动态生成一个Java类?

我们可以从常见的 Java 类来源分析,通常的开发过程是,开发者编写 Java 代码,调用 javac编译成 class 文件,然后通过类加载机制载入 JVM,就成为应用运行时可以使用的 Java 类了...从上面过程得到启发,其中一个直接的方式是从源码入手,可以利用 Java 程序生成一段源码,然后保存到文件等,下面就只需要解决编译问题了。...最后,再利用类加载器,在运行时加载即可。...对于一个普通的 Java 动态代理,其实现过程可以简化成为: 提供一个基础的接口,作为被调用类型(com.mycorp.HelloImpl)和代理类之间的统一入 口,如 com.mycorp.Hello...通过 Proxy 类,调用其 newProxyInstance 方法,生成一个实现了相应基础接口的代理类实例,可以看下面的方法签名。

2.4K00

Zeppelin Interpreter全面解析

例如 您可以spark 的解释器设置中定义 SPARK_HOME 和 HADOOP_CONF_DIR,它们将作为 Spark 使用的环境变量传递给 Spark 解释器进程。...您可以通过在解释器属性值中添加 #{contextParameterName} 来使用来自解释器上下文的参数参数可以是以下类型:字符串、数字、布尔值。...用户可以通过 zeppelin.interpreter.lifecyclemanager.timeout.threshold 设置更改此阈值。...NullLifecycleManager 是默认的生命周期管理器,用户可以通过 zeppelin.interpreter.lifecyclemanager.class 更改它。...如果您在某个段落仍在运行时重新启动 zeppelin 服务器,那么当您重新启动 Zeppelin 时,尽管解释器进程仍在运行,您将看不到该段落正在前端运行。

1.6K10

用 Facebook Hydra 参数配置框架来简化程序配置

开发人员可以借助Hydra,通过更改配置文件来更改产品的行为方式,而不是通过更改代码来适应新的用例。 本文通过几个示例为大家展示如何使用。...可以在运行应用程序之前就组成和覆盖配置。 动态命令行选项卡完成功能可帮助开发人员发现复杂配置并减少错误。 可以在本地或远程启动应用程序,使用户可以利用更多的本地资源。...Hydra 通过为每次运行生成输出目录,并在运行代码之前更改当前工作目录来解决此问题。这样可以很好地将来自同一 sweep 的任务分组在一起,同时保持每个任务与其他任务的输出分离。...可以看到,每次运行时候,对应的参数配置都保存在其中。这样极大的方便了用户的比对和分析。...遇到这个情况,我是使用 python 文件内部 调用 linux命令行,然后在spark-submit之前就处理其参数,在 spark行时候 转发程序输出的办法来解决(如果哪位同学有更好的办法,可以告诉我

1.5K40

Apache Spark:来自Facebook的60 TB +生产用例

我们在 PipedRDD 中进行了更改,优雅的处理获取失败,使该作业可以从这种类型的获取失败中恢复。...每个任务的执行时间分为子阶段,以便更容易找到job中的瓶颈。 Jstack:Spark UI还在执行程序进程上提供按需jstack函数,可用于查找代码中的热点。...我们进行了更改以缓存索引信息,以便我们可以避免文件打开/关闭,并重用索引信息以用于后续提取。此更改将总的shuffle时间减少了50%。...我们做了一个更改,使缓冲区大小可配置,并且大缓冲区大小为64 MB,我们可以避免大量的数据复制,使工作速度提高约5%。...我们引入了一个配置参数来使map输入大小可配置,因此我们可以通过将输入分割大小设置为2 GB来将该数量减少8倍。

1.2K20

Spark面试题汇总及答案(推荐收藏)

Spark streaming以及基本工作原理? DStream以及基本工作原理? spark有哪些组件? spark工作机制? 说下宽依赖和窄依赖 Spark主备切换机制原理知道?...RDD机制理解? rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类,但是都可以进行互相转换。...Spark主备切换机制原理知道? Master实际上可以配置两个,Spark原生的standalone模式是支持Master主备切换的。...21. spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面 spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在...因为Spark Application在运行前就已经通过Cluster Manager获得了 计算资源,所以在运行时Job本身的 调度和处理和Master是没有任何关系。

76720

Spark面试题汇总及答案(推荐收藏)

Spark streaming以及基本工作原理? DStream以及基本工作原理? spark有哪些组件? spark工作机制? 说下宽依赖和窄依赖 Spark主备切换机制原理知道?...RDD机制理解? rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类,但是都可以进行互相转换。...Spark主备切换机制原理知道? Master实际上可以配置两个,Spark原生的standalone模式是支持Master主备切换的。...21. spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面 spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在...因为Spark Application在运行前就已经通过Cluster Manager获得了 计算资源,所以在运行时Job本身的 调度和处理和Master是没有任何关系。

1.2K30

一篇并不起眼的Spark面试题

Spark streaming以及基本工作原理? DStream以及基本工作原理? spark有哪些组件? spark工作机制? 说下宽依赖和窄依赖 Spark主备切换机制原理知道?...RDD机制理解? rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类,但是都可以进行互相转换。...Spark主备切换机制原理知道? Master实际上可以配置两个,Spark原生的standalone模式是支持Master主备切换的。...21. spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面 spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在...因为Spark Application在运行前就已经通过Cluster Manager获得了 计算资源,所以在运行时Job本身的 调度和处理和Master是没有任何关系。

87421

一篇并不起眼的Spark面试题

Spark streaming以及基本工作原理? DStream以及基本工作原理? spark有哪些组件? spark工作机制? 说下宽依赖和窄依赖 Spark主备切换机制原理知道?...RDD机制理解? rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类,但是都可以进行互相转换。...Spark主备切换机制原理知道? Master实际上可以配置两个,Spark原生的standalone模式是支持Master主备切换的。...21. spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面 spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在...因为Spark Application在运行前就已经通过Cluster Manager获得了 计算资源,所以在运行时Job本身的 调度和处理和Master是没有任何关系。

4.5K30

SparkSQL的自适应执行-Adaptive Execution

Spark SQL 自适应执行优化引擎 背景 Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。...在Spark SQL中, shufflepartition数可以通过参数spark.sql.shuffle.partition来设置,默认值是200。...自适应划分依据 按照每个reducer处理partition数据内存大小分,每个64m 按照每个reducer处理partition数据条数分,100000条 动态调整执行计划 在运行时动态调整join...BroadcastHashJoin,每一个reducer读取一个mapper的整个shuffle output文件,shuffle读变成了本地读取,没有数据通过网络传输;数据量一般比较均匀,也就避免了倾斜; 动态处理数据倾斜 在运行时很容易地检测出有数据倾斜的...使用 配置参数 org.apache.spark.sql.internal.SQLConf spark.sql.adaptive.enabled=true 倾斜处理开关 spark.sql.adaptive.shuffle.targetPostShuffleInputSize

1.5K10

Spark 查看某个正在执行的或已结束的任务中executor与driver日志

在web界面上查看 任务正在运行 如果运行在 YARN 模式,可以在 ResourceManager 节点的 WEB UI 页面根据 任务状态、用户名 或者 applicationId Search 到应用...到这个界面之后,可以点击 Executors 菜单,这时可以进入到 Spark 程序的 Executors 界面,里面列出所有Executor信息,以表格的形式展示,在表格中有 Logs 这列,里面就是...要实现日志聚集,需要在yarn-site.xml文件中配置如下几个参数: yarn.log-aggregation-enable 参数解释:是否启用日志聚集功能。...(或 spark2-submit)运行时的打印日志,这个日志是我们排查问题首先要拿到的。...Spark 程序的日志根据 spark 程序所在的阶段需要去不同的地方查看 比如程序正在运行时可以通过程序本身的 web UI 查看运行时的日志,程序结束后,web UI 就退出了,Spark 会将日志移动到

5.4K40

Spark性能优化 (4) | JVM 调优

Spark UI中可以查看每个stage的运行情况,包括每个task的运行时间、gc时间等等,如果发现gc太频繁,时间太长,就可以考虑调节Storage的内存占比,让task执行算子函数式,有更多的内存可以使用...Storage内存区域可以通过spark.storage.memoryFraction参数进行指定,默认为0.6,即60%,可以逐级向下递减, val conf = new SparkConf()...Executor堆外内存的配置需要在spark-submit脚本里配置, --conf spark.executor.memoryOverhead=2048 以上参数配置完成后,会避免掉某些JVM OOM...的异常问题,同时,可以提升整体 Spark 作业的性能。...这种情况也可能会导致 DAGScheduler 反复提交几次 stage,TaskScheduler 返回提交几次 task,大大延长了我们的 Spark 作业的运行时间。

87930

Spark性能调优篇七之JVM相关参数调整

其实通过Spark监控平台就可以看到Spark作业的运行情况了,如果发现task频繁的gc,就可以去调整cache的内存占用比了。...我们第二个JVM优化点是堆外内存和连接等待时长的调整;其实这两个参数主要是为了解决一些Spark作业运行时候出现的一些错误信息而进行调整的。下面我们来分别介绍一下这两个点。...这是因为可能是说executor的堆外内存不太够用,导致executor在运行的过程中,可能会内存溢出;然后可能导致后续的stage的task在运行的时候,可能要从一些executor中去拉取shuffle...大大延长我们的spark作业的运行时间。...后续还会不断更新关于Spark作业优化的一些其他方式,欢迎关注。 如需转载,请注明: z小赵 Spark性能调优之JVM相关参数调整

1.8K10

Spark-submit 参数调优完整攻略

参数调优建议:如果Spark作业中,有较多的RDD持久化操作,该参数的值可以适当提高一些,保证持久化的数据能够容纳在内存中。避免内存不够缓存所有的数据,导致数据只能写入磁盘中,降低了性能。...个人不太建议调该参数 --conf spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。...这个选项可以Spark SQL把每条查询语句在运行前编译为java二进制代码,由于生成了专门运行指定查询的代码,codegen可以让大型查询或者频繁重复的查询明显变快,然而在运行特别快(1-2秒)的即时查询语句时...检查逻辑代码中注释很明白,当成功的Task数超过总Task数的75%(可通过参数spark.speculation.quantile设置)时,再统计所有成功的Tasks的运行时间,得到一个中位数,用这个中位数乘以...1.5(可通过参数spark.speculation.multiplier控制)得到运行时间门限,如果在运行的Tasks的运行时间超过这个门限,则对它启用推测。

2.7K20

重要 | Spark和MapReduce的对比以及选型

等类似的面试题时能够得到较好地表现,顺利拿下offer】 首先纠正一个误区:在浏览Spark官网时,经常能看到如下这张图: spark_vs_mr.jpg 从上图可以看出Spark的运行速度明显比...这张图是分别使用Spark和Hadoop运行逻辑回归机器学习算法的运行时间比较,那么能代表Spark运行任何类型的任务在相同的条件下都能得到这个对比结果?...而Spark作为一个基于内存迭代式大数据计算引擎很适合这样的场景,之前的文章《Spark RDD详解》也有介绍,对于相同的数据集,我们是可以在第一次访问它之后,将数据集加载到内存,后续的访问直接从内存中取即可...但是MapReduce由于运行时中间结果必然刷磁盘等因素,导致不适合机器学习等的迭代场景应用,还有就是HDFS本身也有缓存功能,官方的对比极有可能在运行逻辑回归时没有很好配置该缓存功能,否则性能差距也不至于这么大...MapReduce有很多优势,但并不代表Spark目前可以完全取代MapReduce。

1.3K40
领券