首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用Apache Spark和EVAM构建实时流式解决方案

近年来,EVAM开始探索利用AWS Kinesis和RedShift等流行功能用于客户解决方案,在本文中我们将探讨基于Apache Spark和EVAM事件处理引擎解决方案体系结构。...针对场景有效管理策略并在Spark或其他开源框架之上构建健壮实时参与解决方案是所面临众多挑战之一。 除对场景全球约束进行优先级排序和支持外,使用实时仪表板监视场景也很重要。...EVAM设计包括一个可视化场景设计器,它使用Spark技术事件输入来识别更高级别的业务事件。...一个实际方法是将Spark和经过验证企业实时事件处理引擎(如EVAM提供)一起使用。我公司EVAM是实时事件处理领域领导者,有超过四十家企业依靠EVAM来支持超过两亿终端用户。...在另一篇文章中,我们将探讨如何在AWS上部署EVAM,使用Kinesis,RedShift和其他服务为全球无线运营商提供实时事件解决方案

1.6K90
您找到你想要的搜索结果了吗?
是的
没有找到

Spark 出现问题及其解决方案

序列化问题要注意以下三点: 作为RDD元素类型自定义类,必须是可以序列化; 算子函数里可以使用外部自定义变量,必须是可以序列化; 不可以在RDD元素类型、算子函数里使用第三方不支持序列化类型...YARN-client 模式下,Driver 是运行在本地机器上Spark 使用 JVM PermGen 配置,是本地机器上spark-class文件,JVM 永久代大小是128MB,这个是没有问题...解决上述问题方法时增加PermGen容量,需要在spark-submit脚本中对相关参数进行设置, --conf spark.driver.extraJavaOptions="-XX:PermSize...持久化与checkpoint使用 Spark持久化在大部分情况下是没有问题,但是有时数据可能会丢失,如果数据一旦丢失,就需要对丢失数据重新进行计算,计算完后再缓存和使用,为了避免数据丢失,可以选择对这个...使用checkpoint优点在于提高了Spark作业可靠性,一旦缓存出现问题,不需要重新计算数据,缺点在于,checkpoint时需要将数据写入HDFS等文件系统,对性能消耗较大。

94820

使用Apache Spark和EVAM构建实时流式解决方案

近年来,EVAM一直在探索使用流行功能客户解决方案,比如AWS Kinesis和RedShift,在本文中我们将探讨基于Apache Spark和EVAM事件处理引擎解决方案体系结构。...在解决方案体系结构中,Spark为EVAM事件引擎提供了一个有效前端,它提供了一个业务事件抽象,适用于复杂场景支持。...EVAM设计包括一个Visual Scenario设计器,它使用Spark技术事件输入来识别更高级别的业务事件。...一个切实方法将使用Spark和已验证企业实时事件处理引擎(如EVAM提供)一起使用。我公司EVAM是实时事件处理领域领导者,有超过四十家企业依靠EVAM来支持超过两亿最终用户。...在另一篇文章中,我们将探讨如何在AWS上部署EVAM,使用Kinesis,RedShift和其他服务为全球无线运营商提供实时事件解决方案

1.3K50

MongoDB + Spark: 完整大数据解决方案

同理,在Spark 引擎层也有类似的封装,如Spark SQL、 RDD以及2.0版本新推出Dataframe等。 所以一个完整大数据解决方案,包含了存储,资源管理,计算引擎及接口层。...Spark + MongoDB 成功案例 目前已经有很多案例在不同应用场景中使用Spark+MongoDB。...Spark很多种形式来使用。...我们来总结一下Spark + MongoDB应用场景。在座同学可能很多人已经使用了MongoDB,也有些人已经使用了Hadoop。...如果你已经使用Hadoop而且数据已经在HDFS里面,你可以考虑使用Spark来实现更加实时更加快速分析型需求,并且如果你分析结果有数据量大、格式多变以及这些结果数据要及时提供给前台APP使用需求

2.6K90

Spark 数据倾斜及其解决方案

擅长各种业务形态业务架构、平台化以及各种业务解决方案。 本文从数据倾斜危害、现象、原因等方面,由浅入深阐述Spark数据倾斜及其解决方案。...提高 shuffle 并行度 Spark 在做 Shuffle 时,默认使用 HashPartitioner(非 Hash Shuffle)对数据进行分区。...(1)操作流程 RDD 操作 可在需要 Shuffle 操作算子上直接设置并行度或者使用 spark.default.parallelism 设置。...(3)解决方案 使用自定义 Partitioner 实现类代替默认 HashPartitioner,尽量将所有不同 Key 均匀分配到不同 Task 中。 (4)优势 不影响原有的并行度设计。...NOTES 使用Spark SQL时需要通过 SET spark.sql.autoBroadcastJoinThreshold=104857600 将 Broadcast 阈值设置得足够大,才会生效。

85020

Hadoop和spark:兼容才是可靠解决方案

说起大数据计算框架,Hadoop和Spark这两者之间,一直都是存在着争议,甚至一度还出现了Spark会替代Hadoop声音,但是随着这两年发展,事实告诉大家,Hadoop和Spark这两者之间,...那些一定要在Hadoop和Spark之间分隔孰优孰劣的人,其实忽视了很重要一点就是,设计人员最初初衷,其实是需要Hadoop和Spark实现在一个系统当中协同运行,共同提供更高效大数据处理解决方案...Hadoop和Spark,兼容合作才是目前大数据处理最佳解决方案。Hadoop和Spark各有所长,并且各自长处并不互相重叠。...举个很明显例子,Spark优势在于实时数据计算,而Hadoop优势在于离线数据计算,如果完全依靠Spark实时计算,当数据规模增长到一定量级时候,Spark系统也会扛不住,所以如果将Hadoop...关于Hadoop和Spark,需要记住一点就是,这两者之间,不是非此即彼关系,不是说一方要成为另一方替代者,而是两者彼此兼容,提供更强大数据处理解决方案

54310

Apache Spark:大数据时代终极解决方案

这些功能使Spark成为大数据分析最流行平台。Spark使用者包括eBay、Amazon和Yahoo等科技巨头,这些都预示着了Spark未来具有光明前景。...2014年11月,Zaharia(即前文提到Spark作者)企业Databricks通过使用Spark引擎以打破了大型数据集排序时间世界纪录。...第三种方法是使用SIMR(Spark In MapReduce),除了管理功能外,它还可以执行Spark作业。Spark shell可以在没有任何管理员权限情况下使用。...(这是我第一个使用Spark小字数计数程序。我将使用一个在Scala中制作简单MapReduce程序来计算每个单词频率。)...Spark多平台支持、与Hadoop集成能力以及它与云兼容性使它成为为大数据量身定做解决方案。 在现实世界中,Spark被用于许多应用程序。

1.8K30

Spark初识-Spark基本架构概览使用

,这时我们也可以选择利用spark集群强大计算资源,并行化地计算 一、架构及生态 架构示意图如下: Spark Core:实现了 Spark 基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块...Spark SQL:是 Spark 用来操作结构化数据程序包。通过SparkSql,我们可以使用 SQL或者Apache Hive 版本 SQL 方言(HQL)来查询数据。...Spark SQL 支持多种数据源,比如 Hive 表、Parquet 以及 JSON 等。 Spark Streaming:是 Spark 提供对实时数据进行流式计算组件。...提供了用来操作数据流 API,并且与 Spark Core 中 RDD API 高度对应。 Spark MLlib:提供常见机器学习 (ML) 功能程序库。...(Cluster Manager)上运行,目前 Spark 支持 3 种集群管理器: Hadoop YARN(在国内使用最广泛) Apache Mesos(国内使用较少, 国外使用较多) Standalone

53520

Spark 如何使用DataSets

从长远来看,我们期望 DataSets 成为编写更高效 Spark 应用程序强大方式。DataSets 可以与现有的 RDD API 一起使用,但是当数据可以用结构化形式表示时,可以提高效率。...Spark 1.6 首次提出了 Datasets,我们期望在未来版本中改进它们。 1. 使用Datasets Datasets 是一种强类型,不可变可以映射到关系性 schema 对象集合。...表格表示使用 Spark 内部 Tungsten 二进制格式存储,允许对序列化数据进行操作并提高内存利用率。...具体细节请参阅Spark SparkSession:一个新入口 这两种API都可以很容易地使用lambda函数表达转换操作。...这个新 Datasets API 另一个好处是减少了内存使用量。由于 Spark 了解 Datasets 中数据结构,因此可以在缓存 Datasets 时在内存中创建更优化布局。

3K30

使用Spark读取Hive中数据

而MapReduce执行速度是比较慢,一种改进方案就是使用Spark来进行数据查找和运算。...Hive和Spark结合使用有两种方式,一种称为Hive on Spark:即将Hive底层运算引擎由MapReduce切换为Spark,官方文档在这里:Hive on Spark: Getting...还有一种方式,可以称之为Spark on Hive:即使用Hive作为Spark数据源,用Spark来读取HIVE表数据(数据仍存储在HDFS上)。...因为Spark是一个更为通用计算引擎,以后还会有更深度使用(比如使用Spark streaming来进行实时运算),因此,我选用了Spark on Hive这种解决方案,将Hive仅作为管理结构化数据工具...通过这里配置,让Spark与Hive元数据库建立起联系,Spark就可以获得Hive中有哪些库、表、分区、字段等信息。 配置Hive元数据,可以参考 配置Hive使用MySql记录元数据。

11K60

SparkSpark2.0中如何使用SparkSession

除了有时限交互之外,SparkSession 提供了一个单一入口来与底层 Spark 功能进行交互,并允许使用 DataFrame 和 Dataset API 对 Spark 进行编程。...快速生成 DataSets 一种方法是使用 spark.range 方法。在学习如何操作 DataSets API 时,这种方法非常有用。...正如你所看到,输出中结果通过使用 DataFrame API,Spark SQL和Hive查询运行完全相同。...Spark Driver 使用它连接到集群管理器进行通信,提交 Spark 作业并知道要与之通信资源管理器(YARN,Mesos或Standalone)。它允许你配置 Spark 参数。...因此,如果你使用更少编程结构,你更可能犯错误更少,并且你代码可能不那么混乱。

4.6K61

Spark Sql系统入门4:spark应用程序中使用spark sql

问题导读 1.你认为如何初始化spark sql? 2.不同语言,实现方式都是什么? 3.spark sql语句如何实现在应用程序中使用?...为了使用spark sql,我们构建HiveContext (或则SQLContext 那些想要精简版)基于我们SparkContext.这个context 提供额外函数为查询和整合spark sql...使用HiveContext,我们构建SchemaRDDs.这代表我们机构化数据,和操作他们使用sql或则正常rdd操作如map()...._,像我们这样做SparkContext,获取访问implicits.这些implicits用来转换rdds,带着需要type信息到spark sql序列化rdds为查询。...基本查询例子 为了对一个表查询,我们调用HiveContext或则SQLContextsql()函数.第一个事情,我们需要告诉spark sql关于一些数据查询。

1.4K70

使用IDEA开发Spark程序

-3.1.3-bin-hadoop2.7\temp 如图 其中 SPARK_LOCAL_DIRS 是设置临时文件存储位置,比如运行一个jar文件,就会先把文件放到这个临时目录中,使用完成后再删除...运行 spark-shell 运行报错 java.io.IOException: Failed to delete 当我们提交打包好spark程序时提示如上报错。...在windows环境下本身就存在这样问题,和我们程序没有关系。...若是想消除该报错,可以在%SPARK_HOME%/conf下文件log4j.properties(没有的话可以复制log4j.properties.template文件) 最后面添加如下信息: log4j.logger.org.apache.spark.util.ShutdownHookManager...,在弹出菜单中点击Add Framework Support 在java目录上单击鼠标右键,在弹出菜单中选择Refactor,再在弹出菜单中选择Rename, 然后,在出现界面中把java目录名称修改为

71730

Kylin使用Spark构建Cube

Apache Kylin™是一个开源分布式分析引擎,提供Hadoop/Spark之上SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。...官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube问题也已解决,所以使用MapReduce构建Cube也是正常。.../bin/find-spark-dependency.sh) 使用脚本下载Spark[下载后目录位于$KYLIN_HOME/spark]: $ $KYLIN_HOME/bin/download-spark.sh...把Spark依赖jars打包成一个jar上传到HDFS上面,这里参照官网,另外打包成zip也是可以: $ jar cv0f spark-libs.jar -C $KYLIN_HOME/spark/...运行截图【spark2.1.2是kylin2.5.2自带spark版本,上述遇到问题kylin2.3.6和kylin2.5.2是一致】 ? ? ?

1.8K20
领券