首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    自学Apache Spark博客(节选)

    Apache Spark,一个统一的大数据平台,如何帮助解决大数据问题。 ? Apache Spark最适合跨越平台,数据源,应用程序和用户的并行内存处理。...例如,如果您在美国西部(俄勒冈州)地区创建一个密钥对,你不能在另一个区域看到或使用密钥对。 在导航窗格中,在NETWORK & SECURITY下,选择密钥对。 选择创建密钥对。...如果你在Mac或Linux电脑上使用SSH客户端连接到您的Linux实例,使用下面的命令来设置您的私钥文件的权限,这样只有你有读的权限。...它提供多种API,如Scala,Hive,R,Python,Java和Pig。 Scala - 这是用来开发Apache Spark本身的语言。Scala设计初衷是实现可伸缩语言。...Scala> 首先要注意的是,Spark shell为你创建了两个值,一个是sc,另一个是sqlcontext。Sqlcontext用于执行Spark SQL库中的程序。

    1.2K90

    推荐系统那点事 —— 基于Spark MLlib的特征选择

    如果是下标都可以使用setIndices方法 如果是列名可以使用setNames方法。使用这个方法的时候,vector字段需要通过AttributeGroup设置每个向量元素的列名。...scala.Option.map(Option.scala:145) at org.apache.spark.ml.feature.VectorSlicer.transform(VectorSlicer.scala...具体的可以参考维基百科,最终的结论就是卡方的值越大,就是我们越想要的特征。因此这个选择器就可以理解为,再计算卡方的值,最后按照这个值排序,选择我们想要的个数的特征。...RFormula,这个选择器适合在需要做OneHotEncoder的时候,可以一个简单的代码把所有的离散特征转化成数值化表示。...ChiSqSelector,卡方检验选择器适合在你有比较多的特征,但是不知道这些特征哪个有用,哪个没用,想要通过某种方式帮助你快速筛选特征,那么这个方法很适合。

    1.4K90

    Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

    Window Operations(窗口操作) Spark Streaming 也支持 windowed computations(窗口计算),它允许你在数据的一个滑动窗口上应用 transformation...如上图显示,窗口在源 DStream 上 slides(滑动),合并和操作落入窗内的源 RDDs,产生窗口化的 DStream 的 RDDs。...此外,在 stream(流)的窗口上进行 join 通常是非常有用的. 这也很容易做到....设置最大接收速率 - 如果集群资源不够大, streaming 应用程序能够像接收到的那样快速处理数据, 则可以通过设置 记录/秒 的最大速率限制来对 receiver 进行速率限制....在Spark 1.5中, 我们引入了一个称为背压的功能, 无需设置此速率限制, 因为Spark Streaming会自动计算速率限制, 并在处理条件发生变化时动态调整速率限制.

    2.2K90

    RDD操作—— 行动(Action)操作

    ,会把当前遍历到的这行文本内容赋值给参数line,然后,执行处理逻辑line.contains(“spark”),也就是只有当改行文本包含“spark”才满足条件,才会被放入到结果集中。...如果整个Spark程序中只有一次行动操作,这当然不会有什么问题。但是,在一些情形下,我们需要多次调用不同的行动操作,这就意味着,每次调用行动操作,都会触发一次从头开始的计算。...对于不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、Mesos模式),都可以通过设置spark.default.parallelism这个参数的值,来配置默认的分区数目,...”和“2”二者中取较大值作为默认值; 因此,对于parallelize而言,如果没有在方法中指定分区数,则默认为spark.default.parallelism,比如: scala>val array...#设置两个分区 rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[13] at parallelize at :29

    1.5K40

    spark streaming知识总结

    想创建滑动窗口上一个30秒(或则上3batches)),我们应该设置windowDuration30秒。sliding时间间隔,默认是batch时间间隔,控制DStream刷新计算结果。...如果我们的DStream batch时间区间为10秒,我们想计算我们的window,只能在每个第二batch。我们设置我们的sliding间隔为20秒。...()是hadoop输出格式,例如Spark Streaming没有SaveAsSequenceFile()函数,我们可以保存为SequenceFiles Scala val writableIpAddressRequestCount...因此,需要小心设置checkpoint 的时间间隔。设置得越小,checkpoint 次数会越多,占用空间会越大;如果设置越大,会导致恢复时丢失的数据和进度越多。...Apache Kafka 订阅Panda的topic【Scala】 import org.apache.spark.streaming.kafka._ ... // Create a map of topics

    1.3K40

    Spark Streaming连接Flume的两种方式

    设置起来非常简单,我们只需要将Fluem简单配置下,将数据发送到Avro数据池中,然后scala提供的FlumeUtils代理对象会把接收器配置在一个特定的工作节点的主机名和端口上。...不仅如此,如果运行接收器的工作节点发生故障,系统会尝试从 另一个位置启动接收器,这时需要重新配置 Flume 才能将数据发给新的工作节点。这样配 置会比较麻烦。...拉式接收器该接收器设置了一个专门的Flume数据池供Spark Streaming拉取数据,并让接收器主动从数据池中拉取数据。...当你把自定义 Flume 数据池添加到一个节点上之后,就需要配置 Flume 来把数据推送到这个数据池中, a1.sinks = spark a1.sinks.spark.type = org.apache.spark.streaming.flume.sink.SparkSink...a1.sinks.spark.hostname = receiver-hostname a1.sinks.spark.port = port-used-for-sync-not-spark-port

    47620

    Spark历险记之编译和远程任务提交

    环境介绍 序号 应用 说明 1 CDH Hadoop2.6 如果想跑在hadoop上,则需要安装 2 JDK7 底层依赖 3 Scala2.11.7 底层依赖 4 Maven3.3.3 构建编译打包...scala export PATH=$PATH:$SCALA_HOME/bin 3,下载spark,这里推荐下载spark源码,自己编译所需对应的hadoop版本,虽然spark官网也提供了二进制的包...http://spark.apache.org/downloads.html 4,编译spark 这里需要注意,默认的spark编译,使用的是scala2.10的版本,一定要确保你所有使用的scala...在大版本2.10.x范围内一致,否则在某些情况下可能会出现莫名其妙的问题。...编译步骤 (1)将下载好的spark源码解压到某个目录下 (2)进入源码目录,分别执行如下命令 设置使用scala那个版本编译 dev/change-version-to-2.11.sh maven

    2K90
    领券