如何使用Spark Dstream进行简单的随机采样？(使用spark 1.6.1的pyspark)

文章/答案/技术大牛

发布

2回答

、

我想从数据流中的rdds中提取样本。因为数据流没有sample()转换，它是一个rdds序列，所以我这样做是为了从数据流中提取样本，并对其应用字数计数：from pysparkimport SparkConf conf=SparkConf() from pyspark

浏览 8提问于2016-08-19得票数 0

回答已采纳

1回答

使用DStream接口从Kafka读取Spark* Straming中的时间戳*

、、、、

我想从Kafka主题中读取使用Python的Spark streaming的值。我使用的是带有spark-streaming-kafka-0-8支持的DStream应用程序接口(尽管已被弃用)。我的代码如下： from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingCont

浏览 22提问于2020-04-30得票数 0

3回答

使用pyspark* / spark对大型分布式数据集进行采样*

、

我在hdfs中有一个文件，它分布在集群中的所有节点上。>>> textFile = sc.textFile("/user/data/myfiles/*") 然后我想简单地取一个样本..。关于Spark最酷的事情是有像takeSample这样的命令，不幸的

浏览 1提问于2014-07-17得票数 16

回答已采纳

1回答

写入Spark* Avro失败*

、、

我们运行的是MapR 5.1和Spark 1.6.1。这是根据databricks github上的说明进行的。我使用这些包调用pyspark shell或spark-submit： /opt/mapr/spark/spark-1.6.1/bin/pyspark --packages com.databr

浏览 1提问于2016-09-29得票数 2

2回答

如何使用pyspark将spark转换的数据写回kafka代理？

、、、、

在我的pyspark应用程序中，我打算使用Spark streaming作为一种“飞行中”转换Kafka消息的方法。每个这样的消息最初都是从特定的Kafka主题接收的。这样的消息需要经过一些转换(比方说-用一个字符串替换另一个字符串)，转换后的版本需要发布在不同的Kafka主题上。第一部分(接收Kafka消息)似乎工作正常： from pyspark import SparkCon

浏览 1提问于2016-05-20得票数 1

2回答

使用别名选择列

、

我试图做一个简单的选择，从别名使用SQLContext.sql在火花1.6。这是我看到的错误信息。对于一个简单的选择，我可以删除别名，但最终我尝试使用具有相同列名的多个表进行连接。> File "/home/pricing/sp

浏览 8提问于2017-03-07得票数 3

回答已采纳

1回答

我的Macbook Pro上可以同时运行两个工作的pyspark版本(1.6.1和2.0)吗？

、

我目前正在使用Spark 1.6.1，并在Jupyter Ipython笔记本和Java 8中使用它。对于Java，我只需修改我的maven pom以导入Spark 2.0，但我不确定如何在ipython中做同样的事情。我认为我需要安装2.0，但这是可行的，因为我已经安装了Spark 1.6.1？我可以在我的macbook上同时使用两个版本，并从pyspa

浏览 2提问于2016-09-22得票数 0

1回答

'[f756ea2593ee][172.18.0.4:9300][indices:data/write/update[s]]') (RequestError)(400，“非法_参数_异常”)

、

我正在使用pyspark和elasticsearch (py库)，在更新ES中的一个文档时，我得到了以下错误。, *rdds) File "/usr/bin/spark-2.4.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/streaming/dstream.py"/usr/bin/

浏览 4提问于2021-09-08得票数 0

回答已采纳

2回答

在PySpark中以编程方式设置驱动程序内存大小

、、

为了编写一个独立的脚本，我想直接从Python启动和配置一个Spark上下文。使用PySpark的脚本，我可以通过以下方式设置驱动程序的内存大小：.... $ /opt/spark-1.6.1/bin/pyspark --conf

浏览 6提问于2016-06-23得票数 7

回答已采纳

2回答

如何在巨蟒的星火笔记本上使用熊猫(dashDB数据)

、、、

在这里，我使用Apache笔记本并从dashDB加载数据，我试图提供一个可视化，它不是显示行，而是显示列。def get_file_content(credentials): sqlContext = SQLContext(sc)credentials['jdbcurl'],table,properties=props)当我使用这个命令

浏览 7提问于2016-06-07得票数 1

1回答

Spark streaming一个接一个地处理RDDs？

、

我用pyspark写了一个Spark Streaming程序。它通过socketTextStream接收实时输入的文本流，并进行相应的转换，然后通过saveAsTextFile将其保存为csv文件。不使用Spark streaming窗口操作，并且不需要以前的数据来创建输出数据。但是似乎在前一个RDD完成之前，Spark不会开始处理DStream中的RDD，即使前一个RDD只使用

浏览 1提问于2015-04-29得票数 0

1回答

ValueError：(序号必须是>= 1)

、、

我正在使用ibmdpy尝试将数据加载到bluemix上的dashdb中。Ibmdpy需要一个熊猫数据，所以我把星火数据转换成熊猫，然后加载到dashdb中。/spark-1.6.1-bin-hadoop2.6/python/pyspark/rdd.pyc in _load_from_socket(port, serializer) 140 try:/spark-1.6.1-bin-hadoop2.6/p

浏览 2提问于2016-06-14得票数 1

17回答

如何将PyCharm与PySpark连接？

、、、、

我是apache的新手，显然，我在我的macbook中安装了带有自制软件的apache-spark：user@MacBook-Pro-de-User但是，我使用Pycharm在python中编写脚本。问题是:当我去Pycharm并尝试调用pyspark时，Pycharm找不到模块。("/Users/user/Apps/spark-1.

浏览 13提问于2016-01-08得票数 88

回答已采纳

1回答

pprint中的转换DStream在调用它时会产生错误。

、、、

我正在探索通过PySpark进行流传输的火花，并在尝试将transform函数与take一起使用时出错。我可以通过sortBy和DStream的结果来成功地对DStream使用transform和pprint。author_counts_sorted_dstream = author_counts_dstream.transform\ .sortBy(lambda如果我按照

浏览 2提问于2017-01-05得票数 4

回答已采纳

1回答

_pickle.PicklingError:无法序列化对象: TypeError:无法pickle _thread.RLock对象

、、、

我想用Kafka和Spark做情感分析。我想做的是从Kafka中读取流数据，然后使用Spark对数据进行批处理。在此之后，我想使用我使用Tensorflow创建的函数sentimentPredict()来分析批处理。这就是我到目前为止所做的。8_2.11:2.0.2 pyspark-shell' from pyspark import SparkC

浏览 0提问于2018-04-09得票数 8

5回答

在AWS EMR v4.0.0上使用Pyspark配置Ipython/Jupyter笔记本

、、、

我正在尝试使用带有Apache Spark 1.4.0的IPython笔记本。我已经按照下面的2个教程设置了我的配置 1.ipython_notebook_config.pyc.NotebookApp.ipsyssys.path.insert(0, spark</em

浏览 1提问于2015-09-26得票数 4

1回答

火花错误:找不到或加载主类org.apache.spark.launcher.Main

、

我刚刚下载了Spark的spark-1.6.1-bin-hadoop2.4并试图打开PySpark Shell ./bin/pyspark，但不幸的是，我被提示如下：环境： Python 2.7.

浏览 1提问于2016-03-31得票数 4

1回答

纱线执行器发射火花错误版本

、、

我安装了一个带有Hadoop2.6.3和Spark1.6的集群。最近，我将spark升级到2.0，一切看起来都很好，直到我试着运行一些以前的工作，比如spark 1.6，它与spark 2.0有一些兼容的问题。我试过的第一件事是：/usr/local/spark-1.6.1-bin-hadoop2.6 /usr/l

浏览 3提问于2016-10-21得票数 0

回答已采纳

1回答

如何向bluemix pyspark添加参数

、、、

我在ipython笔记本中使用pyspark并访问netezza数据库。我正尝试在bluemix上做类似的事情。问题是，为了访问netezza，我必须向pyspark启动添加参数。我如何在bluemix上做到这一点？下面是我独立启动pyspark的方法： $ PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" /usr/local

浏览 0提问于2016-05-19得票数 0

1回答

如何从PySpark* DStream写到Redis？*

、、、、

我正在使用Redis2.3.1从Kafka中读取一系列的值作为DStreams，我想对这些数据进行一些转换，比如取一个移动平均值，然后将其保存到PySpark中。\ .createDirectStream(streaming_context, ['price'], {"metadata.broker.list": kafka_urls}) 然后，我可以使用如下代码行对其进行转换，并且documentation for Redis说只有数据帧

浏览 32提问于2019-06-22得票数 0

点击加载更多