腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如何
使用
Spark
Dstream
进行
简单
的
随机
采样
?(
使用
spark
1.6.1
的
pyspark
)
、
我想从数据流中
的
rdds中提取样本。因为数据流没有sample()转换,它是一个rdds序列,所以我这样做是为了从数据流中提取样本,并对其应用字数计数:from
pyspark
import SparkConf conf=SparkConf() from
pyspark
浏览 8
提问于2016-08-19
得票数 0
回答已采纳
1
回答
使用
DStream
接口从Kafka读取
Spark
Straming中
的
时间戳
、
、
、
、
我想从Kafka主题中读取
使用
Python
的
Spark
streaming
的
值。我
使用
的
是带有
spark
-streaming-kafka-0-8支持
的
DStream
应用程序接口(尽管已被弃用)。我
的
代码如下: from
pyspark
import SparkContext, SparkConf from
pyspark
.streaming import StreamingCont
浏览 22
提问于2020-04-30
得票数 0
3
回答
使用
pyspark
/
spark
对大型分布式数据集
进行
采样
、
我在hdfs中有一个文件,它分布在集群中
的
所有节点上。>>> textFile = sc.textFile("/user/data/myfiles/*") 然后我想
简单
地取一个样本..。关于
Spark
最酷
的
事情是有像takeSample这样
的
命令,不幸
的
浏览 1
提问于2014-07-17
得票数 16
回答已采纳
1
回答
写入
Spark
Avro失败
、
、
我们运行
的
是MapR 5.1和
Spark
1.6.1
。这是根据databricks github上
的
说明
进行
的
。我
使用
这些包调用
pyspark
shell或
spark
-submit: /opt/mapr/
spark
/
spark
-
1.6.1
/bin/
pyspark
--packages com.databr
浏览 1
提问于2016-09-29
得票数 2
2
回答
如何
使用
pyspark
将
spark
转换
的
数据写回kafka代理?
、
、
、
、
在我
的
pyspark
应用程序中,我打算
使用
Spark
streaming作为一种“飞行中”转换Kafka消息
的
方法。每个这样
的
消息最初都是从特定
的
Kafka主题接收
的
。这样
的
消息需要经过一些转换(比方说-用一个字符串替换另一个字符串),转换后
的
版本需要发布在不同
的
Kafka主题上。第一部分(接收Kafka消息)似乎工作正常: from
pyspark
import SparkCon
浏览 1
提问于2016-05-20
得票数 1
2
回答
使用
别名选择列
、
我试图做一个
简单
的
选择,从别名
使用
SQLContext.sql在火花1.6。这是我看到
的
错误信息。对于一个
简单
的
选择,我可以删除别名,但最终我尝试
使用
具有相同列名
的
多个表
进行
连接。> File "/home/pricing/
sp
浏览 8
提问于2017-03-07
得票数 3
回答已采纳
1
回答
我
的
Macbook Pro上可以同时运行两个工作
的
pyspark
版本(
1.6.1
和2.0)吗?
、
我目前正在
使用
Spark
1.6.1
,并在Jupyter Ipython笔记本和Java 8中
使用
它。对于Java,我只需修改我
的
maven pom以导入
Spark
2.0,但我不确定
如何
在ipython中做同样
的
事情。我认为我需要安装2.0,但这是可行
的
,因为我已经安装了
Spark
1.6.1
?我可以在我
的
macbook上同时
使用
两个版本,并从
pyspa
浏览 2
提问于2016-09-22
得票数 0
1
回答
'[f756ea2593ee][172.18.0.4:9300][indices:data/write/update[s]]') (RequestError)(400,“非法_参数_异常”)
、
我正在
使用
pyspark
和elasticsearch (py库),在更新ES中
的
一个文档时,我得到了以下错误。, *rdds) File "/usr/bin/
spark
-2.4.0-bin-hadoop2.7/python/lib/
pyspark
.zip/
pyspark
/streaming/
dstream
.py"/usr/bin/
浏览 4
提问于2021-09-08
得票数 0
回答已采纳
2
回答
在
PySpark
中以编程方式设置驱动程序内存大小
、
、
为了编写一个独立
的
脚本,我想直接从Python启动和配置一个
Spark
上下文。
使用
PySpark
的
脚本,我可以通过以下方式设置驱动程序
的
内存大小:.... $ /opt/
spark
-
1.6.1
/bin/
pyspark
--conf
浏览 6
提问于2016-06-23
得票数 7
回答已采纳
2
回答
如何
在巨蟒
的
星火笔记本上
使用
熊猫(dashDB数据)
、
、
、
在这里,我
使用
Apache笔记本并从dashDB加载数据,我试图提供一个可视化,它不是显示行,而是显示列。def get_file_content(credentials): sqlContext = SQLContext(sc)credentials['jdbcurl'],table,properties=props)当我
使用
这个命令
浏览 7
提问于2016-06-07
得票数 1
1
回答
Spark
streaming一个接一个地处理RDDs?
、
我用
pyspark
写了一个
Spark
Streaming程序。 它通过socketTextStream接收实时输入
的
文本流,并
进行
相应
的
转换,然后通过saveAsTextFile将其保存为csv文件。不
使用
Spark
streaming窗口操作,并且不需要以前
的
数据来创建输出数据。但是似乎在前一个RDD完成之前,
Spark
不会开始处理
DStream
中
的
RDD,即使前一个RDD只
使用
浏览 1
提问于2015-04-29
得票数 0
1
回答
ValueError:(序号必须是>= 1)
、
、
我正在
使用
ibmdpy尝试将数据加载到bluemix上
的
dashdb中。Ibmdpy需要一个熊猫数据,所以我把星火数据转换成熊猫,然后加载到dashdb中。/
spark
-
1.6.1
-bin-hadoop2.6/python/
pyspark
/rdd.pyc in _load_from_socket(port, serializer) 140 try:/
spark
-
1.6.1
-bin-hadoop2.6/p
浏览 2
提问于2016-06-14
得票数 1
17
回答
如何
将PyCharm与
PySpark
连接?
、
、
、
、
我是apache
的
新手,显然,我在我
的
macbook中安装了带有自制软件
的
apache-
spark
:user@MacBook-Pro-de-User但是,我
使用
Pycharm在python中编写脚本。问题是:当我去Pycharm并尝试调用
pyspark
时,Pycharm找不到模块。("/Users/user/Apps/
spark
-1.
浏览 13
提问于2016-01-08
得票数 88
回答已采纳
1
回答
pprint中
的
转换
DStream
在调用它时会产生错误。
、
、
、
我正在探索通过
PySpark
进行
流传输
的
火花,并在尝试将transform函数与take一起
使用
时出错。我可以通过sortBy和
DStream
的
结果来成功地对
DStream
使用
transform和pprint。author_counts_sorted_
dstream
= author_counts_
dstream
.transform\ .sortBy(lambda如果我按照
浏览 2
提问于2017-01-05
得票数 4
回答已采纳
1
回答
_pickle.PicklingError:无法序列化对象: TypeError:无法pickle _thread.RLock对象
、
、
、
我想用Kafka和
Spark
做情感分析。我想做
的
是从Kafka中读取流数据,然后
使用
Spark
对数据
进行
批处理。在此之后,我想
使用
我
使用
Tensorflow创建
的
函数sentimentPredict()来分析批处理。这就是我到目前为止所做
的
。8_2.11:2.0.2
pyspark
-shell' from
pyspark
import SparkC
浏览 0
提问于2018-04-09
得票数 8
5
回答
在AWS EMR v4.0.0上
使用
Pyspark
配置Ipython/Jupyter笔记本
、
、
、
我正在尝试
使用
带有Apache
Spark
1.4.0
的
IPython笔记本。我已经按照下面的2个教程设置了我
的
配置 1.ipython_notebook_config.pyc.NotebookApp.ipsyssys.path.insert(0,
spark</em
浏览 1
提问于2015-09-26
得票数 4
1
回答
火花错误:找不到或加载主类org.apache.
spark
.launcher.Main
、
我刚刚下载了
Spark
的
spark
-
1.6.1
-bin-hadoop2.4并试图打开
PySpark
Shell ./bin/
pyspark
,但不幸
的
是,我被提示如下:环境: Python 2.7.
浏览 1
提问于2016-03-31
得票数 4
1
回答
纱线执行器发射火花错误版本
、
、
我安装了一个带有Hadoop2.6.3和
Spark
1.6
的
集群。最近,我将
spark
升级到2.0,一切看起来都很好,直到我试着运行一些以前
的
工作,比如
spark
1.6,它与
spark
2.0有一些兼容
的
问题。我试过
的
第一件事是:/usr/local/
spark
-
1.6.1
-bin-hadoop2.6 /usr/l
浏览 3
提问于2016-10-21
得票数 0
回答已采纳
1
回答
如何
向bluemix
pyspark
添加参数
、
、
、
我在ipython笔记本中
使用
pyspark
并访问netezza数据库。我正尝试在bluemix上做类似的事情。问题是,为了访问netezza,我必须向
pyspark
启动添加参数。我
如何
在bluemix上做到这一点?下面是我独立启动
pyspark
的
方法: $
PYSPARK
_DRIVER_PYTHON=ipython
PYSPARK
_DRIVER_PYTHON_OPTS="notebook" /usr/local
浏览 0
提问于2016-05-19
得票数 0
1
回答
如何
从
PySpark
DStream
写到Redis?
、
、
、
、
我正在
使用
Redis2.3.1从Kafka中读取一系列
的
值作为DStreams,我想对这些数据
进行
一些转换,比如取一个移动平均值,然后将其保存到
PySpark
中。\ .createDirectStream(streaming_context, ['price'], {"metadata.broker.list": kafka_urls}) 然后,我可以
使用
如下代码行对其
进行
转换,并且documentation for Redis说只有数据帧
浏览 32
提问于2019-06-22
得票数 0
点击加载更多
相关
资讯
使用Spark进行微服务的实时性能分析
Uber机器学习平台Michelangelo是如何使用Spark模型的?
如何在万亿级别规模的数据量上使用 Spark?
如何在万亿级别规模的数据量上使用Spark
Spark Streaming 2.2.0 Example
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券