腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
无法
使用
pyspark
从
xml
加载
数据
python
、
pyspark
在jupyter中
使用
以下命令下载
数据
。# load
xml
file into spark data frame.出现以下错误: Py4JJavaErro
浏览 32
提问于2020-08-04
得票数 1
回答已采纳
4
回答
PySpark
java.io.IOException:方案没有FileSystem : https
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在
使用
本地窗口,并试图用python上的以下代码
加载
XML
文件,我遇到了这个错误,有人知道如何解决它吗?/201611339349202661_public.
xml
") 这就是错误 Py4JJavaError Traceback (most recent) C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\
pyspark
\sql\readwriter.py in load(self
浏览 87
提问于2017-11-17
得票数 4
回答已采纳
1
回答
在
PySpark
中读取
XML
文件
python
、
pyspark
、
pyspark-sql
我尝试将
XML
读入
PySpark
中的
数据
框架中。
从
的文档中,我了解了如何
加载
xml
文件,但返回的
数据
帧是空的。下面是我如何读取我试图解析的文件和文件的例子。from
pyspark
import SparkContext, SparkConfimport os os.environ['
PYSPARK
_SUBMIT_ARGS']
浏览 2
提问于2018-12-04
得票数 0
回答已采纳
1
回答
jupyter笔记本上的spark
xml
apache-spark
、
pyspark
、
jupyter-notebook
我正试图在我的jupyter笔记本上运行spark,以便
使用
spark读取
xml
文件。from os import environ我发现这是利用它的方法。但是,当我试图导入com.databricks.spark.
xml
._时,我会看到一个错误: 无模块名为
浏览 1
提问于2021-03-17
得票数 1
回答已采纳
1
回答
如何
使用
Pyspark
从
xml
文件创建子
数据
帧?
pyspark
我在
pyspark
中有所有这些支持库,并且我能够为parent创建
数据
帧- def xmlReader(root, row, filename): xref = df.select("genericEntity.entityIdgenericEntity.entityLongName") re
浏览 11
提问于2019-03-15
得票数 0
1
回答
Spark SQL
无法
访问火花服务器
apache-spark
、
hive
、
pyspark
、
spark-thriftserver
我
无法
配置Spark以使我能够访问中的Hive表(不
使用
JDBC,而是
从
Spark本地访问)from
pyspark
.sqlimp
浏览 0
提问于2019-01-14
得票数 0
1
回答
pyspqrk sql配置单元表中存在错误
数据
apache-spark
、
hive
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在尝试
使用
Pyspark
中包含25亿条记录的Hive表。我假设表中有一些格式错误的或其他“坏”
数据
。我
使用
的是spark版本1.6.2和python版本2.6.6:from
pyspark
.sql import
从
Hive CLI访问整个表似乎工作得很好。我假设有一些Spark由于某种原因
无法
处理的记录。我想知道,在将Hive表作为
pyspark</em
浏览 1
提问于2017-01-28
得票数 1
1
回答
将变量
加载
到
数据
帧中
python
、
apache-spark
、
pyspark
、
apache-spark-sql
在
PySpark
中,我尝试
从
字符串变量
加载
数据
帧。我的变量是一个多行文本.. string_data = """ david|23|London john|56|Goa """ 我想将这些
数据
加载
到
PySpark
中的
数据
帧中。我想
使用
数据
集,但它们在
PySpark
中不可用。<e
浏览 7
提问于2021-02-02
得票数 0
1
回答
如何
使用
数据
融合/Cloud Composer在GCP上调度
数据
处理
PySpark
作业
google-cloud-platform
、
pyspark
、
google-cloud-dataproc
、
google-cloud-composer
、
google-cloud-data-fusion
我最近开始学习GCP,我正在做一个POC,它要求我创建一个能够调度用
PySpark
编写的Dataproc作业的管道。目前,我已经在我的Dataproc集群上创建了一个Jupiter笔记本,它从GCS读取
数据
并将其写入BigQuery,它在Jupyter上工作得很好,但我想在流水线中
使用
该笔记本。就像在Azure上一样,我们可以
使用
Azure
数据
工厂来安排管道运行,请帮我找出哪个GCP工具可以帮助实现类似的结果。 我的目标是调度多个Dataproc作业的运行。
浏览 33
提问于2021-08-16
得票数 2
回答已采纳
2
回答
spark.read.format('libsvm')不
使用
python
pyspark
、
jupyter
、
pyspark-dataframes
我正在学习
PYSPARK
,遇到了一个我
无法
修复的问题。我按照这段视频
从
PYSPARK
文档中复制代码来
加载
线性回归的
数据
。我
从
文档中得到的代码是spark.read.format('libsvm').load('file.txt')。我在这个btw之前创建了一个spark
数据
帧。
浏览 0
提问于2019-12-09
得票数 2
1
回答
在木星笔记本中
使用
PySpark
读取
XML
python
、
xml
、
apache-spark
、
pyspark
我试图读取
XML
文件:df = spark.read.format('com.databricks.spark.
xml
').load('/path/to/my.
xml
')并获得以下错误:我试过:$spark_HOME/bin/spark
浏览 2
提问于2020-09-18
得票数 2
1
回答
火花放电负荷训练模型word2vec
python
、
load
、
pyspark
、
gensim
、
word2vec
我想
使用
word2vec和
PySpark
来处理一些
数据
。我以前
使用
过Google训练过的模型GoogleNews-vectors-negative300.bin和gensim在Python中。有办法用mllib.word2vec
加载
这个bin文件吗?或者,将
数据
作为字典
从
Python {word : [vector]} (或.csv文件)导出,然后
加载
到
PySpark
中是否有意义? 谢谢
浏览 1
提问于2017-04-06
得票数 8
回答已采纳
3
回答
如何本地读取羽毛/箭头文件?
apache-spark
、
pyspark
、
pyarrow
、
apache-arrow
、
feather
我有羽毛格式文件sales.feather,用于python和R之间的
数据
交换。在R中,我
使用
以下命令:在python中,我
使用
了:将
数据
从
该文件
加载
到内存到
从
pyspark
操作的Spark实例的最佳方法
浏览 2
提问于2018-12-01
得票数 12
1
回答
从
PySpark
加载
数据
apache-spark
、
jdbc
、
pyspark
、
apache-spark-sql
我正在尝试
使用
spark.read.jdbc
从
PySpark
连接到MS SQL DB。import osfrom
pyspark
.sql.functions import *from
pyspark
.sql.session import SparkSessionspark = Spa
浏览 1
提问于2020-11-29
得票数 0
回答已采纳
3
回答
如何
使用
Pyspark
和Dataframes查询Elasticsearch索引
elasticsearch
、
dataframe
、
pyspark
Elasticsaerch的文档只涵盖了
加载
到Spark的完整索引。from
pyspark
.sql import SQLContextdf = sqlContext.read.format("org.elasticsearch.spark.sql").load("index/type")如何执行查询以
从
Elasticsearch索引返回
数据
,并
使用
pys
浏览 0
提问于2016-07-03
得票数 11
1
回答
Spark.sql和sqlContext.sql
pyspark
、
apache-spark-sql
我尝试
从
sqlCtx.read.format
加载
数据
,在实例化sqlCtx.read.format错误的同时,我得到了"IllegalArgumentException: U“错误,但是当我
使用
spark.read.format当我
从
注册的temptable/视图中检索
数据
时,我也看到了相同的行为。我可以增加什么额外的
使用
sqlCtx.sql而不是spark.sql?import osimport pandas as pd i
浏览 3
提问于2017-03-15
得票数 3
回答已采纳
1
回答
如何在S3中解压.gzip文件,应用一些sql过滤器,并将结果存储回S3中的json?
amazon-web-services
、
amazon-s3
、
aws-lambda
因此,我以.gz格式以S3格式输入每小时的
数据
。我打算一起读取特定S3目录中的所有.gz文件。然后,对
数据
应用一些sql过滤器,并将结果作为json存储在不同的S3位置。
浏览 12
提问于2021-05-18
得票数 0
1
回答
如何使火花放电和SparkSQL在星火上执行蜂巢?
python
、
apache-spark
、
pyspark
、
hive
、
apache-spark-sql
通过
使用
spark-shell /
pyspark
,我还遵循并实现了创建Hive表,
加载
数据
,然后正确选择。我想做的事。<
浏览 0
提问于2020-02-23
得票数 0
回答已采纳
1
回答
使用
PySpark
从
Blob存储容器
加载
CSV文件
csv
、
apache-spark
、
pyspark
、
azure-blob-storage
我
无法
使用
Jupyter Notebook中的
PySpark
将CSV文件
从
Azure Blob Storage直接
加载
到RDD中。我知道我也可以
使用
Pandas将
数据
加载
到Notebook中,但之后我需要将Panda DF转换为RDD。 我理想的解决方案应该是这样的,但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source
浏览 21
提问于2019-04-28
得票数 0
3
回答
将文本文件
数据
过滤为
pyspark
rdd和dataframe中的列。
apache-spark
、
hadoop
、
pyspark
我有如下
数据
:16 long title 1618 long title 1820 long title 20 现在,在
加载
这个文本文件时,我必须排除垃圾
数据
(即段落),并且必须包含
从
long title 1 (即列
数据
浏览 0
提问于2019-10-13
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 RxJava 从多种来源中加载数据
一文读懂PySpark数据框
一文读懂 PySpark 数据框
如何在CDH集群上部署Python3运行环境及运行Python作业
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券