腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9516)
视频
沙龙
1
回答
在
PySpark
中
,
SparkSession
和
Databricks
的
Spark-CSV
模块
在
导入
CSV
文件
方
面有
什么
不同
?
、
、
我知道
在
PySpark
中
导入
CSV
文件
的
两种方法: 1)我可以使用
SparkSession
。这是我
在
Jupyter Notebook
中
的
完整代码。SQLContext(sc) spark =
SparkSession
.builder.appName('Spark Session1
浏览 28
提问于2019-10-18
得票数 2
回答已采纳
2
回答
如何在IPython笔记本中加载jar依赖项
、
、
、
鼓励我尝试使用
spark-csv
来读取
PySpark
中
的
.
csv
文件
。我发现有几篇文章描述了如何使用,比如ipython notebook --profile=
pyspark
ipython notebook --profile=
pyspark
--p
浏览 1
提问于2015-11-25
得票数 8
2
回答
如何在
pyspark
中
读取
csv
文件
?
、
、
我正在尝试读取
csv
文件
使用
pyspark
,但它显示一些错误。你能说出读取
csv
文件
的
正确过程吗?python代码:df = spark.read.
csv
("D:\Users\SPate233\Downloads\iMedical\query1.
csv
", inferSchema = True, header = True)sqlCon
浏览 9
提问于2019-11-11
得票数 0
1
回答
将
csv
读入spark sql dataframe时,删除列
的
常用字符串
、
、
我使用
databricks
spark-csv
模块
将
csv
文件
作为sqlContext读入。我定制了我
的
模式,如下面的示例所示。然而,我注意到
在
我
的
数据
中
,第3列是汽车
的
型号,其中
的
字符串总是
在
它前
面有
一个公共
的
字符串" model:“。有没有一种方法可以裁剪掉公共字符串?from
pyspark
.sql import
浏览 0
提问于2016-06-09
得票数 1
3
回答
在
Pyspark
中
添加python外部库
、
我使用
的
是
pyspark
(1.6),我想使用
databricks
:
spark-csv
库。为此,我尝试了
不同
的
方法,但都没有成功
pyspark
--jars THE_NAME_OF_THE_JAR df = sqlContext.read.format('com.
databricks
:
spark-csv
').options(header='tru
浏览 1
提问于2017-05-19
得票数 2
1
回答
用
Pyspark
内核读取Jupyter notebook
中
的
Spark Avro
文件
、
、
当我转到我
的
目录并执行以下操作时
pyspark
在
终端
中
,它打开了一个jupyter笔记本电脑与火花-
csv
封装。我不需要特别为
spark-csv
给出包命令。我已经
在
配置设置中将iphython
浏览 10
提问于2017-02-07
得票数 1
回答已采纳
1
回答
火花-
csv
或火花放电-
csv
在
火花环境
中
(IBM Bluemix)
、
、
我需要加载许多大
的
CSV
文件
在
星火上布卢米克斯。 我可以通过sc.testFile完成它,然后映射它,但是这需要重复
和
繁琐
的
代码。是否有一种方法可以向环境
中
添加/加载
databricks
spark
csv
包,或者吡火花-
csv
(尝试过,但它不喜欢它)?我看到了通过熊猫这样做
的
例子,但由于其中一些
文件
可能非常大(10
的
GB),这听起来不是一个好主意。这是
浏览 1
提问于2016-04-06
得票数 1
回答已采纳
2
回答
为
什么
sqlContext.read.load
和
sqlContext.read.text有区别?
、
、
、
我只是尝试将一个文本
文件
读入一个
pyspark
,并且注意到sqlContext.read.load
和
sqlContext.read.text之间
的
巨大差异。single_file_inpath='s3a://bucket-name/file_name' indata = sqlContext.read.load(s3_single_file_inpath, format='com.
databricks
.spark.
csv
inf
浏览 8
提问于2017-12-05
得票数 5
3
回答
spark-shell
中
未加载
CSV
格式
、
、
、
、
使用spark 1.6,我尝试了以下代码:它导致了这个错误 error: not found: value spark
浏览 6
提问于2020-04-29
得票数 1
2
回答
Pyspark
将多个
csv
文件
读取到一个数据帧
中
(或RDD?)
、
、
、
、
我有一个Spark 2.0.2集群,我正在通过
Pyspark
通过Jupyter Notebook访问它。我有多个以管道分隔
的
txt
文件
(加载到HDFS
中
。我需要使用
spark-csv
将其加载到三个独立
的
数据帧
中
,具体取决于
文件
的
名称。这里
的
缺点是这些
文件
很大,加载到单个节点上
的
内存可能需要大约8 8gb。(这就是为
什么
它首先要转移到集群
的
原因)。
浏览 0
提问于2016-12-14
得票数 7
回答已采纳
2
回答
工作于火花放电外壳而非火花提交
的
过滤器
、
、
、
、
word').isin(stop_words_list))) = df_filter 当使用submit将相同
的
代码提交到星火集群时,筛选器功能不能正常工作,stop_words_list
中
带有col('word')
的
行不会被过滤。这一切为
什么
要发生?
浏览 0
提问于2018-08-02
得票数 0
1
回答
Databricks
-Connect还返回多个python
文件
作业找不到
的
模块
、
、
目前,我正在通过
databricks
-connect与本地VS代码连接数据库。但是我
的
子任务都有
模块
未找到
的
错误,这意味着其他python
文件
中
的
代码没有找到。我试过:
浏览 2
提问于2020-07-10
得票数 1
2
回答
在
Pyspark
(Spark 2.1.1)
中
,将数据帧写入磁盘花费了不现实
的
长时间
、
、
我
在
一台有多个CPU
的
服务器上运行
Pyspark
。除了写入磁盘之外,所有其他操作(读取、联接、过滤、自定义UDF)都可以快速执行。我尝试保存
的
数据帧
的
大小约为400 gb,具有200个分区。sc.getConf().getAll()我正在尝试使用以下命令进行保存:想知道是否有人遇到过同样<
浏览 1
提问于2017-11-28
得票数 1
1
回答
在
使用
pyspark
读取
csv
时失败
、
、
、
、
我正在使用Zeppelin-Sandbox 0.5.6
和
Spark 1.6.1
在
Amazon EMR上。我正在读取位于
csv
上
的
s3
文件
。问题是,有时我在读取
文件
时出错。我
的
代码
中
没有任何变化。我无法恢复它,也无法判断它何时发生。/maven")使用
spark-csv
浏览 1
提问于2016-06-21
得票数 0
4
回答
PySpark
java.io.IOException:方案没有FileSystem : https
、
、
我正在使用本地窗口,并试图用python上
的
以下代码加载XML
文件
,我遇到了这个错误,有人知道如何解决它吗?990.s3.amazonaws.com/201611339349202661_public.xml") 1135 for temp_arg in temp_args: C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\
浏览 87
提问于2017-11-17
得票数 4
回答已采纳
5
回答
用电火花读取
csv
、
、
、
、
我是新来
的
火花。我正试着用电火花读取
csv
文件
。我提到了,
和
更多。我试着用两种方式来解读:from
pyspark
.sql import
SparkSession
from
pyspark
.conf("com.
databricks
.spark.
csv
") .option("header&quo
浏览 6
提问于2018-01-03
得票数 1
4
回答
用PyCharm读入电火花中
的
avro
文件
、
、
、
我是个新手,我已经将
pyspark
库
导入
到pycharm
中
,并编写了以下代码:from
pyspark
.sql import
SparkSession
pyspark
.sql.utils.AnalysisException:“未能找到数据源:Avro.Avro是内置但外部数据源
模块
,自Spark2.4以来。请按照"Apache”
的
部署部分部
浏览 3
提问于2019-12-05
得票数 1
回答已采纳
2
回答
Pyspark
读取
csv
- NameError:未定义名称“spark”
、
、
我尝试
在
databricks
中
运行以下代码,以便调用spark会话并使用它打开
csv
文件
:fireServiceCallsDF = spark.read.
csv
('/mnt/sf_open_data/fire_dept_calls_for_service/Fire_Department_Calls_for_Service.
csv
', header=True, inferSchema=True) 我
浏览 2
提问于2016-11-23
得票数 2
1
回答
在
本地机器上开发代码时如何引用
pyspark
.dbutils
、
、
我是刚接触过
Pyspark
的人,问我关于最佳设计模式/实践
的
问题:目前正在处理机密。如果代码
在
databricks
上运行,我应该使用dbutils.secrets.get加载机密,而如果代码运行在本地机器dotenv.load_dotenv上。问:如何创建/引用dbutils变量(
在
databricks
实例
中
很容易提供)?电火花
浏览 9
提问于2022-08-20
得票数 1
回答已采纳
1
回答
数据库从存储库
中
的
python库
导入
/复制数据
、
、
、
、
在
尝试使用
databricks
的
新repo功能实现解决方案时,我面临着一个小小
的
挑战。我
在
一个需要能够使用python
和
pyspark
代码
的
interdisziplinairy项目中工作。因此,我们将python源代码添加到所有库
文件
中
,以便它们可以在数据库
中
轻松更改(由于##开发尚未完成,代码也将由
pyspark
团队更改)。不幸
的
是,
在
浏览 0
提问于2021-04-30
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据下Python的三款大数据分析工具
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文读懂PySpark数据框
一文读懂 PySpark 数据框
数据分析指北-基础
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券