腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(107)
视频
沙龙
1
回答
PySpark
sqlContext
阅读
postgres9.6
NullPointerException
、
、
、
尝试使用
PySpark
从Postgres DB读取表。/jars/postgresql-42.0.0.jar --jars /tmp/jars/postgresql-42.0.0.jar
pyspark
-shell' "driver
浏览 6
提问于2017-03-09
得票数 3
回答已采纳
2
回答
在我的Linux终端上运行一个脚本来初始化
PySpark
外壳(SparkVersion2.4.4)
、
、
、
、
我在我的Linux计算机上使用
PySpark
。我的火花版本是2.4.4。
sqlContext
=
SQLContext
(sc) import
pyspark
.sql.functions as sqlfunc--我不想每次打开
PySpark
时都输入这个。因此,我
浏览 2
提问于2019-10-18
得票数 0
回答已采纳
2
回答
在
pySpark
中读取文件范围
、
、
、
我需要
阅读
pySpark
中的连续文件。下面这些对我来说很有用。from
pyspark
.sql import
SQLContext
df =
sqlContext
.read.load
浏览 3
提问于2016-06-09
得票数 2
回答已采纳
5
回答
用电火花读取csv
、
、
、
、
我试着用两种方式来解读:from
pyspark
.sql import SparkSessionfrom
pyspark
.confsc = SparkContext.getOrCreate()df.show()import
pyspark
sc =
pys
浏览 6
提问于2018-01-03
得票数 1
1
回答
Pyspark
的
sqlContext
.read.csv()函数读取的行数比实际.csv文件中存在的行数多
、
、
、
如果我使用以下命令读取此文件:它显示了24230行。如果我将多行选项设置为true,它将显示索引越界异常。如果我使用pandas pd.read_csv()
阅读
它,那么它显示的是确切的否。行的数量。但是我想不使用pandas来
阅读
这篇CSV。谢谢。from
pyspark
.sql import
SQLCont
浏览 1
提问于2019-07-26
得票数 1
1
回答
只读
sqlContext
中的前几行或前几行
、
、
正如前面提到的,我也在
阅读
csv
sqlContext
=
SQLContext
(sc) df =
sqlContext
.read.format
浏览 2
提问于2017-03-06
得票数 1
1
回答
Pyspark
:使用Zeppelin笔记本插入到蜂巢中的表的问题
、
、
当在线
阅读
时,Spark似乎不支持INSERT INTO,但是,我一直在读到您可以使用dataframe并将其附加到表中。这是我的原始代码:from
pyspark
.context import SparkContext from
pyspark
.context import SparkContext sql =
sqlContext</
浏览 0
提问于2018-10-15
得票数 1
回答已采纳
5
回答
如何在Spark2.0中使用
pyspark
构建一个sparkSession?
、
、
、
有没有人能帮我用
pyspark
(python)设置一个sparkSession?我知道网上提供的scala示例是类似的(),但我希望用python语言直接演练。然后构建df并在其中运行各种
pyspark
和sql查询。我所有的旧查询都使用
sqlContext
。我可以在avros中
阅读
mydata =
sqlContext
.read.format("com.databricks.spark.avro").load("s3:...但是一旦我开始查询数据帧/临时表,我
浏览 4
提问于2016-09-30
得票数 41
1
回答
将列表转换为
pyspark
数据
、
我的代码如下所示:
sqlContext
=
SQLContext
(spark) fina
浏览 0
提问于2018-06-28
得票数 0
回答已采纳
1
回答
如果出现关键错误,如何重新启动和运行所有代码!在Google Colab中安装pip?
、
、
、
、
pip install
pyspark
!pip install azure.storage.common import
pyspark
from
pyspark
.sql import
SQLContext
浏览 0
提问于2020-09-28
得票数 1
1
回答
火花放电传递函数
阅读
谷歌( google )的文章表明,星火是懒惰的评估,所以一些行动会触发这种效果,我补充道:TypeError: 'JavaPackage' object is not代码:from
pyspark
.sql import
SQLContext
, HiveContextfrom
pyspark
.sql.functions import
浏览 1
提问于2016-05-31
得票数 1
1
回答
如何使用JDBC连接(Py)Spark到Postgres数据库
、
、
、
、
在我的Jupyter笔记本中,我的代码是from
pyspark
import SparkConfconf = SparkConf()conf.setAppName('
pyspark
') from
pyspark
.sql i
浏览 0
提问于2016-09-04
得票数 4
回答已采纳
1
回答
Zeppelin: Scala Dataframe to python
、
、
、
(据我所知,
pyspark
使用)Scala段落:z.put("xtable", x )%
pyspark
g = g.add_legend()Traceback (most recent call last): File "/tmp/zeppelin_
pyspark
.pyutils.categorical_order(data[hue], h
浏览 8
提问于2016-03-01
得票数 14
回答已采纳
1
回答
从AWS向aws EMR集群提交spark作业
、
、
、
、
一些背景:analysis_script.pyfrom
pyspark
.sql import
SQLContext
, DataFramefrom
pyspark
.sql.types import *import boto3 sc = SparkContext.ge
浏览 2
提问于2018-06-04
得票数 0
5
回答
使用列名编写csv,并读取从
Pyspark
中的闪烁is数据names生成的csv文件
、
、
、
/spark-1.6.1-bin-hadoop2.6/bin/
pyspark
--packages com.databricks:spark-csv_2.11:1.3.0
sqlContext
=
SQLContext
(sc) df =
sqlContext
.read.format('com.databricks.spark.csvoptions(h
浏览 6
提问于2016-07-27
得票数 37
回答已采纳
3
回答
PySpark
- Hive上下文不返回结果,但是SQL上下文用于类似的查询。
、
、
、
我注意到,当我在HiveContext和
SQLContext
中运行
PySpark
中的类似查询时,性能有很大的差异。核心4 from
pyspark
.sqlimport
SQLContext
qry = "select count(*) from datab
浏览 0
提问于2015-10-14
得票数 1
回答已采纳
2
回答
如何使用电火花从DB2读取SQL?
、
、
我希望使用带有DB2的
pySpark
语句连接并从
pySpark
中读取。password, "driver":"com.ibm.db2.jcc.DB2Driver", "sslConnection":"false"} df =
sqlContext
.read.jdbc(url=jdbcURL,table=table,properties=prop) 我想使用如下的SQL语句来<e
浏览 2
提问于2018-08-21
得票数 0
回答已采纳
1
回答
当尝试将数据帧的每一行与另一数据帧的某些行组合时,最适合的连接类型
、
、
我有以下情况,我以一种非常低效的方式解决了它: 我有一个名为dfUniques的数据帧,其中每行包含不同于其他行的值(例如: 1K行,但它可能更多,甚至可能少于100行)。还有一个名为dfFull的数据帧,在其中的一些行中可以找到与dfUniques中存在的值相同的值。dfFull比dfUniques大得多,而且它的列数也是dfUniques的3倍。我想要做的是在dfFull中查找与dfUniques共有的列与其中的某一行具有相同值的所有行。因为目标是计算dfFull中有多少行来自dfUniques。 我实现的方式是错误的(我认为),因为它花费了很多时间,而且我使用了collect()调用(
浏览 3
提问于2020-07-24
得票数 1
回答已采纳
4
回答
PySpark
java.io.IOException:方案没有FileSystem : https
、
、
这是代码 df1 =
sqlContext
.read.format("xml").options(rowTag="IRS990EZ").load("https://irs-form-990.s3.amazonaws.comTraceback (most recent call last)----> 1 df1 =
sqlContext
.read.format990.s3
浏览 87
提问于2017-11-17
得票数 4
回答已采纳
2
回答
使用吡火花连接Microsoft SQL Server,引发错误:
、
请指导我的步骤,以连接和读取数据从MS使用
Pyspark
。下面是我的代码和当我试图从加载数据时得到的错误消息。请引导我。import urllibfindspark.init() conf = SparkConf().setAppName(&
浏览 5
提问于2016-10-17
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在CDH集群上部署Python3运行环境及运行Python作业
PySpark,大数据处理的Python加速器!
一文读懂PySpark数据框
一文读懂 PySpark 数据框
遇见YI算法之初识Pyspark(二)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券