腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
如何
从配置单元外部表创建
数据
帧
hadoop
、
apache-spark
、
dataframe
、
hive
、
apache-spark-sql
我们喜欢在Hive外部表
的
顶部创建
数据
帧
,并使用hive模式和
数据
进行
spark
级别的计算。 我们是否可以从hive外部表中
获取
模式并将其用作Dataframe模式。
浏览 69
提问于2017-05-11
得票数 1
回答已采纳
1
回答
使用PySpark从Blob存储容器加载CSV文件
csv
、
apache-spark
、
pyspark
、
azure-blob-storage
我无法使用Jupyter Notebook中
的
PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题
的
答案,但我还没有找到关于我想要做什么
的
具体说明。我知道我也可以使用Pandas将
数据
加载到Notebook中,但之后我需要将Panda DF转换为RDD。我理想
的
解决方案应该是这样
的
,但是这个特定
的
代码给我
的
错误是它不能推断出CSV
的
模式。#Load Data source
浏览 21
提问于2019-04-28
得票数 0
3
回答
我可以将pandas
数据
帧
转换为
spark
rdd吗?
pyspark
c)需要使用
spark
将PD_DF写到HDFS。我该怎么做呢?
浏览 0
提问于2015-04-15
得票数 4
2
回答
如何
获取
Spark
数据
帧
的
spark
SQLContext
?
apache-spark
、
pyspark
我有一个接受
spark
DataFrame
的
函数,我想要获得DataFrames所在
的
Spark
上下文。 原因是我想要获得
SQLContext
,这样我就可以运行一些SQL查询。sql_Context =
SQLContext
(output_df.sparkContext()) sql_Context.registerDataFrameAsTable(output_df, "table1获得星火DataFrame
的
sparkContext
的
正确
浏览 10
提问于2020-07-03
得票数 1
回答已采纳
3
回答
Spark
RDD to DataFrame python
python
、
apache-spark
、
pyspark
、
spark-dataframe
我正在尝试将
Spark
RDD转换为DataFrame。我已经看到了将方案传递给
sqlContext
.CreateDataFrame(rdd,schema)函数
的
文档和示例。如果我手动给出指定每个字段信息
的
模式,这将是一项非常繁琐
的
工作。 是否有其他方法可以在不事先知道列
的
信息
的
情况下指定模式。
浏览 0
提问于2016-09-26
得票数 47
回答已采纳
3
回答
在
spark
1.6中将csv读取为
数据
帧
scala
、
apache-spark
我使用
的
是
Spark
1.6,正在尝试将csv (或tsv)文件读取为
数据
帧
。以下是我采取
的
步骤:scala> import
sqlContext
.implicits._scala> .format(
浏览 12
提问于2016-07-27
得票数 2
3
回答
用Scala API将TSV读入
Spark
Dataframe
scala
、
apache-spark
我正在尝试使用scala api将hive创建
的
TSV读取到
spark
数据
帧
中。下面是一个可以在
spark
shell中运行
的
示例(我公开了示例
数据
,以便它可以为您工作)import org.apache.
spark
.sql.types{StructType, StructField, StringType, IntegerType};
浏览 0
提问于2015-11-24
得票数 29
回答已采纳
2
回答
在
spark
中,
如何
从没有列名
的
CSV文件创建带模式
的
dataframe?
csv
、
apache-spark
、
dataframe
、
schema
我有一个只有
数据
但没有列名
的
CSV文件,现在我想用这个CSV文件
的
数据
在
Spark
中创建一个
数据
帧
,并为它创建模式(列名和
数据
类型)。我
的
代码如下: import org.apache.
spark
.sql.
SQLContext
val employee =
sqlContext</
浏览 52
提问于2019-02-26
得票数 0
1
回答
将MySQL更新语句转换为Amazon
aws-glue
我有一个python脚本,它使用MySQL从CSV文件中清除一些
数据
。我想把这个脚本变成Glue可以使用
的
东西,但是我不知道Glue可以使用
的
SQL语法。这是我需要修改
的
python / mysql脚本中
的
语句: SET identity_LineItemIdbill_BillType=NUL
浏览 1
提问于2019-09-05
得票数 0
回答已采纳
3
回答
如何
在
Spark
1.3中通过Hive指示SparkSQL中
的
数据
库
database
、
apache-spark
、
hive
、
apache-spark-sql
我有一个简单
的
Scala代码,它从Hive
数据
库检索
数据
并从结果集创建一个RDD。它可以很好地与HiveContext配合使用。select PRODUCT_CODE, DATA_UNIT from account"val rdd = hc.sql(mySql).rdd 我使用
的
Spark
问题是hive.execution.engine
的
默认设置是'mr‘,这使得配置单元使用MapReduce很慢
浏览 7
提问于2016-06-22
得票数 5
2
回答
如何
在星火中
的
AWS Glue created Dataframe上运行SQL SELECT?
scala
、
pyspark
、
apache-spark-sql
、
aws-glue
我在AWS中有以下工作,它基本上是从一个表中读取
数据
并在S3中将其提取为一个csv文件,但是我想在这个表上运行一个查询(A Select、SUM和GROUPBY),并希望将该输出获得给CSV,我
如何
在AWS我是星火
的
新手,所以请帮忙glueContext = GlueContext(sc)
spark
= glueContext.
spark
_s
浏览 1
提问于2019-05-21
得票数 1
回答已采纳
2
回答
使用sparkR合并大型
数据
集
r
、
apache-spark
、
sparkr
我想知道与“常规R”相比,sparkR是否可以更容易地合并大型
数据
集?我有12个csv文件,大约500,000行乘40列。这些文件是2014年
的
月度
数据
。我想为2014年创建一个文件。这些文件都有相同
的
列标签,我想按第一列(年份)合并。但是,某些文件
的
行数比其他文件多。setwd("C:\\Users\\Anonymous\\Desktop\\Data 2014\\Jan2014.csv") sc <- sparkR.init(master = "local"
浏览 2
提问于2016-01-12
得票数 1
2
回答
SparkSQL查询
数据
帧
sql
、
python-3.x
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我将一个熊猫
数据
帧
转换成
spark
sql表。我是SQL
的
新手,想从表中选择关键
的
'code‘。该列包含一个包含
数据
的
字典列表。
sqlContext
.sql("""SELECT `classification.code` FROM psyc""").show() # this query does not work 下面是代码
的
其余部分from pyspark.sq
浏览 13
提问于2020-01-29
得票数 0
回答已采纳
1
回答
火花-蒙戈连接器SparkR从两个集合中读取
mongodb
、
apache-spark
、
sparkr
在
Spark
.mongo连接器中,可以在mongo中查询服务器长度,java和scala提供了有关查询不同集合
的
更多信息,如下所示:然后,在代码中可以指定另一个集合,设置配置/bin/sparkR --conf "
spark
.mongodb.input.u
浏览 3
提问于2016-08-23
得票数 0
回答已采纳
2
回答
将Pandas DataFrame转换为
Spark
DataFrame
python
、
pandas
、
dataframe
、
pyspark
、
spark-dataframe
我之前问了一个关于
如何
的
问题,在阅读了提供
的
答案和之后,我取得了一些进展。我最终使用了以下代码将scipy.sparse.csc_matrix转换为pandas
数据
帧
:df.columns = header 然后,我尝试使用建议
的
语法将pandas
数据
帧
转换为
spark
数据
帧
:
浏览 1
提问于2016-11-04
得票数 8
1
回答
Spark
dataframe CSV vs Parquet
pyspark
、
spark-dataframe
、
pyspark-sql
我是
Spark
的
初学者,正在尝试理解
spark
数据
帧
的
机制。当从csv加载
数据
时,我正在比较
spark
sql dataframe上sql查询
的
性能。我
的
理解是,一旦
数据
被加载到
spark
数据
帧
中,那么
数据
来自哪里(csv或parquet)就不再重要了。然而,我看到了两者之间
的
显着性能差异。我正在使用以下命令加
浏览 2
提问于2018-02-11
得票数 1
1
回答
如何
将我在R中创建
的
JSON对象读取到sparkR中
json
、
r
、
sparkr
、
typeconverter
、
rjsonio
我想
获取
我在R中创建
的
数据
帧
,并将其转换为JSON对象,然后将该JSON对象读入sparkR。对于我目前
的
项目,我不能简单地将一个
数据
帧
传递到SparkR中,然后必须执行这个绕过弯
的
方法才能让我
的
项目正常工作。我也不能先创建一个本地JSON文件来读入sparkR,所以我尝试创建一个JSON对象来保存我
的
数据
,然后再将其读入sparkR。在我读过
的
其他文章中,Scala
Sp
浏览 4
提问于2017-08-04
得票数 0
2
回答
如何
将表转换为
Spark
Dataframe
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-dataframe
在
Spark
SQL中,可以使用以下命令将
数据
帧
作为表进行查询:假设我拥有的是mytable,我
如何
才能以DataFrame
的
形式
获取
或访问它?
浏览 0
提问于2016-08-28
得票数 11
回答已采纳
2
回答
Spark
SQL扮演什么角色?内存DB?
apache-spark
、
apache-spark-sql
最近我开始使用
Spark
SQL。我读了
数据
源Api,仍然不明白
Spark
SQL
的
作用是什么。真的愿意接受任何答案。 诚挚
的
问候。
浏览 0
提问于2018-01-16
得票数 1
1
回答
Spark
Join:分析异常引用不明确
scala
、
join
、
apache-spark
、
dataframe
您好,我正在尝试连接
spark
中
的
两个
数据
帧
,并收到以下错误:could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源
的
说法,当您尝试将两个不同
的
数据
帧
连接在一起时,可能会发生这种情况,这两个
数据</
浏览 8
提问于2017-02-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 如何 post 数据
如何学习spark大数据
大数据技术,Spark详细介绍,Spark和Hadoop的区别
如何管理Spark的分区
Spark Streaming如何读Kafka数据 Hbase如何设计表
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券