腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
,
Inferschema
将
列
检测
为
字符串
,
而
不是
parquet
中
的
双
精度
pyspark
、
azure-databricks
问题-我正在使用azure databricks
在
pyspark
中
读取拼图文件。有一些列有很多空值并且有十进制值,这些
列
被读取
为
字符串
而
不是
双
精度
。有没有办法推断出
pyspark
中正确
的
数据类型?代码- 要读取拼花面板文件- df_raw_data = sqlContext.read.
parquet
(data_filename[5:]) 它
的
输出
浏览 16
提问于2020-06-23
得票数 0
1
回答
spark 2.x正在使用csv函数
将
整型/
双
精度
列作为
字符串
读取
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在使用下面的语句
在
spark
中
读取csv。df = spark.read.csv('<CSV FILE>', header=True,
inferSchema
= True)我已经检查了特定
列
<e
浏览 5
提问于2017-08-31
得票数 2
1
回答
怎样才能推断出带前导零
的
双
引用整数(例如。000000038473)作为
字符串
?
csv
、
apache-spark
、
pyspark
尝试使用推断模式来推断模式:但是,当数字有双引号时,
pyspark
将
推断整数
而
不是
字符串
(例如,当数字有“前导零在这种情况下,我希望
Pyspark
推断
字符串
,
而
不是
整数。 我如何在不删除
inferSchema
的
情况下,强迫
pyspark</e
浏览 1
提问于2021-06-08
得票数 0
3
回答
在
将
输入
字符串
解析
为
双
精度
时保留输入
字符串
的
格式
java
我有一个从csv文件向表提供值
的
场景。需要注意
的
是,
双
精度
值可以是任何
双
精度
格式,即81、81.0或8.1E1。 我只想在
将
字符串
解析
为
双
精度
后保留
双
精度
格式。例如,如果
字符串
为
81.0,则格式模式应为##.#,双重解析应为81.0,
而
浏览 0
提问于2013-01-11
得票数 0
1
回答
将
字符串
标记为int以获得更快
的
散
列
映射
c++
、
python
、
string
、
hash
、
dictionary
我有一个关于使用以
字符串
作为关键字
的
散
列
的
问题。假设我有一个
将
字符串
映射到
双
精度
的
散
列
。 问题是,我听到一些人说,最好将
字符串
标记为整数,并将哈希映射
为
整数到
双
精度
,
而
不是
字符串
到
双
精度
?
在
Python或C++ (两个问题)
中</e
浏览 0
提问于2013-05-03
得票数 0
1
回答
使用自定义
列
和记录删除器读取
pyspark
中
的
文件
python
、
python-3.x
、
pyspark
、
apache-spark-sql
在
pyspark
中
读取csv文件时,有没有办法使用自定义记录分隔符?
在
我
的
文件
中
,记录用**分隔,
而
不是
换行符。
在
将
csv读入
PySpark
数据帧时,有没有办法使用这个自定义
的
行/记录分隔符?我
的
列
分隔符也是';‘下面的代码正确地获取了
列
,但它只计
为
一行 from
pyspark</
浏览 11
提问于2021-05-26
得票数 0
2
回答
我是否可以更改作为表加载到Server
的
Spark dataframe
列
的
数据类型?
sql-server
、
pyspark
、
azure-data-lake
、
azure-sql-data-warehouse
我试图从Azure数据湖读取一个
Parquet
文件,使用下面的
Pyspark
代码。df= sqlContext.read.format("
parquet
") .option("
inferSchema
", "true").load("adl://xyz/abc.
parquet
") df = df[
浏览 0
提问于2019-01-15
得票数 3
1
回答
读取spark
中
的
百分比值
apache-spark
、
apache-spark-sql
、
spark-excel
我有一个只有一
列
的
xlsx文件;30%50%0.00%0.10%99.99%-99.99%当我使用Apache-Sparkout阅读这篇文章时,我得到
的
是,+----------+| 0.4|| -0.1| |option("
inferSchema
", "true").load(&
浏览 3
提问于2021-12-01
得票数 0
2
回答
使用spark sql实现
Parquet
的
数据类型转换-动态转换,无需显式指定列名
pyspark
、
apache-spark-sql
、
spark-dataframe
、
hiveql
、
parquet
我正在寻找一种动态处理数据类型转换
的
方法。SparkDataframes,我正在使用hive SQL
将
数据加载到Dataframe
中
,并将其存储到dataframe
中
,然后写入到
parquet
文件
中
。Hive无法读取某些数据类型,我希望
将
decimal数据类型转换为Double。是否有任何方法可以动态处理数据类型,
而
不是
单独指定每个
列
的
名称。假设在我
的
dataframe
中<
浏览 3
提问于2017-05-16
得票数 0
1
回答
在读取HDFS目录时,如何处理某些文件
的
错误拼图模式?
apache-spark
、
apache-spark-sql
我
在
HDFS中有以下目录。../HDFS/file/date=20200930/id=1df=spark.read.
parquet
('/HDFS/file/').option("mergeSchema","true") 问题是上述文件
中
的
几列
在
浏览 0
提问于2020-09-30
得票数 2
1
回答
Java JTable排序不只适用于一
列
java
、
swing
、
jtable
在
Java Swing应用程序(构建于NetBeans6.9
中
)
中
,我有一个有21
列
的
JTable。这些
列
中大约有14
列
由
双
精度
值组成。前6
列
是日期和
字符串
。
在
第7
列
,双打开始。当应用程序运行时,通过单击表
的
标题行,表
中
的
每一
列
都将正确排序--除了第7
列
。该表认为该数据是<e
浏览 0
提问于2011-11-03
得票数 1
回答已采纳
1
回答
Parquet
文件
中
groupby
的
最佳实践
python
、
pyspark
、
parquet
、
dask
我们有一个1.5BM记录分散
在
几个csv文件。为了生成一个count聚合,我们需要对几个
列
进行分组。我们目前
的
战略是: 读取
Parquet
文件(Dask或
pyspark
),并在dataframe
的
索引上运行groupby
浏览 2
提问于2017-07-09
得票数 3
2
回答
Spark选项:
inferSchema
vs header = true
csv
、
apache-spark
、
header
、
apache-spark-sql
、
schema
对
的
引用 我认为我需要.options("
inferSchema
" , "true")和.option("header", "true")来打印我
的
标题,但显然我仍然可以打印我
的
csv
的
标题。我真的不理解"
inferSchema
:自动推断
列
类型。它需要额外传递一次数据,默认情况下为false“
的
含义。
浏览 0
提问于2019-07-08
得票数 13
回答已采纳
1
回答
用于显示不带小数点
的
整数
python-3.x
、
apache-spark
、
pyspark
在下面的代码
中
,数据文件
的
所有
列
都是
字符串
。其中一
列
用一个小数位存储整数或小数(6.1,4.8,3,9.4,6,...etc.)。但是,一旦
将
数据加载到
pyspark
dataframe
中
,它也会显示带有单个小数位(例如3.0)
的
整数。 问题:我们如何才能强迫
pyspark
显示所有不带小数
的
整数值?例如,3.0应该显示
为
3。from
pyspark
.sql.typ
浏览 7
提问于2022-05-21
得票数 0
1
回答
带有Stats
的
PySpark
写入
Parquet
二进制
列
(签名-min-min启用)
python-2.7
、
apache-spark
、
pyspark
、
parquet
、
parquet-mr
我发现了这个apache票证,它被标记为
parquet
-mr 1.8.2解析。我想要
的
特性是(string或BINARY)
列
的
parquet
元数据中计算出来
的
string。引用这是一个电子邮件,它使用scala
而
不是
pyspark
作为示例: Configuration conf = new Configuration(); + conf.set("
parquet
.strings.sig
浏览 1
提问于2018-11-05
得票数 2
回答已采纳
1
回答
如何更改UWP Telerik RadDataGrid DataGridNumericalColumn编辑器
的
精度
c#
、
xaml
、
uwp
、
telerik
我
在
我
的
应用程序中使用了Telerik UWP RadDatagrid。有一
列
包含绑定到数据网格
的
项源
中
的
整数。这将正确显示,即1显示
为
1。但是单元格编辑器似乎使用了
双
精度
型
而
不是
整型。因此,如果我单击离开输入
为
1
而
不是
1.00
的
单元格,则不会提交更改。 对于DataGridNumericalColumn,有没有办法
将<
浏览 2
提问于2017-11-08
得票数 1
2
回答
Spark Dataframe
为
浮点数提供不同级别的
精度
json
、
scala
、
dataframe
、
apache-spark
、
precision
当我们创建spark数据帧时,我们
将
数据帧
中
的
数据发送到Kudu和Kafka(依次被提取并进入S3)现在,如果我使用相同
的
数据帧并将其转换为struct(df.col(PK1), .withColumn("value", to_json(struct(df.columns.map(col): _*))) 然后(
在
一个单独<em
浏览 51
提问于2020-02-07
得票数 0
1
回答
将
双
精度
值输出
为
有效JSON数字
的
C printf格式指令是什么?
c
、
json
、
printf
我正在编写C代码,
将
一个
双
精度
值输出到一个
字符串
中
,作为JSON
字符串
的
一部分。 我应该使用什么C打印格式指令来输出
双
精度
值? 据我所知,有效
的
JSON编号一定不能以'.‘开头。它必须以“0”开头。
而
不是
。当全部
为
0时,指数和小数部分不会输出。 打印
的
数字必须具有最大
的
精度
,但也要进行智能舍入,以便<
浏览 13
提问于2020-11-27
得票数 1
回答已采纳
2
回答
如何解压拼图文件?
python
、
apache-spark
、
pyspark
、
gzip
、
parquet
我有一个大小约为60MB
的
test.
parquet
文件。使用下面的脚本,我发现拼图文件
的
列
压缩是GZIP。import pyarrow.
parquet
as pqprint(
parquet
_file.metadata.row_group_
parquet
.
浏览 29
提问于2021-07-02
得票数 1
1
回答
C++
将
字符串
转换为
双
精度
字符串
c++
、
string
、
double
、
atof
、
strtod
我需要将
字符串
转换成双倍,
精度
可达15位数字。double lon1 = strtod(line.c_str(),NULL);cout << lon1;cout << setprecision(15) << lon1; 它
浏览 2
提问于2013-12-14
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Spark SQL,DataFrames 以及 Datasets 编程指南
Hive底层数据存储格式详解
Impala Schema 设计原则
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券