Hive/Bigsql pandas浮点型转换为带空值的整数，并使用pyarrow将其转换为拼图文件

Hive/Bigsql是一种基于Hadoop的数据仓库解决方案，用于处理大规模结构化数据。它提供了类似于SQL的查询语言，可以方便地进行数据分析和处理。

pandas是一个强大的数据分析工具，提供了丰富的数据处理和操作功能。在pandas中，可以使用astype()函数将浮点型数据转换为整数类型，并使用NaN（空值）表示缺失值。

下面是将pandas中的浮点型数据转换为带空值的整数的示例代码：

import pandas as pd
import numpy as np

# 创建一个包含浮点型数据的DataFrame
df = pd.DataFrame({'float_col': [1.0, 2.5, 3.7, np.nan]})

# 将浮点型数据转换为带空值的整数
df['int_col'] = df['float_col'].astype('Int64')

# 打印转换后的DataFrame
print(df)

输出结果如下：

   float_col  int_col
0        1.0        1
1        2.5        2
2        3.7        3
3        NaN     <NA>

在上述代码中，我们使用astype()函数将float_col列中的浮点型数据转换为Int64类型，并将结果存储在int_col列中。转换后，原本的浮点型数据将变为带空值的整数类型。

接下来，我们可以使用pyarrow库将pandas DataFrame转换为Parquet文件（拼图文件）。Parquet是一种列式存储格式，适用于大规模数据处理和分析。

下面是将pandas DataFrame转换为Parquet文件的示例代码：

import pyarrow as pa
import pyarrow.parquet as pq

# 创建一个pandas DataFrame
df = pd.DataFrame({'int_col': [1, 2, 3, None]})

# 将DataFrame转换为pyarrow Table
table = pa.Table.from_pandas(df)

# 将Table写入Parquet文件
pq.write_table(table, 'data.parquet')

在上述代码中，我们首先创建一个包含整数数据的pandas DataFrame。然后，使用pyarrow的from_pandas()函数将DataFrame转换为pyarrow Table。最后，使用write_table()函数将Table写入名为data.parquet的Parquet文件。

希望以上内容能够满足您的需求。如果您对其他问题有任何疑问，请随时提问。

页面内容是否对你有帮助？

有帮助

没帮助

Hive/Bigsql pandas浮点型转换为带空值的整数，并使用pyarrow将其转换为拼图文件

python、pandas、parquet、pyarrow、bigsql

我对熊猫、pyarrow和bigsql有意见。基本上，我想要读取csv，写入拼接，并从数据库读取拼接。但从db读取文件时出现问题。Pandas dtype和db数据类型不同。csv文件并将其加载到pandas中print(csv.head(20)) 0编写拼图文件，如下所示 import pyar

浏览 27提问于2021-03-06得票数 0

2回答

将包含int和nan的数据帧打印到csv

python、pandas、numpy、dataframe

我有一个数据帧，如下所示：import numpy as np 我们希望将df转储到csv，如下所示(<em

浏览 5提问于2020-03-14得票数 0

7回答

为什么我在Python中得到这个0作为(1/10)的答案？

python

(1/10) >>> print 1/5 >>> a = 1/5 0 0.0 当我除法时，我想要一个浮点值任何关于这个零输出背后的逻辑的想法，请让我知道如何正确地做它。

浏览 2提问于2012-02-26得票数 2

回答已采纳

1回答

Pandas将空字符串转换为整数

pandas

有一个包含多个列的csv文件，其中一些列混合了字母和数字。需要删除字母并设置为null，并将列更改为整数，但得到了一些错误。看起来Pandas最近添加了可以为空的整数类型。我需要保持列为int，所以我不能使用另一种方法来将列设置为在列中带有NAN的浮点型。数据如下所示： id count volume 002

浏览 47提问于2020-01-17得票数 0

1回答

导入带前导空单元格的excel移除逗号

excel、ssis、etl

excel源的输出列被配置为SSIS类型的DT_R8 (双精度浮点)。这个很好用。一些进一步的文件具有相同的格式，但有时标题后面的前一行为空。在本例中，SSIS将导入以下没有逗号的行。并再次将任务转换为DT_R8 (双分裂)。。对于带前导空单元格的文件来说，这很好！因此，我导入带有DT_R8类型的excel

浏览 3提问于2020-06-03得票数 2

回答已采纳

9回答

NumPy或Pandas:在具有NaN值的情况下保持数组类型为整数

python、numpy、int、pandas、type-conversion

有没有一种更好的方法来保持numpy数组的数据类型固定为int (或int64或其他任何类型)，同时内部仍有一个元素列为numpy.NaN 特别是，我正在将内部数据结构转换为Pandas DataFrame在我们的结构中，我们有整数类型的列，它们仍然有NaN(但是列的dtype是int)。如果我们把它变成一个DataFrame，它看起来会把所有的东西都转换成一个浮点型，但我们真的很想成为int。尝试过的</e

浏览 330提问于2012-07-19得票数 190

回答已采纳

3回答

如何从1.4795e+004升级到14795.00？

matlab、number-formatting

我有一个问题，这个问题已经困扰我很长一段时间了我想改变数字的格式..不知道怎么做？我已经试过帮助文件了，但找不到答案。如果你能帮我，请帮我..

浏览 0提问于2009-09-26得票数 4

2回答

使用c语言将linux可加载内核模块中的字符串转换为浮动。

c、linux-kernel、floating-point、kernel-module

LKM并初始化这个结构的数据成员。我的/proc文件缓冲区如下所示：并且将有一个类似于这个"-123,-77.123456,-66.123456,"的字符串值。我能够将str1转换为long，然后将其转换为签名短并乘以负号，并将其分配给mem1。现在，我的问题是浮

浏览 2提问于2011-09-16得票数 1

4回答

在C++中使用数组作为条件表达式有效吗？

c++、arrays、pointers

我有这样的代码：{ if( buffer ) { }}Visual C++ 10对此的解释是：buffer衰减为指针，然后将指针与null进行比较。Visual C++编译正确吗(我指的是衰败的部分，而不是优化部分)？

浏览 0提问于2011-12-20得票数 4

回答已采纳

2回答

petl.todataframe()不会自动识别数据类型

python、pandas、dataframe、etl、petl

当我使用petl处理我的数据，然后将其写入pandas DataFrame时，我注意到pandas自动识别类型的奇妙能力消失了。有没有办法在保留pandas自动识别数据类型的能力的同时，使用petl的特性呢？

浏览 5提问于2017-05-04得票数 0

1回答

C# Math.Round和可空双精度数

c#、sql、ms-access、vbscript

我已经承担了将一个非常老的经典ASP/VBScript/Access网站转换为“当前”网站的任务。我使用EntityFramewok PowerTools (Code First)对新数据库进行逆向工程并创建我的.edmx文件。我注意到，当EntityFramework为我创建.edmx时，它将数据库中的浮点型字段定义为可以为空的双精度(Double?)在C#

浏览 0提问于2012-12-01得票数 3

回答已采纳

3回答

将long.MaxValue转换为int与将float.MaxValue转换为int有什么区别？

c#、types、casting

我试图理解一些数据类型和转换之间的区别。Console.WriteLine(integerValue2); 当我运行该代码块时，它会输出：-2147483648 我知道，如果要分配给一个整数的值大于该整数所能保持的值，它将返回整数的最小值(-2147483648)。据我所知，long.MaxValue比整数的最大值大得多

浏览 0提问于2016-06-16得票数 12

回答已采纳

1回答

这个错误是怎么可能发生的，如何处理呢？"ValueError:带基数10：‘1.0’的int()无效文本

python-3.x、pandas、dataframe、type-conversion

在遇到各种微妙的类型错误时，我试图比较两个列的值，这些列应该包含类似于单个熊猫DataFrame中的整数值(尽管Python解释器任意地将这些类型解释为浮点数、字符串或序列，似乎几乎是随机的)，但在程序流中ValueError:带基10：'1.0‘的int()的无效文本这个错误消息的主要问题是，不应该有任何理由将类型转换为int在值‘1.0’上爆炸。

浏览 2提问于2020-03-13得票数 1

8回答

C++检查浮点数

c++、arrays、if-statement、floating-point

对，我有一个浮点数组，它只存储1和0。我正在尝试做一个简单的测试/检查数组中的当前槽是1，它会打印出一条小消息说它是1，否则是0。下面是我的代码：{ cout << "this is 1 !!!!!"

浏览 0提问于2011-11-03得票数 1

回答已采纳

21回答

ValueError:基数为10的int()的文本无效：'‘

python

我正在创建一个读取文件的程序，如果文件的第一行不为空，它将读取接下来的四行。对这些行执行计算，然后读取下一行。如果该行不为空，则继续。它正在读取第一行，但无法将其转换为整数。我能做些什么来解决这个问题？

浏览 5提问于2009-12-04得票数 501

1回答

pandas.DataFrame.convert_dtypes增加内存使用量

python、pandas

更多地讨论和理解关于pandas.DataFrame.convert_dtypes的问题。我从SAS表导入了这个DF：RangeIndex: 857613 entries, 0 to 857612dfcompras = dfcompras.convert_dtypes(infer

浏览 2提问于2022-09-25得票数 1

回答已采纳

4回答

变分函数

c、variadic-functions

,num); } 看看上面的代码，我期望输出是转换为int的第一个变量参数值，即7.5转换为int，即7。

浏览 3提问于2011-08-17得票数 2

回答已采纳

3回答

如何在C中用整数打印和填充void 数组*

c、arrays

我正在尝试弄清楚如何使用void *数组，这样我就可以用任何数据类型填充它们。例如，我想用整数值填充一个数组，然后打印该数组的值。为了做到这一点，我已经尝试了类似下面的东西，但我非常确定我有一个完全错误的想法。我应该如何正确地做这件事呢？用整数填充数组void *arr1; void *indexPtr

浏览 1提问于2016-04-08得票数 0

7回答

如何在Python中使用布尔值？

python、boolean

Python真的包含布尔值吗？我知道你可以这样做：if checker:但我很学究，喜欢看到Java中的布尔值。Boolean checker;{}{} 在Python中有布尔值这样的东西吗

浏览 1提问于2009-11-17得票数 115

回答已采纳

3回答

为什么PHP中不允许“传统的”类型提示？

php、type-hinting

我刚刚发现在PHP中是允许的，但不能用于int、string、bool或float。为什么PHP不允许整型、字符串等类型的类型提示？

浏览 4提问于2011-01-21得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Hive/Bigsql pandas浮点型转换为带空值的整数，并使用pyarrow将其转换为拼图文件

相关·内容

Hive/Bigsql pandas浮点型转换为带空值的整数，并使用pyarrow将其转换为拼图文件

将包含int和nan的数据帧打印到csv

为什么我在Python中得到这个0作为(1/10)的答案？

Pandas将空字符串转换为整数

导入带前导空单元格的excel移除逗号

NumPy或Pandas:在具有NaN值的情况下保持数组类型为整数

如何从1.4795e+004升级到14795.00？

使用c语言将linux可加载内核模块中的字符串转换为浮动。

在C++中使用数组作为条件表达式有效吗？

petl.todataframe()不会自动识别数据类型

C# Math.Round和可空双精度数

将long.MaxValue转换为int与将float.MaxValue转换为int有什么区别？

这个错误是怎么可能发生的，如何处理呢？"ValueError:带基数10：‘1.0’的int()无效文本

C++检查浮点数

ValueError:基数为10的int()的文本无效：'‘

pandas.DataFrame.convert_dtypes增加内存使用量

变分函数

如何在C中用整数打印和填充void 数组*

如何在Python中使用布尔值？

为什么PHP中不允许“传统的”类型提示？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐