Spark从具有未知类型的任意列中减去整数

文章/答案/技术大牛

发布

1回答

、、

我尝试从一个系统获取任意SQL语句作为输入，并在Spark Databricks集群中运行它。此时，我的程序知道SQL语句的备用表，并为查询加载了这些表。但是我遇到了一个问题，SQL允许您从任意列中减去一个整数，而Spark不允许。我正在尝试通过正则表达式找到一种方法，将(T1.SomeColumn - 1)替换为它的spark等效项；而不必完全

浏览 36提问于2020-08-27得票数 0

回答已采纳

1回答

我想在编译时用未知格式的数据创建Parquet文件。稍后，我将模式作为文本，并且我知道有些列包含日期与时间。我想使用Spark和Java来完成这个任务。因此，我遵循并创建了具有适当类型的模式。我试着用Spark的DataType.TimestampType和DataType.DateType来表示日期，比如列。但两者都不起作用。当我试图用JavaSchemaRDD.saveAsParquetFile保存文件时，我得到

浏览 3提问于2015-02-20得票数 4

回答已采纳

1回答

基于数据类型的熊猫数据块填充值设置

、、

该表可以是数据库中的任意给定表。表中可能有未知的列和数据类型。我使用的数据库是Redshift。在获得熊猫DF中的数据后，我需要检查数值/十进制类型的列中的nan值，如果有任何具有nan值的列，则需要将值更改为0。pd.columns[pdf.is

浏览 1提问于2022-02-15得票数 0

回答已采纳

1回答

您可以选择检索任意数量的列，然后将单个列与空列合并吗？

、

我试图将两个不同宽度的选择合并到一个结果中。在Oracle标准SQL中，但由于缺乏权限，不允许使用PL/SQL。查询大致如下(带注释)。FROM [FOO] WHERE ROWNUM=13 SELECT COUNT(*), {n-1 null columns} FROM [FOO] 源表[FOO]在运行时被替换到查询中，它的列计数和列标签预先是任意的和未知的，但是查询的</em

浏览 0提问于2018-08-31得票数 0

回答已采纳

1回答

为什么postgres将一个类型分配给字符串？

、、、

如果执行SELECT 'test', 123，输出将是两列，第一列具有未知的数据类型，第二列的数据类型为整数。如果执行SELECT DISTINCT 'test', 123，输出将是两列，第一列为文本的数据类型，第二列为整数的数据类型。

浏览 5提问于2016-11-15得票数 3

回答已采纳

1回答

什么时候在哈斯克尔选“自然”而不是“整数”？

、、、

不久前，我在中发现了base数据类型。当您打算使用非负整数类型时，应该使用它(在我看来是这样)。但还不清楚为什么我更喜欢Natural而不是Integer。这两种类型都具有任意精度，都具有非常优化的运行时表示-- 和。但是，当您减去自然数时，Natural 并没有为代码增加更多的类型安全性。而Integer在所有软件包中都比较流行。

浏览 1提问于2017-08-27得票数 10

1回答

如何根据用户在运行时选择的逻辑创建新的大熊猫列？

、、

我希望能够根据用户选择的公式在dataframe中创建一个新列。当公式选择在运行前已知时，答案是显而易见的，但我不知道在运行时公式未知的情况下如何进行。dataframe中的列数可能有所不同，每个公式的变量/操作数也可能不同，因此lambda函数似乎不合适。 1

浏览 6提问于2019-10-04得票数 0

回答已采纳

3回答

如何在Apache Spark中处理变化的拼图模式

、、、、

我遇到了一个问题，我在S3中将拼图数据作为每日数据块(以s3://bucketName/prefix/YYYY/MM/DD/的形式)，但我无法从不同的日期读取AWS EMR Spark中的数据，因为一些列类型不匹配，但同一列在其他文件中可能具有null值时出现，这些值随后被推断为字符串类型。JSON数据也被划分为

浏览 0提问于2016-12-02得票数 24

回答已采纳

2回答

从保持原始数据形状的numpy列中减去单个值

、、、

我想从numpy列中减去给定的值。例如，给定一个二维矩阵，我想从给定的列中减去一个任意值。我知道这可以通过以下代码来实现：基本上是从0列减去my_value。我想要做的是从选定的列中减去我的值，

浏览 1提问于2021-01-17得票数 0

回答已采纳

1回答

如何在pySpark中将带有尾随破折号的数字格式化为负数？

、

我正在使用Spark读取一些CSV数据(通过指定schema并设置为FAILFAST模式)。数据包含不同的列类型，包括整数。问题是一些整数有尾随的破折号而不是前导破折号(324-而不是-324，spark将它们作为字符串)。目前它无法将这些值解析为整数(如果我从代码中删除FAILFAST模式，它会将所有非整数替换为null)： df = spark.read.fo

浏览 16提问于2020-06-17得票数 1

2回答

Apache Spark从时间戳列中减去天数

、、、

我正在使用Spark数据集，但在从时间戳列中减去天数时遇到了问题。2017-09-22 13:17:39.900 - 10 ----> 2017-09-12 13:17:39.900 有了date_sub函数，我得到了没有13:17:39.900的2017年9

浏览 1提问于2017-09-22得票数 5

回答已采纳

10回答

实现可分性-7规则。

、、

乘以2，再减去剩下的部分。如果结果可被7整除，则原始数字可被7整除。此规则适用于手动可分性检查。例如：在此挑战中，您应该应用此规则，直到可分性状态明显为止，即数字不大于70 (但是，有关详细信息，请参阅下面)。创建一个函数或一个完整的程序。输入:一个正整数；您的代码应该支持高达3

浏览 0提问于2016-02-14得票数 26

1回答

dataframe中的一个列可以包含不同的数据类型项吗？

、、

如果我在csv文件中更改列的一个值，那么整个列值都会更改，例如，我有一个列类型int64，我将一个项从任意整数更改为字符串，然后当我们读取像df =pandas.read_csv(文件名)这样的文件时，默认情况下整个项类型都更改为字符串。实际上，我必须在df列中找到具有不同数据类型的一个或多个项，例如，如果我的

浏览 142提问于2020-09-10得票数 0

2回答

将字符串对齐为列

、、

我有一个字符串集合，用户可以添加或减去这些字符串。我需要一种方法来打印出列中的字符串，以便每个字符串的第一个字母对齐。但是，在运行时，列数必须是可变的。虽然默认为4列，但使用时可以选择从1到6之间的任意数字。我不知道如何将未知数量的字符串格式化为未知数量的列。示例输入：它，所以我们是一个i，y，z，c，yo，bo，go，a 示例

浏览 3提问于2012-11-11得票数 1

回答已采纳

2回答

PySpark TypeError: int()参数必须是字符串或数字，而不是‘列’

、、、、

我正在处理这个PySpark项目，当我试图计算某些内容时，我会得到以下错误：我试着按照的解决方案来解决这个问题，但对我来说没有效果不管怎样，请在下面找到我的密码。我是PySpark的新手，所以我很想向社区寻求帮助。

浏览 3提问于2019-10-23得票数 0

回答已采纳

2回答

未检查类型的SQLITE日期

、、

我刚刚测试了sqlite并创建了一个表。0|a|DATE|0||0 Hello

浏览 5提问于2013-10-29得票数 6

回答已采纳

1回答

验证中列的数据类型

、、、

我有3列的火花放电数据。Test1表的DDL都具有字符串数据类型。因此，如果我这样做，df.printSchema都是字符串数据类型，如下所示，>>> df.printSchema+----------+--------------+-------------------+ 现在，我只想过滤'c2‘<e

浏览 4提问于2017-09-10得票数 2

回答已采纳

1回答

星星之火无法合并拼花文件(整数->十进制)

、、

第一列包含以下列：十进制:十进制(38，18)(可空=真)我想将它们合并，但我不能简单地单独阅读它们，并将它们抛到特定的列中我读这两本书都是这样的： df = spark.read.format("parquet").load([

浏览 2提问于2020-11-05得票数 1

1回答

DataFrame cols的pyspark变换子集，但保留索引

、、、

我想要做的是对数值列(按行)应用一些转换，但保留索引信息。在下面的示例中，我将使用“按行减去平均值”作为示例，我需要执行的实际操作是多种多样的，并且需要任意函数。我知道你不需要使用一个函数来减去spark dataframe的平均值，我在这里只是为了简化而使用它。我不能传递索引列，因为我不希望它们包含在转换计算中。它们可以是日期，也可以是字符串，而不是简单的<e

浏览 19提问于2021-04-16得票数 1

回答已采纳

1回答

火花JDBC并行

、、、

我正在处理用例，在这个用例中，我需要一次性卸载JDBC Datasource --在我的例子中，它是SAP数据库。我想将整个SAP数据库卸载到HDFS/MapR。我们最初尝试了sqoop，但是Sqoop的问题取决于主键字段，并且它只支持一个主键字段--按分拆-按争理。然后，我们考虑利用Spark来做数据集的Sqoop。通过各种JDBC选项可用的火花，例如，这个帖子。它还只接受一个列，而对于SAP Hana表，它主要由共轭键(多个键组成主键)组

浏览 0提问于2018-09-18得票数 2

点击加载更多