从Spark " Column“数据类型变量中提取列值_从Spark Dataframe中的列中提取数值数据_Spark - Drop null值从map列中删除 - 腾讯云开发者社区

scala、apache-spark、amazon-s3、parquet、databricks

我从S3读取拼图文件时出错，原因是"final_height“列在同一个分区中获得字符串和双类型。有关信息，在拼花文件中有超过20列。我所犯的错误是： ERROR 1: Failed merging schema of file ".../part1.gz.parquet": ERROR 2: Caused by: org.apache.spark.SparkException: Failed to merge fields 'final_height' and 'final_height'. Failed to merge incom

浏览 8提问于2020-04-02得票数 6

1回答

更改增量表中列的数据类型

apache-spark、apache-spark-sql、delta-lake

是否有SQL命令可以方便地更改增量表中现有列的数据类型。我需要将列数据类型从BIGINT更改为STRING。下面是我正在尝试使用的SQL命令，但没有成功。 %sql ALTER TABLE [TABLE_NAME] ALTER COLUMN [COLUMN_NAME] STRING 我得到一个错误： org.apache.spark.sql.AnalysisException ALTER TABLE CHANGE COLUMN is not supported for changing column 'bam_user' with type 'IntegerType&

浏览 104提问于2021-05-31得票数 3

1回答

我无法与Merge命令一起插入表

sql-server、sql-server-2017、sql-server-2017-express

无法使用Insert语句执行合并(用于会计处理) Table1包含用于注销的GRList (基于Table3的日期) Table2包含所有GR详细信息(所有信息从2010年1月1日到2010年至今) Table3包含最早的索赔日期(如:1-2018年4月-2018年) 因此，从上述场景中，从表3中提取最古老的索赔日期(例如:1-4月-2018年)，然后在表2中搜索提取日期( <= 1-4月-2018)之前的GR，并填充表1中的记录(从2010年1月至2010年1月31日-2018年3月31日)。代码在SQL中试用 MERGE Table1 As Target Using (select

浏览 3提问于2019-07-03得票数 0

1回答

如何为pyspark dataframe中的边界指定时间戳值？

sql-server、apache-spark、pyspark、apache-spark-sql

我正在尝试从sqlserver读取表，并在读取时应用分区。在读取数据之前，我希望获得lowerBound和upperBound的界限，如下所示。 boundsDF = spark.read.format('jdbc') .option('url', 'url') .option('driver', 'com.microsoft.sqlserver.jdbc.SQLServerDriver') .option('u

浏览 20提问于2021-03-05得票数 1

1回答

列是uuid类型，但表达式的类型在Spark中是可变的。

java、postgresql、scala、apache-spark

日安。我正在部署一个流作业，以将数据从Spark (Scala)插入到Postgres。 df.select("col1","col2").write.mode(SaveMode.Append).jdbc(url, "tableName", connectionProperties) 这里，col2在dataframe中有uuid值，但它是一个字符串数据类型。当它试图插入到将col2列定义为uuid类型的表时，它在Column is of type uuid but expression is of type character varying中

浏览 3提问于2021-02-25得票数 0

回答已采纳

5回答

将列值获取到字符串变量中

scala、dataframe、apache-spark、pyspark、apache-spark-sql

我正在尝试将列值提取到变量中，以便在代码中的其他地方使用该值。我试着做以下几点 val name= test.filter(test("id").equalTo("200")).select("name").col("name") 它回来了 name org.apache.spark.sql.Column = name 如何获得价值？

浏览 3提问于2016-06-10得票数 38

回答已采纳

1回答

如何从Glue Dynamic Dataframe中提取列名和数据类型？

amazon-web-services、aws-glue、pyspark-dataframes

我正在尝试从Glue dynamic frame中提取列名和数据类型，并希望在spark sql中使用它们。对于ex： persons = glueContext.create_dynamic_frame.from_catalog( database="legislators", table_name="customer_table") persons.printSchema() 输出为根|-- cust_no: long |--名称:字符串|--地址:字符串|-- zip: long 如何从动态框架中提取列名和数据类型

浏览 17提问于2020-09-01得票数 1

1回答

相当于typeof(Col1)的SQLite C API

sqlite、c-api

我想要检测SQLite中任何SELECT查询的列数据类型。在C中，有用于此目的的const char *sqlite3_column_decltype(sqlite3_stmt*,int)。但这只适用于实表中的列。在这里，表达式(如LOWER('ABC') )或查询(如PRAGMA foreign_key_list("mytable") )中的列始终返回null。我知道也有typeof(col)，但是我不能控制触发的SQL，所以我需要一种从准备好的语句中提取数据类型的方法。

浏览 7提问于2020-01-15得票数 1

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

hadoop、apache-spark、hive、apache-spark-sql

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

阅读专栏

scanf

我正在编写一个C代码，从输入文件中读取三列数字，然后对获得的数字进行基本的数学运算。我的输入文件如下所示： 155.4996 38.0078 7.65 93.9968 44.9926 7.68 我目前正在尝试使用sscanf来分隔列。开始之前，我尝试读入列并将第三列打印到输出文件中。下面是我现在掌握的信息： FILE * fp; FILE * fp2; char *string; char out[2000]; char read[1000]; int column1, column2, column3; strcpy(read, "casecent"); strcpy(ou

浏览 3提问于2011-07-18得票数 0

2回答

如何替换字符串类型列中的子字符串？

java、apache-spark、dataframe、apache-spark-sql

我正在尝试转换以下Scala行(它从字符串中提取数字并在shell中使用)： val df2 = df.withColumn("only digits", regexp_replace(col("original"), "[^\\d]", "")) 与其类似，我在将org.apache.spark.sql.Column从col("original")返回到String.replaceAll()所需的字符串类型时遇到了问题。我尝试了以下操作，但它没有编译(cast仍然返回一个Column)。 import org.

浏览 9提问于2017-07-21得票数 3

回答已采纳

1回答

从datetime列中拉取某个日期python

python、pandas、datetime

如何从datetime列中提取某个日期。我一直在用这个 df.loc[(df['column name'] == 'date')] 但是它找不到日期，尽管它在df中。

浏览 13提问于2021-06-23得票数 0

1回答

将字符串(或字符串列表)拆分为spark数据帧中的单个列

scala、apache-spark、pyspark、apache-spark-sql、spark-dataframe

给定一个数据帧"df“和一个列列表"colStr"，在Spark dataframe中是否有一种方法可以从数据帧中提取或引用这些列。下面是一个例子- val in = sc.parallelize(List(0, 1, 2, 3, 4, 5)) val df = in.map(x => (x, x+1, x+2)).toDF("c1", "c2", "c3") val keyColumn = "c2" // this is either a single column name or a strin

浏览 2提问于2017-01-28得票数 1

回答已采纳

1回答

如何使用Pyspark的模式从Pyspark数据帧创建hive表？

python、pyspark

我已经使用以下代码创建了数据框： import pyspark from pyspark.sql import functions as F sc = pyspark.SparkContext() spark = pyspark.sql.SparkSession(sc) data = [('A', 'B', 1), ('A', 'B', 2), ('A', 'C', 1)] columns = ['Column1', 'Col

浏览 12提问于2020-06-15得票数 0

1回答

在一列中存储不同的PySpark模式

python、apache-spark、pyspark、apache-spark-sql

我尝试从PySpark中的REST中提取不同的表。我跟踪了这个。我想要将不同的模式存储在一列中的中。下面是一个示例： import pyspark.sql.functions as F from pyspark.sql import Row from pyspark.sql.types import * A = [{"TableName": "Table1", "Schema": StructType([StructField("a", StringType()), StructField("b", Intege

浏览 16提问于2022-08-23得票数 0

回答已采纳

5回答

如何在pyspark中获取dataframe列的名称？

pyspark、pyspark-sql

在熊猫中，这可以通过column.name来完成。但是，当它的spark数据帧列时如何做同样的事情呢？例如，调用程序有一个spark数据帧: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] 此程序调用我的函数: my_function(spark_df 'rank‘)在my_function中，我需要列的名称，即’rank‘ 如果是pandas数据帧，我们可以在my_function内部使用 >>> pand

浏览 1提问于2016-09-28得票数 55

2回答

使用java将索引列添加到apache spark Dataset<Row>

java、apache-spark

下面的问题有scala和pyspark的解决方案，而这个问题提供的解决方案不是针对连续索引值的。 Spark Dataframe :How to add a index Column : Aka Distributed Data Index 我在Apache-spark中有一个现有的数据集，我想根据索引从中选择一些行。我计划添加一个包含从1开始的唯一值的索引列，并根据该列的值提取行。我找到了下面的方法来添加使用order by的索引： df.withColumn("index", functions.row_number().over(Window.orderBy("

浏览 41提问于2019-05-16得票数 2

回答已采纳

1回答

星火转换列到存储在字符串中的sql类型

scala、apache-spark、apache-spark-sql、spark-dataframe

简单的请求是，我需要帮助将列添加到dataframe，但是，列必须是空的，它的类型来自...spark.sql.types，类型必须由字符串定义。我也许可以用ifs或case来完成这个任务，但是我正在寻找更优雅的东西。不需要为org.apache.spark.sql.types中的每一种类型编写案例的东西例如，如果我这样做： df = df.withColumn("col_name", lit(null).cast(org.apache.spark.sql.types.StringType)) 它按预期工作，但我将类型存储为字符串， var the_type = "

浏览 4提问于2017-08-31得票数 2

回答已采纳

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳

1回答

我可以强迫spark使用TINYINT而不是字节吗？

sql-server、scala、apache-spark

我试图使用Spark从Hive表中提取数据，并将其保存在Server表中。我面临的一个问题是，一些列正被BYTE数据类型拖到Dataframe中。如果不可能使用TINYINT或INT，我希望把它们作为TINYINT。我这样做的基本方式是： query = [SQL query] val df = sql(query) df.write.jdbc([connection info]) 如何将架构应用于强制某些数据类型的此过程？

浏览 0提问于2020-07-17得票数 0

回答已采纳

2回答

Tableau CustomSQL将数字转换为浮点型

sql、tableau-api

我正在Tableau中编写一个从BigQuery导入数据的customSQL。 BigQuery视图中的列Column1 |值(类型=数字) 我想将"VALUE“列转换为浮点型，这样该列就会出现在Tableau中我的当前SQL查询:从表1中选择Column1，CAST(值为浮点数) 上面的语句给了我一个错误。有什么想法吗？

浏览 27提问于2020-07-07得票数 0

回答已采纳

3回答

从目标方言的SQL查询创建(Py)Spark数据

sql、dataframe、apache-spark、pyspark、dialect

快速地，我的需求:从T( Server)中或多或少复杂的查询和/或从Server存储过程的输出中创建一个Spark数据。据我所知，Spark不允许以基础数据源的方言执行查询。是的，有来获取低级对象并执行存储过程，但以这种方式，输出中没有Spark。因此，我想以经典的pyodbc方式执行一个查询，获得结果，然后使用提供数据和模式的函数构建Spark。我可以获得数据，但不能从输出游标构建模式(一对(列名、数据类型)的列表)。遵循一个工作示例，从Server的本地实例中(生成和)提取示例数据： import pyodbc connection_string = "Driver={SQL

浏览 10提问于2022-11-16得票数 0

1回答

Tableau + Spark连接器+ Java火花数据帧

java、apache-spark、hive、apache-spark-sql、tableau-api

我需要使用Tableau对一些数据进行BI分析。数据存储在Cassandra数据库中，其中有一个包含动态JSON数据的列，Tableau不能直接解析该列。星火作业将使用Java运行，连接到Cassandra数据库，从而执行将每个JSON类型映射到将要存储的新表所需的计算。我成功地启动了一个节俭服务器，并使用Tableau连接到它，这里没有问题。问题：--尽管我确实存储了表，并且能够在Java控制台中看到它们，但在连接到服务器的Tableau上查找表时，我实际上看不到创建的表。在阅读了一些文章之后，我发现these和这些Spark都需要连接到同一个远程蜂箱，但是我似乎找不到我必须申请的设

浏览 0提问于2018-07-25得票数 2

1回答

Pandas错误:将一列读取为Python值(浮点值/Int值)，将其他列读取为numpy.float64

python、python-3.x、pandas、dataframe、numpy

我正在使用Pandas来转换一些体育数据。一列是主队统计数据，第二列是客队统计数据。统计数据是从excel文件中读取的。当我从数据框中打印字典时，所有客场球队的统计数据都是浮点型的(但很多应该是整数)。当我打印每个列值的类型时，第一列将显示为整数和浮点数，而第二列的所有内容都由numpy.float64值组成。如何将两列都设置为整型和浮点型？以下是python脚本和输出： import pandas as pd import numpy as np pd.options.mode.chained_assignment = None # Remove warning. default=

浏览 21提问于2021-04-27得票数 0

1回答

ArrayType列上的火花源填充不起作用

apache-spark、pyspark、apache-spark-sql

我有一个spark集群版本3.1.2。我有以下输入数据 +-------+------+------------+ | name|gender| arr| +-------+------+------------+ | James| M| [60000]| |Michael| M| [70000, 31]| | Robert| null|[44, 400000]| | Maria| F|[500000, 12]| | Jen| | null| +-------+------+------------+ 我必

浏览 0提问于2021-10-07得票数 1

1回答

如何使用结构化流从Kafka读取JSON格式的记录？

scala、apache-spark、apache-kafka、apache-spark-sql、spark-structured-streaming

浏览 3提问于2017-04-08得票数 15

回答已采纳

1回答

用火花卡桑德拉连接器在writeTime中获取DataSet列

apache-spark、cassandra、spark-dataframe、spark-cassandra-connector

在尝试将cassandra数据加载到一个writeTime (DataFrame)中时，我试图弄清楚是否可以使用火花卡桑德拉连接器获取列的DataFrame。这就是我想要做的： val df = spark.read.format("org.apache.spark.sql.cassandra") .options(Map( "table" -> "table1", "keyspace" -> "keyspace1", "cluster" ->

浏览 0提问于2018-03-14得票数 1

回答已采纳

1回答

更改拼花文件中的列数据类型

sql、amazon-web-services、amazon-s3、hive、external-tables

我有一个外部表指向一个s3位置(拼图文件)，它的所有数据类型都是字符串。我希望更正所有列的数据类型，而不是将所有内容都作为字符串读取。当我删除外部表并使用新的数据类型重新创建时，select查询总是抛出如下所示的错误： java.lang.UnsupportedOperationException: org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainBinaryDictionary at org.apache.parquet.column.Dictionary.decodeToInt(Dicti

浏览 0提问于2018-03-31得票数 2

2回答

将.cvs列表从str转换为int

python、python-3.x、list、type-conversion

我正在使用Python进行培训，其中一项练习要求我从csv文件中提取列，然后将其从str转换为int。 def exercise_column_csv(csv_file_name: str, column_index: int, data_type: str): column = [] with open(file='.cars.csv', mode='r', encodingg='utf8') as file: extract_column=file.readline() extract_column=file.read

浏览 6提问于2022-02-16得票数 0

1回答

pyspark应为: decimal(16,2)，找到: BINARY

apache-spark、pyspark、parquet

当我试图查看从拼图文件创建的dataframe中的数据时，我遇到了下面的错误。 Expected: decimal(16,2), Found: BINARY at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:221) at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:130)

浏览 153提问于2020-04-30得票数 2

1回答

将Scala -时间戳激发到date_add()

scala、apache-spark、dateadd

我有点麻烦，有些事情必须很简单..。但我还在学习的初期阶段。问题是:我想要一个项目的开始日期，然后增加20天。我想用一种自动化的方式来做，而不是手动添加(比如..。虽然我知道它是从2019-06-01开始的，但我不想手动输入日期"2019-06-21“，因为我以后可能会更改它，我想我这样做只是懒得做)。所以，为了得到我所做的开始日期： val start_date = table.select(date_trunc("day", min('applied_at)).as("start_date")) 它会返回一个 start_date: or

浏览 0提问于2019-07-15得票数 0

回答已采纳

1回答

什么是正确的方法来验证csv数据类型的火花？

apache-spark

我们有一个JSON文件作为spark程序的输入(描述模式定义和约束，我们希望检查每一列)，我还想执行一些数据质量检查，比如( NULL，UNIQUE)和数据类型验证(希望检查csv文件是否根据json模式包含数据？)。 JSON档案： { "id":"1"， “姓名”：“雇员”， “资料来源”：“本地”， “file_type”：“文本” "sub_file_type":"csv“ “神器”："，“， “路径”：“/user/all/dqdata/data/emp.txt”， “栏”：[ {"column_name"

浏览 1提问于2019-06-05得票数 1

1回答

将列表项映射到org.apache.spark.sql.Column类型

scala、apache-spark

我正在尝试对org.apache.spark.sql.DataFrame类型的Dataframe中的列列表进行汇总，并创建一个新的列‘sum’和dataframe 'out‘。如果我手动列出列，我可以很容易地做到这一点，例如，这是可行的。 val columnsToSum = List(col("led zeppelin"), col("lenny kravitz"), col("leona lewis"), col("lily allen")) val out = df3.withColumn("sums

浏览 2提问于2020-11-25得票数 2

回答已采纳

1回答

使用round函数时的pyspark问题

python、pyspark、rounding、rdd

我正在使用zeppelin pyspark并试图舍入RDD的列值(从Dataframe转换而来)，但得到了错误。 %pyspark import pyspark.sql.functions as F orderfinal = orderjoin.rdd.map(lambda x: ((x[1], x[2]), (x[4], x[5]))). \ combineByKey(lambda value: (value[0], value[1]), lambda x, value: (x[0] + value[0]

浏览 0提问于2020-02-24得票数 0

1回答

SparkSQL:如何使用数据类型查询列:地图列表

dataframe、apache-spark、apache-spark-sql

我有一个包含数组(或列表)列的数据，每个元素都是一个字符串映射、复杂数据类型(意为- String、嵌套映射、列表等；在某种程度上，您可以假设列数据类型类似于List[Map[String,AnyRef]])。现在我想在这张表上查询一下。 select * from the tableX where column.<any of the array element>['someArbitaryKey'] in ('a','b','c') 我不知道如何在spark SQL中表示<any of the array

浏览 1提问于2022-09-18得票数 1

1回答

基于广播变量的电火花滤波器数据

python、pyspark、broadcast

我有一个吡火花2.0数据，我试图过滤基于一个(相对的)短列表-也许长度50-100。 filterList = ['A','B','C'] 我希望将该列表广播给我的每个节点，并使用它删除不在列表中的两列之一的记录。这项行动的工作是： filter_df= df.where((df['Foo'].isin(filterList )) | (df['Bar'].isin(filterList))) 但是一旦我广播了这个列表，我就会发现一个错误： filterListB= sc.broadcast(filterList

浏览 1提问于2018-09-25得票数 0

回答已采纳

1回答

在snappy data中通过java插入json对象时出现错误

java、arrays、json、maps、snappydata

我有一个表，其中包含json对象和数组作为两种fields.My表模式的数据类型，在scala中是这样的 snSession.sql("CREATE TABLE subscriber_new14 (ID int,skills Map<STRING,INTEGER> ) USING column OPTIONS (PARTITION_BY 'ID',OVERFLOW 'true',EVICTION_BY 'LRUHEAPPERCENT' )"); 我的java代码是 PreparedStatement s2 = snap

浏览 3提问于2018-07-31得票数 1

1回答

Python spark从dataframe中提取字符

python-2.7、apache-spark、pyspark

我在spark中有一个数据帧，大概是这样的： ID | Column ------ | ---- 1 | STRINGOFLETTERS 2 | SOMEOTHERCHARACTERS 3 | ANOTHERSTRING 4 | EXAMPLEEXAMPLE 我想要做的是从列中提取前5个字符加上第8个字符，并创建一个新列，如下所示： ID | New Column ------ | ------ 1 | STRIN_F 2 | SOMEO_E 3 | ANOTH_S 4 | EXAMP_E 我不能使

浏览 0提问于2016-12-02得票数 13

回答已采纳

1回答

如何将表列的数据类型更改为枚举？

postgresql、enums、alter-table

在Postgres中有一个表"ENGINE"，在该表中，我必须将名为loglevel的列的数据类型从string更改为enum。然而，我无法理解手册中的说明： ALTER [ COLUMN ] column TYPE type [ USING expression ]

浏览 0提问于2017-07-05得票数 7

2回答

Flex 4.6绑定到Spark GridColumn宽度

actionscript-3、apache-flex、data-binding、flex4.5

我知道Flex充满了漏洞，它需要很多技巧才能让它正常工作，但我认为我走在正确的道路上。我将描述我正在尝试实现的问题和解决方案，希望您能给我指明正确的道路。我尝试做的是将Spark DataGrid列的宽度绑定到Spark标签的宽度，这是第一个漏洞: GridColumn有一个绑定属性" width“，但它在对象创建完成后还没有准备好，只有在用户交互之后才会发布。所以我想出了第一个技巧:一个从DataGrid本身提取列宽的函数，它绑定到创建列或更改列大小时触发的事件，它可以工作： [Bindable(event="creationComplete")] [Bindabl

浏览 1提问于2013-03-09得票数 0

回答已采纳

1回答

如何从列中获取MapType

scala、apache-spark、dataframe、graphframes

浏览 1提问于2018-01-31得票数 2

回答已采纳

1回答

oracle datetime字段spark读取失败，出现精度错误

python、apache-spark

我已经追踪这个问题有一段时间了，我已经别无选择了。我正在加载一个拼图文件，其中的行如下： RFS,FOI,1209591006000,64.0000,1209591007000,Y,1209591007000,04/30/2008 17:30:07,1209591007000,UPDATER 无济于事的是，spark抛出了一个错误，告诉我DecimalType的精度大于38 (这是极限)。下面是相关的堆栈跟踪： 19/07/09 20:24:02 WARN TaskSetManager: Lost task 0.0 in stage 4.0 (TID 203, ip-10-230-246-23

浏览 15提问于2019-07-10得票数 0

1回答

使用SparklyR“选择”从火花数组列中提取元素

r、apache-spark、select、sparklyr、array-column

我在SparklyR接口中有一个SparklyR，我正在尝试从数组列中提取元素。 df <- copy_to(sc, data.frame(A=c(1,2),B=c(3,4))) ## BUILD DATAFRAME dfnew <- df %>% mutate(C=Array(A,B)) %>% select(C) ## CREATE ARRAY COL > dfnew ## VIEW DATAFRAME # Sou

浏览 3提问于2021-09-10得票数 0

回答已采纳

1回答

更改星火GraphFrame中的字符串列

scala、apache-spark、user-defined-functions、graphframes

我在Spark2.0和scala中使用GraphFrame。我需要从字符串类型的列中删除双引号(从许多列中删除)。我试图使用UDF这样做，如下所示： import org.apache.spark.sql.functions.udf val removeDoubleQuotes = udf( (x:Any) => x match{ case s:String => s.replace("\"","") case other => other } ) 我得到以下错误，因为在GraphFram

浏览 4提问于2017-07-07得票数 0

1回答

在不使用循环的情况下选择R数据的不同元素(每一行一个，但可能是不同的列)

r、dataframe

假设我有一个任意维的data.frame (n由p表示)。我想从那个n中提取一个长度为data.frame的向量，这是data.frame中每行向量中的一个元素。但是，每个元素所在的列可能因行而异。有没有一种没有循环的方法来做到这一点？例如，如果我有以下(3x3)数据帧，称为 X Y Z 1 17 43 3 4 2 6 9 0 我想从每一行的数据中提取一个标量值。我有一个向量，称为column.list，c(1,3,1) (在本例中任意选择)，它给出了我想要的元素的列索引，其中column.list的kth元素是数据中k行的列索引。如果没有循环我怎么做呢？我想避免

浏览 0提问于2014-06-19得票数 1

回答已采纳

2回答

使用Spark和JDBC编写蜂巢表

hadoop、apache-spark、hive、hdfs

我是Hadoop的新手，我正在使用单个节点集群(用于开发)从关系数据库中提取一些数据。具体来说，我使用Spark (Version1.4.1) Java来提取查询的数据并写入Hive。我遇到了各种各样的问题(并阅读了手册并尝试在网上搜索)，但我想我可能误解了其中的一些基本部分，因为我有问题。首先，我认为我可以将数据读入Spark，也可以运行一些Spark方法来操作数据，然后通过HiveContext对象将其写入Hive。但是，似乎没有任何方法可以直接写从火花到蜂巢。这是真的吗？所以我需要一个中间步骤。在写入Hive之前，我尝试过几种不同的存储数据的方法，并决定编写HDFS文本文件，因为它

浏览 3提问于2015-10-28得票数 2

2回答

我可以对列执行哪些操作

scala、apache-spark、apache-spark-sql

我有一张桌子 DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count United States Romania 15 United States Croatia 1 United States Ireland 344 我把上面的代码转换成了DataFrame val flightData2015 = spark .read .option("inferSchema", "true")//infers the input schema automatically from data .option("he

浏览 19提问于2019-02-08得票数 0

回答已采纳

2回答

DB2中的通配符

sql、db2、db2-400

我正在使用AS/400的DB2数据库，正在考虑从项目表中提取以字母A结尾的所有项目编号。 SELECT * FROM NRPDTA.IM WHERE IMITNO LIKE '%A'; 查询返回一个空集。我知道此表中存在项目编号300072A。该列的数据类型设置为character fwiw。为了做到这一点，我在语法上遗漏了什么？

浏览 0提问于2015-09-09得票数 2

2回答

如何将SQL语句的结果存储为变量并在SSIS表达式中使用结果？

ssis、expression

我使用SSIS Data Flow Task将数据从一个表传输到另一个表。表A中的A列包含一个数字，我想将其最后3位数字存储在表B的B列中。首先，我试图获取A列中的所有数据，并通过一个简单的SELECT语句SELECT COLUMN_A FROM TABLE_A存储在一个变量中。但是，当我想要查询的结果集时，变量将语句存储为字符串。我已经将EvaluateAsExpression属性设置为False，但没有结果。其次，我希望能够在我的Derived Column的Data Flow中使用这个查询的结果来提取最后的3位数字，并将值存储在目的地的Column_B中。我的说法是： (DT_STR

浏览 3提问于2017-09-05得票数 0

回答已采纳

1回答

在Foundry中，如何在每个值只有一个拼图文件的情况下实现Hive分区？

pyspark、palantir-foundry、hive-partitions、foundry-code-repositories、foundry-code-workbooks

我希望改进运行过滤逻辑的性能。为此，我们的想法是通过将分区列设置为dataset中的一个列(称为splittable_column)来执行单元分区设置。我检查了一下，可拆分列的基数很低，如果我从splitting_column中子集每个值，则最终结果是一个800 if的拼花文件。如果我的数据集的基数为3，我的目标是将数据布局如下： spark/splittable_column=Value A/part-00000-abc.c000.snappy.parquet spark/splittable_column=Value B/part-00000-def.c000.snappy.par

浏览 9提问于2022-06-29得票数 1

回答已采纳