对spark数据帧中的列进行分组并对其他列进行计数_对列中的no.of元素进行计数并对其进行分组_对多列中的行进行分组并计数 - 腾讯云开发者社区

scala、apache-spark、nullable

在读取带有推断模式的文件(使用Spark2.0)之后： from pyspark.sql import SparkSession spark = SparkSession.builder.appName('foo').getOrCreate() df = spark.read.csv('myData.csv', inferSchema=True) 所有列(string和numeric )都是可空的。但是，如果我使用显式模式读取文件，则只有string列是可空的。是否有一种方法可以强制read()与inferSchema=True一起设置空值，与使用显式模式

浏览 3提问于2017-09-14得票数 2

1回答

如果列具有要绕过并读取csv和chars..how的特殊模式，则SparkDataFrame.dtypes将失败

pyspark、spark-csv

如果csv文件包含带有特殊字符的列，则推断Spark Dataframe的架构将引发错误。测试样本foo.csv id，评论1，#Hi 2，你好 spark = SparkSession.builder.appName("footest").getOrCreate() df= spark.read.load("foo.csv", format="csv", inferSchema="true", header="true") print(df.dtypes) raise ValueError("Cou

浏览 12提问于2020-01-28得票数 0

2回答

Pyspark:从AWS:S3桶读取数据并写入postgres表

python、postgresql、amazon-s3、pyspark

我试图从S3存储桶中读取数据，并希望将其写入/加载到postgres表中。我的密码是- from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Read Multiple CSV Files').getOrCreate() path = ['C://Projects/Sandbox/file2.csv'] files = spark.read.csv(path, sep=',',inferSchema=True, header=True) df1 = f

浏览 3提问于2022-03-21得票数 0

回答已采纳

1回答

在PySpark中，SparkSession和Databricks的Spark-CSV模块在导入CSV文件方面有什么不同？

csv、apache-spark、pyspark

我知道在PySpark中导入CSV文件的两种方法： 1)我可以使用SparkSession。这是我在Jupyter Notebook中的完整代码。 from pyspark import SparkContext sc = SparkContext() from pyspark.sql import SQLContext sqlContext = SQLContext(sc) from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Spark Session 1').getOrC

浏览 28提问于2019-10-18得票数 2

回答已采纳

2回答

无法在木星笔记本上将s3承载的CSV装载到火花数据中心。

python、apache-spark、amazon-s3、pyspark、jupyter-notebook

无法加载S3-托管的CSV到星火数据在木星笔记本上。我相信我上传了两个必需的包与以下的os.environ行。如果我做错了，请告诉我如何正确安装它。木星笔记本是托管在一个EC2实例上的，这就是为什么我试图从一个S3桶中提取CSV。这是我的代码： import os import pyspark os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2 pyspark-shell

浏览 19提问于2022-06-23得票数 0

回答已采纳

2回答

如何在pyspark中读取csv文件？

pyspark、pyspark-sql、pyspark-dataframes

我正在尝试读取csv文件使用pyspark，但它显示一些错误。你能说出读取csv文件的正确过程吗？ python代码： from pyspark.sql import * df = spark.read.csv("D:\Users\SPate233\Downloads\iMedical\query1.csv", inferSchema = True, header = True) 我也尝试了下面的一个： sqlContext = SQLContext df = sqlContext.load(source="com.databricks.spark.csv",

浏览 9提问于2019-11-11得票数 0

1回答

Pyspark -如何删除数据帧中的前导空格和尾随空格？

apache-spark、pyspark、pyspark-sql

我有一个包含10列的spark数据帧，我正在将其写入hdfs中的一个表。我遇到了列(所有字段和所有行)中的前导和尾随空格的问题。 from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Networks').getOrCreate() dataset = spark.read.csv('Networks_arin_db_2-20-2019_parsed.csv', header=True, inferSchema=True) #dataset.show(5)

浏览 33提问于2019-02-22得票数 0

回答已采纳

1回答

无论我做什么，都会从记忆中燃起火花

apache-spark、memory、pyspark、pyspark-sql

我试着用火花过滤一个大数据。作为一只熊猫，它的记忆将在70 in左右。我能够使用熊猫加载和过滤这些数据，尽管速度非常慢，因为我必须交换到磁盘等。但是，当我尝试使用PySpark执行此操作时，我会遇到来自Java的内存错误。 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Master").getOrCreate() master = spark.read.csv(master_path, inferSchema=True, schema=schema, header=Tru

浏览 2提问于2017-12-06得票数 0

回答已采纳

1回答

无法SaveAsTextFile AttributeError：“列表”对象没有属性“saveAsTextFile”

pyspark-sql

我提交了一个与saveAsTextFile相关的类似问题，但我不确定是否有一个问题会提供与我现在有一个新的错误消息相同的答案：我编译了以下pyspark.sql代码： #%% import findspark findspark.init('/home/packt/spark-2.1.0-bin-hadoop2.7') from pyspark.sql import SparkSession spark = SparkSession.builder.appName('ops').getOrCreate() df = spark.read.csv('/h

浏览 1提问于2018-08-06得票数 1

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

python、apache-spark、memory、pyspark、bigdata

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们在日期上合并： bigframe = pd.concat(

浏览 14提问于2020-02-17得票数 2

回答已采纳

3回答

Spark Data Frames -检查列是否为整型

python、pyspark、spark-dataframe

我正在尝试找出spark数据框中的列是什么数据类型，并基于该定义操作列。这是我到目前为止所知道的： import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.appName('MyApp').getOrCreate() df = spark.read.csv('Path To csv File',inferSchema=True,header=True) for x in df.columns: if type(x) == 'integer

浏览 8提问于2018-04-12得票数 1

1回答

UnicodeEncodeError：“ascii”编解码器不能编码字符错误

python、csv、apache-spark、unicode、pyspark

我正在使用python从google云存储中读取一些文件。 spark = SparkSession.builder.appName('aggs').getOrCreate() df = spark.read.option("sep","\t").option("encoding", "UTF-8").csv('gs://path/', inferSchema=True, header=True,encoding='utf-8') df.count() df.show(10) 但是

浏览 0提问于2019-07-26得票数 1

回答已采纳

4回答

将Dataframe中的列值转换为列表

python、apache-spark、pyspark

我有以下源文件。我的文件中有一个名为"john“的名称，希望拆分为列表['j','o','h','n']。请按以下方式查找个人档案。源文件： id,name,class,start_data,end_date 1,john,xii,20170909,20210909 代码： from pyspark.sql import SparkSession def main(): spark = SparkSession.builder.appName("PersonProcessing").getOrC

浏览 0提问于2018-09-04得票数 2

回答已采纳

1回答

PySpark: PicklingError:无法序列化对象: TypeError:不能对CompiledFFI对象进行筛选

python、apache-spark、pyspark、pickle

我对PySpark环境很陌生，在尝试用加密模块加密RDD中的数据时遇到了一个错误。下面是代码： from pyspark.sql import SparkSession spark = SparkSession.builder.appName('encrypt').getOrCreate() df = spark.read.csv('test.csv', inferSchema = True, header = True) df.show() df.printSchema() from cryptography.fernet import Fernet ke

浏览 0提问于2017-08-21得票数 8

回答已采纳

1回答

对象中没有属性“map”错误的pyflem2.4.4中的

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在使用python2.7运行Spark2.4.4，IDE是py魅力。输入文件在列中包含编码值，如下所示。 .ʽ|!3-2-704A------------ (dotted line is space) 我想得到结果就像 3-2-704 a 我试过下面的代码。 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark") \ .config("spark.some.config.option",

浏览 2提问于2019-09-22得票数 0

回答已采纳

1回答

将数据写入蜂巢中

python、shell、hadoop、apache-spark

下面是我将数据写入Hive的代码 from pyspark import since,SparkContext as sc from pyspark.sql import SparkSession from pyspark.sql.functions import _functions , isnan from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark import HiveContext as hc spark = SparkSession.builder.appName("

浏览 1提问于2017-06-26得票数 0

1回答

pyspark将前n个文件读入df

python、apache-spark

我正在试用databricks平台，我有兴趣将前6个文件加载到数据框架中。数据存储在dbfs:/mystore中，并以文本/csv文件的形式存在。 part-00000 part-00001 part-00002 part-00003 part-00004 part-00005 part-00006 part-00007 part-00008 part-00009 part-00010 我所做的是创建一个spark会话： spark = SparkSession.builder.appName("tester").master("local[*]").get

浏览 13提问于2021-05-03得票数 1

2回答

在将火花数据文件写入csv文件时获取“在调用o58.csv时发生的错误”错误

python、dataframe、csv、pyspark

在使用df.write.csv尝试将spark数据文件导出到csv文件后，我得到以下错误消息： ~\AppData\Local\Programs\Python\Python39\lib\site-packages\py4j\protocol.py in get_return_value(answer, gateway_client, target_id, name 324 value = OUTPUT_CONVERTER[type](answer[2:], gateway_client) 325 if answer[1]

浏览 8提问于2021-11-24得票数 1

回答已采纳

1回答

无法使用pyspark.sql执行内连接

pyspark-sql

如果我在错误的论坛上回答了以下问题，请告诉我。我已经创建了以下pyspark.sql查询。 #%% import findspark findspark.init('/home/packt/spark-2.1.0-bin-hadoop2.7') from pyspark.sql import SparkSession spark = SparkSession.builder.appName('ops').getOrCreate() df = spark.read.csv('/home/packt/Downloads/Spark_DataFrames/P

浏览 16提问于2018-08-02得票数 0

1回答

计算文本中的特定字符- pyspark

python、apache-spark、pyspark、apache-spark-sql

我有一个包含文本列的pyspark数据框。此列中可以包含文本(字符串)信息。我所要做的就是在这一列的每一行中计算A，B，C，D等。它类似于： df = spark.read.csv('Data.csv', header=True) df.select(['text']).show(truncate = False) +-------------------------+ |text | +-------------------------+ |BBEBEBEFC | |DDBBCDCBBEC

浏览 6提问于2021-04-05得票数 0

回答已采纳