腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
读取
多个
csv
文件
并
使用
源代码
对
其
进行
注释
python
、
apache-spark
、
pyspark
我们遇到了批量
文件
吞入spark的问题。目前,我知道可以
使用
通配符完成
多个
文件
插入 spark.read.
csv
("path/to/file*.
csv
") 或者通过传递感兴趣的路径列表 spark.read.
csv
(["path/to/file1.
csv
", "path/to/file2.
csv
"]) 在我们的情况下
浏览 9
提问于2021-08-12
得票数 1
回答已采纳
1
回答
读取
CSV
文件
并
对
其
进行
标记。
r
、
data-analysis
我是R的新手,我一直在尝试
读取
这样的
CSV
文件
。tweets <- read.
csv
("tweets.
csv
") 我需要能够删除所有的标点符号,转换为小写,删除数字和停止词和空格从数据帧'tweets‘,而不必将其转换为语料库或其他。
浏览 2
提问于2017-10-11
得票数 0
3
回答
CSV
解析时跳过空行
java
、
csv
我目前正在从URL中拉出一个
CSV
文件
并
修改它的条目。我目前
使用
StreamReader来
读取
CSV
的每一行,并将其拆分为一个数组,在数组中我可以根据每个条目的位置
对
其
进行
修改。
CSV
是从电子表单提供者生成的,其中特定的表单条目是多行字段,用户可以在其中添加
多个
注释
。但是,当用户输入新笔记时,他们会用一个回车行分隔每个笔记。
CSV
示例: "FName&q
浏览 0
提问于2015-12-06
得票数 0
1
回答
PythonSpark:需要从
文件
列执行单元查询
python
、
pandas
、
apache-spark
、
hive
、
pyspark
我有一个
文件
,
其
行如下(
文件
名:sample.
csv
)T1012,"Select * from employee_dim limit 100"T1231,"Select dept_number,location,dept_name from locations" 我需要迭代这个
文件
(sample.
csv
)
并<
浏览 0
提问于2019-08-01
得票数 2
回答已采纳
1
回答
如何防止
pyspark
在以JSON对象为值的
csv
字段中将逗号解释为分隔符
python
、
csv
、
pyspark
我正在尝试
使用
pyspark
版本2.4.5和Databrick的星火-
csv
模块
读取
一个逗号分隔的
csv
文件
。
csv
文件
中的一个字段有一个json对象作为
其
值。
csv
的内容如下header_col_1, header_col_2, header_col_3one, {“key1”:“value1",“key2下面是我用来
读取<
浏览 6
提问于2020-07-22
得票数 2
1
回答
验证
CSV
文件
PySpark
csv
、
apache-spark
、
dataframe
、
pyspark
我正在尝试验证
csv
文件
(每条记录的列数)。根据下面的链接,在Databricks 3.0中有处理它的选项。df = spark.read .parquet("/input/parquetFile") 但是,我
使用
的是2.3版本的spark,不能
使用
该选项。有没有办法找出
csv
文件
中的坏记录
浏览 1
提问于2018-11-21
得票数 1
1
回答
验证星火数据中的列名和数据类型
python
、
csv
、
apache-spark
、
validation
、
pyspark
我想
使用
python中的
pyspark
读取
.
csv
文件
,但我只想为每个列提供类型,
并
对
列名(而不是模式中的名称)
使用
标头(来自.
csv
文件
)。有人知道怎么做吗?
浏览 6
提问于2021-04-14
得票数 1
回答已采纳
1
回答
AWS作业create_dynamic_frame_from_options()打开特定的
文件
?
amazon-web-services
、
apache-spark
、
pyspark
、
aws-glue
如果
使用
create_dynamic_frame_from_catalog(),则提供数据库名称和表名,例如,从Glue爬虫中创建,这实际上是命名特定的输入
文件
。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入
文件
)。我尝试过
使用
create_dynamic_frame_from_options(),但“路径”连接选项显然不允许我命名该
文件
。有办法这样做吗?
浏览 1
提问于2020-07-15
得票数 1
1
回答
如何在
Pyspark
中
读取
多行
CSV
文件
python
、
csv
、
apache-spark
、
pyspark
我将此推文数据集与
Pyspark
一起
使用
,以便
对
其
进行
处理,
并
根据推文的位置获取一些趋势。但我在尝试创建数据帧时遇到了一个问题。我
使用
spark.read.options(header="True").
csv
("hashtag_donaldtrump.
csv
")创建数据帧,但是如果我查看tweets列,我会得到以下结果: ?你知道如何清理
CSV
文件
,以便它
浏览 14
提问于2021-01-15
得票数 0
回答已采纳
1
回答
正确检查
源代码
文件
(
使用
Python)
python
、
objective-c
、
lexical-analysis
我正在
进行
一个项目,其中包括
读取
源代码
文件
,寻找特定的标记。(在我的例子中,我希望确定Objective类是否实现了协议。)问题是,虽然我只需扫描关键字行,但它可能会出现在
注释
或字符串中。我是否需要对整个
文件
进行
标记
并
对
其
进行
莱克斯处理?有更简单的方法吗?
浏览 2
提问于2013-10-02
得票数 0
回答已采纳
2
回答
从
csv
文件
读取
增量/插入数据集
csv
、
apache-spark
、
pyspark
、
spark-dataframe
我有一个定期更新的数据集,作为一系列
CSV
文件
接收这些更改。我想要一个只包含每一行的最新版本的Dataframe。是否有一种方法可以在火花/火花放电中加载整个数据集,从而允许并行性?示例: 我知道,我可以通过顺序加载每个
文件
,然后
使用
一个反连接(用于
浏览 3
提问于2017-06-28
得票数 0
回答已采纳
1
回答
将文本
文件
解析为在特定位置
使用
pyspark
进行
拆分
pyspark
、
rdd
我有一个没有任何字符分隔的文本
文件
,我希望在特定的位置分割它,以便我可以将它转换为‘dataframe’。1JITENDER333BIJENDER37 我希望将
文件
拆分,以便位置0到1进入第一列,位置2至9进入第二列,10至11位置进入第三列,以便最终将其转换为spark dataframe
浏览 1
提问于2018-12-27
得票数 1
回答已采纳
1
回答
stages查询是如何转换成
多个
阶段的?
apache-spark
、
pyspark
、
apache-spark-sql
我有一份简单的提交工作:from
pyspark
.sql import SparkSessionfrom
pyspark<
浏览 6
提问于2020-07-06
得票数 2
回答已采纳
3
回答
读取
多个
txt
文件
并
对
其
进行
排序
java
、
android
、
file
、
find
、
storage
我有一个叫“保存”的地图(在安卓手机上),在那个
文件
夹里我有几个.txt
文件
。 } 我得到了一个名为3_test.txt的txt
文件
,但他不能以这种方式找到它,如果我硬编码它,它会找到它。问题是,我不知道如何“扫描”
文件
夹中的所有
文件
保存,然后把“如果”检查它。 希望有人能帮我解决这个问题。
浏览 0
提问于2012-02-27
得票数 0
回答已采纳
2
回答
如何
使用
PySpark
将这些
多个
csv
文件
(大约130,000个)有效地合并为一个大型数据集?
python
、
apache-spark
、
memory
、
pyspark
、
bigdata
我之前发布了这个问题,并得到了一些
使用
PySpark
的建议。 下面的压缩
文件
()包含一个名为data的
文件
夹,其中包含大约130,000个
csv
文件
。我想把它们合并到一个单独的数据帧中。如果您打开任何
csv
文件
,您可以看到它们都具有相同的格式,第一列用于日期,第二列用于数据系列。所以现在我改用
PySpark
,但是我不知道连接所有
文件
的最有效的方法是什么,对于pandas数据帧,我会像这样连接单个帧的列表,因为我想让
浏览 14
提问于2020-02-17
得票数 2
回答已采纳
2
回答
如何只运行部分代码
python
、
pytest
我正在尝试
使用
pytest
进行
单元测试。我在单元测试代码中导入
源代码
并
对
其
进行
测试。但是,在
进行
单元测试时,我不想执行或
注释
掉
源代码
中的某些代码。但是我不能修改
源代码
。那么,在我的
源代码
中有什么方法只在执行过程中
对
某些代码块
进行
注释
吗?
浏览 3
提问于2016-10-22
得票数 0
回答已采纳
1
回答
要对pandas
进行
预处理的数据太多了--
pyspark
.sql是一个可行的替代方案吗?[已关闭]
更新问题,以便可以通过以下方式
使用
事实和引用回答问题编辑此帖子..。 两天前就关门了。改进此问题 我在几个.
csv
文件
中有大约20 GB的数据,
并
希望
对
其
进行
一些常见的预处理步骤,如连接、添加列、删除行/列、分组/聚合等。例如,
使用
pandas,我有以下操作: import pandas as pd df2 = pd.read_
csv
浏览 34
提问于2021-02-25
得票数 0
1
回答
pyspark
一次
读取
多个
csv
文件
apache-spark
、
pyspark
、
hive
我正在
使用
SPARK
读取
hdfs中的
文件
。有一个场景,我们以
csv
格式从遗留系统中获取
文件
块。ID1_FILENAMEA_1.
csv
ID1_FILENAMEA_3.
csv
ID2_FILENAMEA_1.
csv
ID2_FILENAMEA_3.
csv
此
浏览 228
提问于2021-09-27
得票数 1
回答已采纳
1
回答
如果.
CSV
文件
已
读取
,则标记该
文件
php
、
csv
、
permissions
站点B创建一个包含最新
注释
的.
CSV
文件
。站点A
读取
该
文件
并
获取信息,然后
对
其
执行某些功能。这是位于不同服务器上的两个独立进程。我在“追加”模式下创建了
CSV
,这样我就可以编译新的
注释
,而不用担心在另一端运行函数时跳过任何
注释
:但是,一旦我在站点A上获得了.
浏览 2
提问于2012-03-23
得票数 0
1
回答
如何在Spark (
Pyspark
)中加速缓存?
apache-spark
、
caching
、
pyspark
、
apache-spark-sql
我需要在
Pyspark
(2.4.4)中缓存一个数据帧,内存缓存很慢。 我
使用
Spark缓存
对
Pandas缓存
进行
基准测试,通过
读取
相同的
文件
(
CSV
)。具体地说,Pandas的速度要快3-4倍。
浏览 26
提问于2020-01-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
机器学习实践:如何将Spark与Python结合?
数据加载、存储与文件格式
minfi 分析甲基化芯片数据-数据导入篇
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券