在Python中从CSV动态生成拼图_在python中动态生成URL_Python:读取API动态生成的csv文件？ - 腾讯云开发者社区

python、python-3.x、pyspark、parquet、pyarrow

我有多个以CSV格式存储在S3存储桶上的非常大的数据集。我需要将这些CSV转换为Apache Parquet文件。基本上，从一个逐行传输CSV的迭代器开始，我希望根据一个模式生成Parquet文件。据我所知，pyarrow不能在输入中接受迭代器。有没有人有办法解决这个问题？感谢任何人的帮助！

浏览 7提问于2019-09-13得票数 0

1回答

在libgdx中将纹理分割成拼图。

java、android、bitmap、opengl-es、libgdx

目前，我面临的问题，当我必须生成拼图拼图片精灵(动态)。我所做的:，我使用了安卓位图操作(Path和PorterDuff)，生成了拼图块，然后将其输入到AndroidLauncher中的Libgdx。问题1：是否有更好的方法将位图转换为在libgdx核心项目中拼图。(见下文)问题2：我如何创建一个区域来表示拼图。(边框或基于宽度/高度的解决方案不合适)，以便用户在只接触到该纹理

浏览 1提问于2017-09-18得票数 1

1回答

利用Avro/Parquet将地理数据导入BigQuery

google-cloud-platform、google-bigquery、gis、avro、parquet

目前，我使用拼图文件将数据导入BigQuery (地理信息系统)。其中一个拼图文件包含几何列，将几何数据表示为WKT字符串(MultiPolygon)，我想将该列作为GEOGRAPHY类型导入。文档提到不支持从WKT (string)到GEOGRAPHY的自动转换，那么我如何克服这个问题？我希望避免使用CSV文件，并手动提供模式定义。有没有办法强制将包含WKT字符串的拼图的列强制转换为GEOGRAPHY类型？我不想先加载临时表，然后运行查询来加载目标表。python更新：当使用p

浏览 29提问于2018-09-18得票数 3

回答已采纳

4回答

如何使用boto3将python中的数据上传到动态

boto3、producer、amazon-kinesis

如何利用boto3将数据从csv上传到aws运动此外，如何使用从动态到python的数据？

浏览 2提问于2019-07-28得票数 6

6回答

使用python将csv转换为拼图文件

python、csv、parquet

我正在尝试将.csv文件转换为.parquet文件。csv文件(Temp.csv)的格式如下我正在使用以下python代码将其转换为parquetfromfrom pyspark.sql.types import * sc = SparkContext(appName="CSV2Parque

浏览 1提问于2018-05-30得票数 37

2回答

如何在一台计算机上使用Python组合小拼图文件？

python、pandas、dask、parquet、amazon-athena

从在线研究中，我了解到，为了获得最佳性能，在使用Amazon Athena查询时，建议的拼图文件大小在128MB到1 1GB之间。下面的代码高效地将CSV并行转换为数百个6-13MB的拼图文件：

浏览 1提问于2020-02-07得票数 1

1回答

将本地SQL server数据库数据以Parquet格式复制到Azure

sql-server、azure、parquet、azure-data-factory、bzip2

我需要通过HDInsight Spark在Azure中为数据科学分析提供拼图格式的数据。将此数据复制/转换为Azure (Blob存储或数据湖)的最佳方式是什么？由于任务的可管理性(从大约200个表开始)，我最好的方法是-通过sqlcmd将数据从本地提取到文件共享，将其压缩为csv.bz2，然后使用数据工厂将文件共享(使用'PreserveHierarchy')给定表模式，我可以通过T-SQL从SQL数据库中自动

浏览 4提问于2017-05-15得票数 1

2回答

如何将拼图文件复制和转换为csv

python、hadoop、apache-spark、pyspark、parquet

我可以访问hdfs文件系统，并且可以使用以下命令查看拼图文件如何将这些拼图文件复制到我的本地系统，并将其转换为csv以便可以使用它们？

浏览 0提问于2016-09-10得票数 10

回答已采纳

1回答

PySpark拼花数据类型

python-3.x、pyspark

我使用PySpark读取一个相对较大的csv文件(~10 to )：所有列都有数据类型string。例如，在更改column_a的数据类型后，我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图文件中，并读取这个拼图文件，我会注意到所有的列都有数据类型string。ddf.repartition(10).write.parquet(

浏览 4提问于2018-06-01得票数 0

1回答

使用Azure数据工厂生成的拼图-无法在配置单元中创建表

azure、hive、azure-data-factory、parquet

从Azure Data Factory生成拼图文件(复制活动-从Azure SQL复制到数据湖中的拼图)。当我尝试从蜂窝中读取相同的拼图时，它给出了错误，因为org.apache.parquet.io.ParquetDecodingException:无法读取块中0的值。如果你使用Spark生成拼图，那么你可以设置Spark.sql.parquet.writeLegacyForma

浏览 0提问于2021-07-02得票数 0

2回答

如何在不使用databricks CSV* api的情况下将csv文件直接读入spark DataFrames？*

scala、apache-spark、apache-spark-sql、spark-dataframe

如何在不使用databricks CSV api的情况下将csv文件直接读入spark DataFrames？我知道有databricks csv api，但我不能使用那个api..我知道有case类可以使用，并根据cols(0)位置映射cols，但问题是我有超过22列，因此我不能使用case类，因为在case类中，我们只能使用22列。我知道有structtype来定义模式，但我觉得在structtype中定义40列的代码会非常冗长。我正在寻找一些东西，以读取到数据帧

浏览 2提问于2016-07-05得票数 1

1回答

用于Apache Spark拼花数据帧的JOOQ生成器？

apache-spark、apache-spark-sql、jooq、parquet

我工作的地方是，我们在后端代码的某些部分使用JOOQ生成sql查询。已经编写了很多代码来使用它。在我这方面，我想将这些特性映射到spark中，特别是在Spark SQL中生成从一堆拼图文件加载的数据帧上的查询。我知道这是一个广泛的问题，如果

浏览 1提问于2017-11-09得票数 3

2回答

同步相同项目API中错误代码的技术

c#、python、api、api-design

在我现在工作的项目中，我们有一些python和一些C#代码。在某个时候，我从python调用一个启动C#可执行文件的子进程。这个C#代码返回一个错误代码，它必须在python端被理解，并且必须创建一个可读的报告。自动生成代码:比方说，当C#部件上的映射发生变化时，代码将在python端被解析并自动生成。虽然我认为这在技术上是相当正确的，但我必须以某种方式解析C#

浏览 0提问于2015-02-23得票数 2

2回答

ADF /数据流-将多个CSV转换为拼接

azure-data-factory、azure-data-flow

在ADLS Gen2中，TextFiles文件夹有3个CSV文件。每个文件中的列名都不同。我们需要将所有3个CSV文件转换为3个地块文件，并将其放在ParquetFiles文件夹中我尝试使用复制活动，但失败了，因为列名中有空格，而parquet文件不允许这样做为了删除空格，我使用了数据流: Source -> Select (用列名称中的下划线替换空格)和sink。当我尝试对所有3个文件执行此操作时，它尝试合并3个文件，并生成包含错误数据的单

浏览 40提问于2020-08-29得票数 0

回答已采纳

5回答

Python从动态javascript页面中提取数据

javascript、python、mechanize

我必须从以下网站的表格中提取数据：当我点击GO时，我会得到一个动态追加到页面上的表格。我希望将这些数据从页面导出到csv文件(我知道如何处理)，但源代码不包含任何数据点。我尝试过查看javascript代码，当我在表生成后检查元素时，我得到了数据点，但不是在源代码中。我正在使用Python

浏览 0提问于2013-07-30得票数 2

4回答

如何调用由每个名称定义为列表的文件名？

python、pandas、dataframe

*首先，默认导入csv文件的方法。def f_read_csv(tgrt_csv): tgrt_tbl = pd.read_csv("".join([get_csv_path,trgt_csv_temp]))*第二，使用for csv，我试图<e

浏览 4提问于2019-10-29得票数 0

回答已采纳

1回答

PySpark在拼图中错误地输出'01/01/0001‘和'12/31/9999’

apache-spark、pyspark、parquet

我使用PySpark 3.0.1生成拼图文件。当执行以下命令时 sparkDF.write.mode("overwrite").parquet(file_name) 在拼接文件中，9999-12-31 00:00:00.0000000 datetime在拼接文件中，0001-01-01 00:00:00.0000000 datetime被写为1754-08-29 04:43:41.128654848。相反，sparkDF.write.mode("overwr

浏览 11提问于2021-10-27得票数 0

1回答

AWS glue镶木地板转换为s3

etl、aws-glue

我们正在使用aws等作业将s3 Json或CSV转换为parquet格式，并将结果保存在nnew s3中。此作业正在定期运行。有没有什么方法可以覆盖现有的拼图文件，.We只使用胶水生成的Python脚本。我们可以只转换已更新的文件，还是可以转换所有过期的文件？

浏览 10提问于2018-02-07得票数 0

回答已采纳

2回答

使用spark sql实现Parquet的数据类型转换-动态转换，无需显式指定列名

pyspark、apache-spark-sql、spark-dataframe、hiveql、parquet

我正在寻找一种动态处理数据类型转换的方法。SparkDataframes，我正在使用hive SQL将数据加载到Dataframe中，并将其存储到dataframe中，然后写入到parquet文件中。是否有任何方法可以动态处理数据类型，而不是单独指定每个列的名称。假设在我的dataframe中，8列中有50列是小数，并且需要将所有8列转换为双精度数据类型，而不指定列名。我们可以直接这么做吗？

浏览 3提问于2017-05-16得票数 0

5回答

Pandas数据帧类型datetime64[ns]在蜂窝/雅典娜中不起作用

python、pandas、hive、amazon-athena、fastparquet

我正在开发一个python应用程序，它只是将csv文件转换为hive/athena兼容的拼图格式，我正在使用just parquet和pandas库来执行这项工作。在像2018-12-21 23:45:00这样的csv文件中有时间戳值，需要在拼图文件中写成timestamp类型。processed_time'] obj = s3.get_object(Bucket=bucketn

浏览 0提问于2018-12-25得票数 11

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云