Python读取增量文本

文章/答案/技术大牛

发布

2回答

True: print(data_line) 在txt中写入数据，python

浏览 30提问于2021-06-23得票数 1

回答已采纳

1回答

我想要的是计算两个文本(原始和新的)的差异增量，存储原始文本的增量，然后期望恢复新的文本。这样我就可以用最小的空间存储一个文本的不同版本。使用Python的difflib，这可以使用ndiff和restore来完成；但是ndiff的增量包含了新文本的所有内容，这与我的意图不一致。unified_diff通过只显示差异来提供更紧凑的增量，这是可取的，但我找不到一种方法来恢复带有增量的新文本</

浏览 9提问于2011-04-28得票数 2

1回答

Delta合并逻辑whenMatchedDelete案例

、

我正在处理增量合并逻辑，并希望在最近的dataframe读取时删除增量表中的一行。('PHP', '40000'), ('Python', '10000')["language", "users_count"] # add yourcolumn names here将数据插入到增量表中

浏览 2提问于2021-04-05得票数 2

1回答

在python中将整数对存储在矩阵中？

、

我试图在Python中创建一个整数对矩阵，其中x轴是0- 30，增量为5，y-轴为20 - 40，增量为5。我如何在Python中生成这样的矩阵呢？在Matlab中，这很简单，但我刚刚开始学习Python。我不需要修改矩阵中的元素，而是将它们读出。

浏览 11提问于2015-03-24得票数 0

回答已采纳

2回答

Python文件read()和readline()计数器？

、、

看起来python跟踪了read()和readline()的每一次运行。它是增量的，通过reach运行，最终它不返回任何值。如何找到这个计数器，并在任何时候读取一个特定的行？编辑:我的目标是读取一个大小为几Gb的大文件，数十万行。如果这是一个迭代器，那么它是不够的，我不想在内存中加载整个文件。如何跳到特定的行而不必读取不必要的行？This is line 2<em

浏览 3提问于2020-03-31得票数 2

回答已采纳

1回答

python中的窗口写入，例如到NetCDF

、、

在python中，我如何将数组的子集写入磁盘，而不将整个数组保存在内存中？ xarray输入/输出文档指出，除非通过dask.array流式传输，否则xarray不支持增量写入，仅支持增量读取。

浏览 11提问于2019-04-08得票数 1

1回答

Python3.8 lzma解压缩巨大文件增量输入和输出

、

在Python3.8中，我想做的相当于：在中，输入和输出都不能很好地存储在内存中。当我在上阅读文档时，我可以使用来处理增量可用的输入，并且可以使用它的解压缩()函数来增量地生成输出。但是，LZMADecompressor似乎将其全部解压输出放入单个内存缓冲区，而decompress()则从单个输入内存缓冲区读取其全部压缩输入。当然，文档使我对输入和/或输出何时可以增量感到困惑

浏览 2提问于2021-09-03得票数 0

2回答

UnicodeDecodeError：'utf-8‘编解码器无法解码位置为1023的字节0xe2 :数据的意外结束

、、、

基本上，我已经在Python中制作了一个IRC Twitch，它现在只做加入通道。乒乓周期正常工作了一段时间，但随着标题中的错误，它就停止了。我做错什么了？提前谢谢。

浏览 1提问于2018-10-30得票数 4

回答已采纳

1回答

如何使用机器人框架/python/selenium为新添加的webtable行设置增量xapth？

、、、、

我想在机器人框架中编写一个自动化脚本-Python Eclipse插件。现在，我能够得到表的总行数，并能够得到特定列的文本。我想转到一个新添加的特定行，并检查特定的文本。由于我需要自动化它，新添加的行xpath将是增量的，那么如何自动化呢？@id="tableData"]/tbody/tr[4]/td[9] 如果要添加5、6、7行，那么xpath将是增量式的

浏览 2提问于2020-06-12得票数 0

1回答

编写Delta编码的Parquet文件

、

我知道可以读取符合规范的Delta编码文件，但不能将它们写出来。我想知道是否有任何常用的开源C++/Python库可以写出符合Parquet规范的增量编码。

浏览 7提问于2022-06-08得票数 2

1回答

向后解码Unicode文本

、、、

许多文本编码具有这样的属性，您可以向后遍历编码文本，并且仍然能够对其进行解码。ASCII、UTF-8、UTF-16和UTF-32都具有此属性.这使您可以做一些方便的事情，比如读取文件的最后一行而不读取前面的所有行，或者从文件中的当前位置向后退几行。不幸的是，Python似乎没有任何向后解码文件的方法。不能向后read，也不能在编码文件中按字符数量计算seek。模块中的解码器支持增量解码向前，但不支持向后解码。我可能可以自己实现与编解码器相关的字符边界同步，向后读取二进制

浏览 3提问于2016-04-12得票数 7

1回答

调用可执行文件并在python中获得输出的最佳方法

现在，在python中，它被称为：import sys output = subprocess.Popen据我所知，这基本上就像返回和读取一个文本文件，这将是相当缓慢的！虽然我知道SWIG或Cython是用C++扩展python的选项，但我会为每个函数找到单独的可执行文件，这些功能更有组织，更模块化！TLDR:您能以合理的速度将大型数组从可执行文件返回到python吗？还是使用Cyth

浏览 3提问于2014-03-04得票数 2

回答已采纳

1回答

读取XML流。

、

使用下面的代码，我可以读取数据，但我不知道是否破坏了节点。

浏览 1提问于2013-11-25得票数 0

回答已采纳

1回答

如何从MIDI文件中获取计时数据？

我有一堆MIDI文件需要处理。对于其中的每一个，我必须找到某些和弦开始的精确毫秒。我该怎么做呢？到目前为止，我发现的库并没有那么有帮助。

浏览 3提问于2014-05-02得票数 1

2回答

读取和分析文件:对于这种格式，我应该使用列表还是字典？

、

第一列是以15分钟为增量的时间。 ? 读取此文本文件并分析数据的最佳方式是什么？

浏览 25提问于2020-04-22得票数 1

2回答

Azure Data Factory可以从Delta Lake格式读取数据吗？

、

我们能够通过在ADF中将增量文件源指定为parquet数据集来读取文件。尽管这会读取增量文件，但它最终会读取增量文件中数据的所有版本/快照，而不是专门选取增量数据的最新版本。这里有一个类似的问题-- Is it possible to connect to databricks deltalake tables from adf 但是，我希望从ADLS Gen2位置读取增量文件

浏览 20提问于2020-01-03得票数 1

1回答

如何在不使用Pyspark的情况下用Python编写增量表/增量格式？

、、、

我正在寻找一种方法，可以在python中写回一个delta表，而不需要使用pyspark。我知道有一个叫做deltalake/的库，可以用来读取增量表并将它们转换成熊猫数据。目标是写回打开的增量表from deltalake import DeltaTabledf = dt.to_pandas

浏览 1提问于2021-10-01得票数 5

1回答

在Python中读取二进制文件时缓冲区大小与文件大小

、、、

buffersize) outfile.write(buffer)我正在学习在python中读取/编写二进制文件的基础知识，并理解这段代码。(in.jpg约150 is ) Q2:数据的下一个增量是怎样的(即。下一个5万字节的数据)从输入文件中读取？(先读取和存储50,000字节，然后写入输出文件，然后在范围内不进行任何增量的情况下如何读取</

浏览 1提问于2014-04-23得票数 2

1回答

读取消息文本而不获取所有内容

、

// TODO Auto-generated catch block } 问题是获取消息文本需要很长时间

浏览 2提问于2014-12-06得票数 0

1回答

如何根据可用内存确定批处理的大小？

、、、

我需要读取一个任意大的文件，解析它(这意味着在执行此操作时将一些数据保留在内存中)，然后将该文件的新版本写入文件系统。考虑到内存限制，我需要以增量方式或批处理方式读取文件。我希望根据可用内存以及当前Python进程使用和保留的内存来确定批处理的大小。显然，我可以使用以下命令获取当前Python进程使用的内存 import osprocess = psutil.Process(os.getpid()) print(process.memory_info那么，有没有一种方法可以让

浏览 8提问于2019-09-26得票数 0

点击加载更多