删除python vaex中的重复行

文章/答案/技术大牛

发布

1回答

、、

我正在使用python vaex，我不知道如何在数据帧中删除重复的行。例如，在pandas中存在drop_duplicates()方法。在vaex中有没有类似的函数？

浏览 39提问于2020-07-16得票数 5

1回答

如何有效地从包含多列的Vaex DataFrame中删除非有限值？

、

我的数据的值等于正无穷大和负无穷大。Vaex具有dropna、dropmissing和dropnan函数，但不具有去除非有限值的功能.我目前的方法是迭代每一列，并覆盖过滤过的数据集，这些数据集从每一列中删除非有限值：for col in cols:...虽然这种方法确实给出了正确的结果，但它似乎效率很低，因为运行它需要很长时间，即使我的数据集只有

浏览 8提问于2020-06-10得票数 1

1回答

使用Vaex读取拼图文件

、、、

我正在尝试使用Vaex从一个Parquet文件中读取一些数据到python中。这是我使用vaex.open函数得到的输出。_as_table(0, n, N - n, N, format=format) File "/home/userman/.local/lib/python3.6/site-packages/vaex/.local/lib&#x

浏览 34提问于2020-11-25得票数 2

1回答

vaex -从列表列表创建数据帧

、、、

在Vaex的docs中，我找不到从列表列表创建数据帧的方法。在熊猫中，我会简单地使用pd.DataFrame([['A',1,3], ['B',2,4]])。在Vaex中如何做到这一点？

浏览 23提问于2020-12-16得票数 1

回答已采纳

3回答

熊猫过滤并转换为datetime64ns

、、、、

我有一个DataFrame，我想把str转换成datatime，但是有一些无效的行我想过滤掉。In [12]: df2.dtypesname <class 'str'>dtype: object df I很好，它在date列中只有有效的日期但是df2有一些无效的行。说：ValueError:数组的长度为5，而DataFrame的

浏览 5提问于2019-12-15得票数 1

1回答

使用dataframe列时，vaex应用不起作用

、

然后使用n-gram找到常见的模式。为此，我需要使用数据帧中的其他字符串列替换字符串列中的字符串值。在Pandas中，我可以使用 df['Test'] = df.apply(lambda x: x['Name'].replace(x['Rep'], x['Sub']), axis=1) 但是我找不到等效的This问题让我相信，基于Maarten Breddels的示例代码

浏览 39提问于2021-11-15得票数 0

回答已采纳

1回答

我正在开发一个使用Vaex从羽毛文件访问数据的应用程序。我们在dataframe中创建虚拟列，它存储布尔值，用于过滤数据集中的数据行。每次创建一个新的过滤器时，都会保存一个文件来缓存数据。我们使用export_feather将过滤器保存到文件中，删除虚拟列，然后加入缓存。(export_path.joinpath(filename)), inplace=True) 在应用程序中，我们希望清理和删除缓存的</e

浏览 3提问于2022-07-19得票数 0

回答已采纳

1回答

如何在Vaex中删除重复项？

、

我有一些来自用户的条目，以及这个用户在我的网站上有多少互动… 我有34万行和70+列，我想使用Vaex，但我在做一些简单的事情时遇到了问题，比如删除重复项。有没有人能教我怎么做？interaction_num': ['1', '2', '1', '2', '3', '1','2']}) 我希望得到与pandas.drop

浏览 29提问于2020-08-22得票数 4

1回答

复制行和更改列值(python* vaex)*

、、

我有这个数据框我正在使用vaex 有人能帮我吗？

浏览 1提问于2020-10-30得票数 0

1回答

使用vaex进行交互式大型绘图

我在Windows10上使用python 3.8；试图绘制一个包含大约700M点的曲线图，声波分析。这里：Interactive large plot with ~20 million sample points and gigabytes of data 强烈推荐使用Vaex。我正在尝试使用Vaex教程中的示例，但该图形没有出现。我在网上找不到一个好的例子。import vaexdf = vaex</e

浏览 38提问于2020-12-07得票数 0

1回答

Vaex日期时间误差未知变量或列

、、、、

我得到了一个名为vaex.dataframe.DataFrame的df，它包含一个名为timestamp的时间列，类型为string。is_datetime(df['timestamp']):然后，我只想选择df的行，其中timestamp位于特定的范围内。/lib/python</

浏览 13提问于2022-01-17得票数 0

1回答

Vaex错误: AttributeError：'pyarrow.lib.ChunkedArray‘对象没有属性'dtype’

、

我在python中使用了vaex，并且很难打印列的值。如果我从本地数据创建数据，它可以工作：df['inside'] = df.geo.inside_polygon(df2['x'], df2['y'], px, py)当我试图从

浏览 2提问于2021-09-20得票数 0

2回答

将大型csv格式转换为hdf5格式

、、、、

我下载了IBM的；未压缩的CSV是84 GB。我想做一个类似于的分析，并使用金库库。我试图将CSV转换为一个hdf5文件，以便使它对于vaex libary来说是可读的：import vaexdf = vaex.from_csvbytes this sub-write = 2048, bytes actually written = 18446744073709551615, offset = 348515

浏览 29提问于2022-09-30得票数 0

3回答

我需要在一个有数百万行的表上执行一个“昂贵的”循环。我应该使用什么技术(编程语言或其他东西)？

、、

这个问题是这个问题的后续：How to the increase performance of a Python loop?。在这个脚本中，一个大约有1400万行的表上有一个循环，它的目标是创建另一个具有相同行数的表。我正在使用Python进行这个项目，但是循环太慢了(我知道这一点，因为我使用tqdm包来测量速度)。因此，我正在寻找关于我应该使用什么来实现我的目标的建议。理想情况下，这项技术是免费的，不需要很长时间就

浏览 20提问于2021-04-10得票数 0

2回答

在下一个数据帧中设置起始索引为50001

、、

我有5个数据帧打开50000行的第一个 Date Clearing Member PAN Trading Member PAN 0 01-15-20212023 AAACG4267G AAACK1089Q 打开下一个数据帧，我需要将起始索引设置为50001，对于下一个数据帧，它应该是100001，在最后一个数据帧中，它可以是任意数量的行，但起始索引应该是200001 vaex_df2.in

浏览 15提问于2021-09-07得票数 1

回答已采纳

1回答

可以在vaex数据框架上使用功能工具吗？

、、、

我正在尝试自动功能工程-我已经让它在原始数据帧上工作，但我不确定是否可以在内存不足的数据帧上工作，比如vaex。我的目的是找到一种在数据帧超出内存时使用自动特征工程的方法。下面是我正在做的事情/代码： #playing with vaex# !pip install vaex 5 { /u

浏览 14提问于2021-03-19得票数 0

回答已采纳

1回答

当从多个hdf5文件读取数据时，vaex* groupby给出了TypeError: unhashable类型：'Expression‘*

、、

在Python中，我使用vaex (vdf = vaex.open('test_*.hdf5'))从多个hdf5文件中打开一个数据框。一切似乎都运行得很好，例如将两个列组合成一个新的列(vdf['newcol'] = vdf.x+vdf.y)。但是我无法让vaex的groupby正常工作：vdf.groupby('x', agg='count')抛出了一个TypeError

浏览 24提问于2020-09-07得票数 0

1回答

如何排除ValueError:数组的长度为%s，而DataFrame的长度为%s？

、、、

我已经把csv文件转换成hdf5了 df = vaex.open('data/chat_history_00.hdf5')/usr/local/anaconda3/lib/<

浏览 5提问于2020-01-15得票数 1

回答已采纳

1回答

Python数据类型转换

、、、

我正在为一个项目使用Python中的Vaex库；我对Vaex仍然非常陌生，所以如果这是基本的话，我很抱歉。我在数据类型转换方面遇到了问题。我的一个专栏“Paid_at”有一个str的数据类型，它应该是一个DateTime。到目前为止，我所做的是将na从我的df中删除，并且(试图)使用熊猫的to_datetime()来转换该列，但它不起作用。这在pd数据框架中有效，但当我收到以下错误

浏览 2提问于2020-06-29得票数 1

2回答

如何在Vaex中进行交互式二维散点图缩放/点选择？

我看到在演示过程中可以这样做：我还看到了本教程的“交互式小部件”部分：python3 -m pip install --user vaex scipy pandas vaex-jupyterjupyter nbextension ena

浏览 3提问于2019-08-02得票数 3

点击加载更多