如何使用cudf删除带有NA的列？_在数据帧列表中删除带有NA的列_对带有na的列使用cor.test() - 腾讯云开发者社区

python、pandas、dask、rapids、cudf

我想加载5.9 GB的CSV，并且我不使用pandas库。我有4个GPU。我使用rapids.ai来更快地加载这个大型数据集，但每次我尝试时，都会显示这个错误，尽管我在其他图形处理器内存中有空间。GPU在开始时的内存使用量为： GPU 0 total : 11554717696 free : 11126046720 used : 428670976 GPU 1 total : 11554717696 free : 11542331392 used : 12386304 GPU 2 total : 11554717696 free :

浏览 121提问于2020-08-26得票数 0

1回答

应为字节对象，但获得了带有cudf的“int”对象错误

pandas、dataframe、conda、cudf

我有一个pandas数据帧，所有的列都是对象类型。我试图通过键入cudf.from_pandas(df)将其转换为cudf，但出现了以下错误： ArrowTypeError: Expected a bytes object, got a 'int' object 我不明白为什么这些列都是字符串而不是整型。我的第二个问题是如何向cudf追加一个新元素(如pandas : df。append()

浏览 64提问于2020-03-11得票数 1

回答已采纳

1回答

“无法将NotImplementedType类型的值转换为cudf标量”出现在cudf 22.08，python3.9中常见的sort_values示例中。

python、rapids、cudf

抱歉--我知道还有一个类似的问题，但我对此并不熟悉，所以我无法在答案下面发表评论。按照RAPIDs网站的说法，我在cudf的普通安装中遇到了sort_values的问题： conda create -n rapids-22.08 -c rapidsai -c nvidia -c conda-forge cudf=22.08 python=3.9 cudatoolkit=11.0 注:我使用CUDA 11.0作为工具包版本，而不是11.5，因为11.5由于某种原因未能下载。我尝试运行以下代码 import cudf df = cudf.DataFrame() df['a']

浏览 6提问于2022-10-02得票数 1

3回答

如何应用GPU DataFrame- cuDF中的if条件来过滤DataFrame？

rapids、cudf

我想根据列值过滤一个cuDF数据框，然后根据指定的条件创建一个新列。基本上，我如何在cuDF中应用以下内容？ df.loc[df.column_name condition, 'new column name'] = 'value if condition is met'

浏览 33提问于2019-07-27得票数 1

回答已采纳

1回答

了解dask cudf对象生命周期

dask、dask-distributed、dask-dataframe、cudf

我想了解Dask对象的有效内存管理过程。我已经设置了一个Dask GPU集群，并且我能够执行跨该集群运行的任务。然而，使用dask对象，特别是当我运行计算函数时，在GPU上运行的进程会随着使用越来越多的内存而快速增长，很快我就会收到“内存不足错误”。我想知道如何在使用完dask对象后释放它们。在下面的示例中，在计算函数之后，我如何释放该对象。我运行了几次以下代码。内存在它运行的进程中不断增长。 import cupy as cp import pandas as pd import cudf import dask_cudf nrows = 100000000 df2 = cudf.Da

浏览 16提问于2021-05-06得票数 1

1回答

dask_cudf数据格式中的标签编码

xgboost、dask-distributed、dask-dataframe、cudf、label-encoding

我正试图使用dask_cudf对一个非常大的数据集(150,000,000+记录)进行预处理，以便进行多类xgboost培训，并且无法对类列(dtype is string)进行编码。我试着使用“替换”函数，但是错误消息说这两个dtype必须匹配。我试过使用dask_ml.LabelEncoder，但它说cudf中不支持字符串数组。我尝试过以各种方式使用compute()，但是我一直遇到内存不足的错误(我假设是因为cudf dataframe上的操作需要一个更小的数据集)。我还尝试取出类列，对其进行编码，然后将其与dataframe合并，但分区不对齐。我尝试手动排列它们，但是dask_cudf

浏览 14提问于2022-07-01得票数 0

1回答

用户定义函数以组合CUDF数据基列

pandas、rapids、cudf

根据标题，我试图组合来自不同cudf.DataFrame列的行值。以下代码适用于标准pandas.DataFrame import pandas as pd data = {'a': [1], 'b': [2], 'c': [3], 'd': [4]} df = pd.DataFrame.from_dict(data) def f(row): return {'dictfromcolumns': [row['a'], row['b'], row['c'],

浏览 18提问于2022-09-23得票数 0

回答已采纳

1回答

无法使用dask-cudf创建第三列。

python、dask、rapids、cudf

我有以下dask_cudf.core.DataFrame： import pandas as pd import numpy as np import dask_cudf import cudf data = {"x":range(1,21), "nor":np.random.normal(2, 4, 20), "unif":np.random.uniform(size = 20)} df = cudf.DataFrame(data) ddf = dask_cudf.from_cudf(df, npartitions = 2) ddf.com

浏览 11提问于2022-06-04得票数 1

1回答

如何用rapids.ai实现图形处理器中两个DataFrame之间的矩阵点积

gpu、rapids、cudf

我正在使用CUDF，它是Nvidia的rapids ML套件的一部分。使用这个套件，我如何在两个DataFrame之间做一个点积？ a = cudf.DataFrame([[0.1, 0.2, 0.3, 0.4], [0.1, 0.2, 0.3, 0.4]]) b = cudf.DataFrame([[0.1, 0.2], [0.1, 0.2]]) a.T.dot(b) # It doesn't work, cudf doesn't supprot .dot 例如，我如何在上面的数据帧上执行点积？

浏览 15提问于2020-03-30得票数 0

1回答

仅使用单个gpu加载数据的Cudf

python、pandas、nvidia、cudf

我有一个很大的文件要使用cudf.read_csv()加载。有问题的文件太大，无法放入单个gpu的内存中，但仍然足够小，可以放入cpu内存。我可以通过pd.read_csv()加载这个文件，但它永远都要花时间！在较小(但仍然相当大)的文件中，cudf.read_csv()大约比pandas快6-10倍。在使用cudf.read_csv()时，我注意到4个可用的TeslaV100-DGXS中只有1个实际加载数据。其余的都闲置着。我想象一下，如果所有4个文件都被使用了，文件将可以放入内存中。如何使用全部4个gpu加载文件？注意:我知道我可以使用像cudf.read_csv('file

浏览 14提问于2020-09-19得票数 0

回答已采纳

2回答

如何使用cudf删除带有NA的列？

python、rapids、cudf

熊猫： data = data.dropna(axis = 'columns') 我正在尝试使用cudf dataframe执行类似的操作，但apis不提供此功能。我的解决方案是转换为pandas df，执行上述命令，然后重新转换为cudf。有没有更好的解决方案？

浏览 12提问于2019-05-31得票数 1

回答已采纳

2回答

优化函数以比较数组中的每个值

python、tensorflow、math、optimization

我正在使用tensorflow进行一些机器学习，并且需要对数据进行一些事先的转换。我遇到的瓶颈是我的函数:获取一个数字数组，将每个数字与其他数字进行比较，并创建一个比较表。职能如下： def compare(list, length): result = np.zeros(length*length) i=0 for row in range(length): for col in range(length): if row != col: result[i] = list[col] - list[r

浏览 0提问于2020-04-19得票数 0

回答已采纳

2回答

将RAPIDS CUML随机林模型部署到无法安装RAPIDS/CUML的Windows虚拟机

python、machine-learning、random-forest、machine-learning-model、rapids

我需要在不能安装rapids/cuml的GPU-less Windows虚拟机上对cuml.dask.ensemble.RandomForestClassifier执行推断。我已经考虑过使用treelite，所以我必须将模型导入树脂树并生成一个共享库(windows的.dll文件)。之后，我将使用treelite_runtime.Predictor导入共享库，并在目标机器上执行推理。问题是，我不知道如何将RandomForestClassifier模型导入树脂层来创建树脂层模型。我曾尝试使用'convert_to_treelite_model‘，但获得的对象不是树脂树模型，我不

浏览 66提问于2020-11-17得票数 2

回答已采纳

1回答

使用cudf dataframe搜索索引不适用于numpy

pandas、numpy、cudf

我只是用cudf (rapidsai)加载了csv文件，以减少所需的时间。当我尝试搜索带有where df['X'] = A条件的索引时，出现了一个问题。下面是我的代码示例： import cudf, io, requests df = cudf.read_csv('fileA.csv') # X is an existing column # A is the value df['X'] = np.where(df['X'] == A, 1, 0) # What it is supposed to do with pan

浏览 57提问于2021-07-08得票数 0

回答已采纳

2回答

使用cudf读取一个巨大的csv文件

cudf

我试图读取一个巨大的csv文件CUDF，但获得内存问题。 import cudf cudf.set_allocator("managed") cudf.__version__ user_wine_rate_df = cudf.read_csv('myfile.csv', sep = "\t", parse_dates = ['created_at']) '0.17.0a+382.gbd32

浏览 6提问于2021-02-01得票数 0

1回答

我试图从conda的源代码安装cudf，我不能使用cmake来安装它。

c++、installation、cmake、anaconda、cudf

我正试图按页面( )中的方式从源文件中安装CUDF。在以下几个步骤之后，我无法通过执行cmake来完成它在依赖项之后构建并安装libcudf。CMake取决于在您的路径上或在$CUDACXX中定义的nvcc可执行文件。 $ cd $CUDF_HOME/cpp $ mkdir build $ cd build 然后上面写着如果使用Anaconda，则将 -DCMAKE_INSTALL_PREFIX设置为库或$CONDA_PREFIX的安装路径，即-DCMAKE_ install _ path =/INSTALL/path或-DCMAKE_INSTALL_$CONDA_PREFIX=

浏览 2提问于2020-07-24得票数 0

回答已采纳

1回答

错误:找不到满足dask要求的版本(来自版本: none)

python、python-3.x、gpu、dask、rapids

描述了bug 当我尝试import dask_cudf时，我得到以下错误： --------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) <ipython-input-11-afb970ad91bb> in <module>() 8 from dask_cuda import LocalCUDACluster

浏览 18提问于2020-10-28得票数 4

回答已采纳

1回答

CUDF未正确读取列

python、python-3.x、gpu、rapids、cudf

我正试着用cudf读一本csv。它工作得很好，但当我试图获取列的内容时，cudf似乎根本没有认出它们。这是一个非常奇怪的行为：以下是代码：这是一个错误：有什么帮助吗？谢谢

浏览 15提问于2022-09-03得票数 1

1回答

从Dask到CuDF数据的转换

dataframe、dask、dask-dataframe、rapids、cudf

有什么功能可以将dask-cudf dataframe转换为Cudf dataframe吗?就像cudf的from_cudf到from_cudf一样.dgdf = dask_cudf.from_cudf(df，npartitions=2)

浏览 8提问于2022-08-15得票数 0

1回答

对‘`cudf`’做‘diff`’最有效的方法是什么？

python、pandas、rapids、cudf

rapids.ai cudf类型在某种程度上与pandas兼容，但这里有一个奇怪的不兼容之处。cudf.Series有一个.diff()方法，但cudf.DataFrame似乎没有。这非常烦人(例如，考虑一个股票价格的数据框架，其中的列对应于工具)。当然，有一些笨拙的方法可以绕过这个问题(我想到的是转换为pandas数据帧并返回)，但我想知道规范的方法是什么。有什么建议吗？

浏览 24提问于2021-10-09得票数 0

回答已采纳

1回答

如何在没有错误的情况下使用急流测试how扫描？

python、gpu、google-colaboratory、rapids、hdbscan

早上好，我想用GPU测试hdbscan (基于层次密度的应用程序空间聚类)，所以我应该使用框架rapids。当我试图遵循这里描述的步骤时，从Rapids：获得了以下错误:当我运行函数CUDF的代码时： import cudf import io, requests # download CSV file from GitHub url="https://github.com/plotly/datasets/raw/master/tips.csv" content = requests.get(url).content.decode('utf-8') # re

浏览 4提问于2022-02-04得票数 0

1回答

如何在colab中方便地使用急流

google-cloud-platform、gpu、google-colaboratory、rapids、cudf

当我在逗号库中使用follows.But ( cudf )时，我执行命令，因为这个命令通常需要20分钟左右，所以每次使用cudf都要等待。没有人知道如何在没有此命令的情况下轻松地使用cudf和colab吗？

浏览 6提问于2022-08-06得票数 2

1回答

CUDF/Python警告：“用户警告:未检测到NVIDIA GPU”

python、cuda、dask、rapids、cudf

我在python中运行cudf和dask_cudf模块时遇到了一些困难。我正在通过Anaconda开发木星实验室。我已经能够正确地安装我的nvidia-gpu驱动程序，cudf (通过快速)和库达。只是，当我使用import cudf导入python中的cudf时，我会看到一个错误："home/lib/python3.7/site-packages/cudf/utils/gpu_utils.py:120: UserWarning: No NVIDIA GPU detected. Warnings.warn("No NVIDIA GPU detected") 我的环境：

浏览 5提问于2020-07-13得票数 2

回答已采纳

1回答

BlazingSQL和dask之间的关系是什么？

gpu、dask、parquet、cudf

我正在努力理解BlazingSQL是一个竞争对手还是dask的补充。我有一些中等大小的数据(10-50GB)保存在Azure blob的存储空间中。 IIUC我可以使用BlazingSQL语法查询、连接、聚合和使用CuDF，但我也可以使用dask_cudf将数据读入CuDF，并使用python/dataframe语法执行所有相同的操作。在我看来，他们是直接的竞争对手？使用dask的好处之一是它可以对分区进行操作，这样就可以对大于GPU内存的数据集进行操作，而BlazingSQL仅限于适用于GPU的数据集，这是正确的吗？为什么要选择使用BlazingSQL而不是dask呢？编辑：谈到

浏览 1提问于2020-01-18得票数 3

回答已采纳

2回答

等效于pd.Series.str.slice()和pd.Series.apply()的cuDF

python、pandas、series、rapids、cudf

我希望将以下代码(在熊猫中运行)转换为运行在cuDF中的代码。被操纵的.head()的示例数据被插入到第三个代码单元格中的OG代码中--应该能够复制/粘贴运行。熊猫的原始代码 # both are float columns now # rawcensustractandblock s_rawcensustractandblock = df_train['rawcensustractandblock'].apply(lambda x: str(x)) # adjust/set new tract number df_train['census_tractnumb

浏览 0提问于2019-08-12得票数 0

回答已采纳

3回答

如何使用pip安装cudf？

pip、python-3.6、cudf

我想在我的图形处理器上加速pandas，所以我决定使用cudf库。请推荐其他库(如果有)。我尝试使用pip by pip3.6 install cudf-cuda92来安装cudf。pip版本为19.2.3(最新)。当我在我的命令上运行pip3.6 install cudf-cuda92时，它说： Collecting cudf-cuda92 ERROR: Could not find a version that satisfies the requirement cudf-cuda92 (from versions: none) ERROR: No matching distrib

浏览 76提问于2019-09-12得票数 3

1回答

使用CuDF apply_chunks时出现异常-使用了不受支持的NumPy函数'numpy.ones_like‘或使用了不受支持的函数

python、numpy、rapids、cudf

我试图在Numba的jit优化代码中使用numpy，但是当我尝试像numpy.ones_like这样的标准numpy操作时，我得到了错误，尽管numba文档提到该操作是受支持的。文档链接：。编辑:如果我直接调用'calc_method‘方法，它会工作得很好，但在apply_chunks中使用时会失败。所以可能不是Numba本身的问题，而是cudf.apply_chunks是如何被使用的问题。代码： import numba from numba import jit import pandas as pd import numpy as np print(numba.__ver

浏览 50提问于2020-02-13得票数 0

2回答

下载了GPU驱动程序(cuda，cudf等)，但它无法工作

python、machine-learning、cupy、cudf

我的gpu是gtx 2070。我遵循了的每一个步骤(我使用的是“for CUDA 10.1")，但是没有运气。我不能用我的gpu能力。我也多次重新安装了ubuntu操作系统和那些驱动程序。有人知道怎么解决这个问题吗？我一直在为这一步奋斗，很少有months..Appreciate它！操作系统: ubuntu 16.04 驱动程序版本: 430.64 CUDA版本: 10.1 python=3.6 cudf==0.13.0 这个版本是兼容的，但是为什么我不能用我的gpu运行代码？每次在终端中运行代码时，它都会显示以下错误： Traceback (most recent call las

浏览 2提问于2020-07-01得票数 1

1回答

TypeError:字段元组的第一个元素既不是元组也不是str，具有cuDF.DataFrame.apply(func，axis)。

python、rapids、cudf

我试图应用直方图逐行使用应用函数，但得到一个错误。下面的代码是实现 def f(row): return np.histogram(row, bins=5,range=(1,10)) import torch import cudf as df torch.manual_seed(1) bins = 3 feature = torch.randint(1, 50, (3, 4,7)) selected_feature = feature[:,:,3].float().cuda() # read all 4 elements in the 2nd dimension feature_d

浏览 17提问于2022-05-20得票数 1

2回答

如何在图形处理器中用rapids.ai实现矩阵点积

python、nvidia、rapids、cudf

我正在使用CUDF，它是Nvidia的rapids ML套件的一部分。使用这个套件，我将如何做一个点积？ df = cudf.DataFrame([('a', list(range(20))), ('b', list(reversed(range(20)))), ('c', list(range(20)))]) 例如，我如何使用相同的cudf对象在上面的Dataframe上执行点积？

浏览 12提问于2019-02-01得票数 5

1回答

删除50%以上NA的所有阶乘变量

r、csv、dataframe、data-cleaning

我有一个带有头的CSV文件。一些特性(列)是阶乘的，有些是数字的。对于阶乘变量，我有很多包含大量NAs的列，例如： Num1 Fact1 Num2 Fact2 Fact3 9889 Bla 23 BBxv NA NA NA 456 BBxz NA NA Abcd 3 BBxx Jet NA NA 100 BBxy NA NA NA NA NA NA 我想删除所有的因子列，其中有超过50%的NAs。例如，由此产生的数据框架应当是： Num1 Num2 Fact2 9889 23 BBxv NA 45

浏览 1提问于2017-02-24得票数 2

回答已采纳

1回答

需要帮助将cuDF数据转换为cupy ndarray

python、nvidia、cupy、rapids、cudf

我想将cuDF数据转换为cupy ndarray。我在下面使用以下代码： import time import numpy as np import cupy as cp import cudf from numba import cuda df = cudf.read_csv('titanic.csv') arr_cupy = cp.fromDlpack(df.to_dlpack()) 输出： --------------------------------------------------------------------------- ValueError

浏览 5提问于2020-05-07得票数 2

回答已采纳

2回答

当列结束于NA时插值NA值

r、interpolation、na、zoo

我有一列带有NA的数值数据，并以NA结尾： df <- data.frame( Diam_av = c(12.3, 13, 15.5, NA, NA, NA, NA, 13.7, NA, NA, NA, 9.98, 4,0, 8.76, NA, NA, NA) ) 我想插值缺失的值。这适用于zoo的函数na.approx，只要有可插值的正边值，但如果(在我的例子中)其中一个边界值是NA (列Daim_av的末尾)，它就会失败。 library(zoo) df %>% mutate(Diam_intpl = na.approx(Diam_av)) Error: Problem

浏览 3提问于2021-11-29得票数 3

回答已采纳

1回答

如何安装dask_cudf？

python、installation、dask、rapids、cudf

我在终端中使用以下代码行来安装rapids，然后安装dask cudf： conda create -n rapids-core-0.14 -c rapidsai -c nvidia -c conda-forge \ -c defaults rapids=0.14 python=3.7 cudatoolkit=10.1 conda activate rapids-core-0.14 conda install -c rapidsai dask-cudf 但是当我要将dask_cudf导入python笔记本时： import dask_cudf 我得到以下错误： ----------

浏览 100提问于2021-01-20得票数 0

回答已采纳

1回答

在DASK上运行的cuML函数？那么dask_cudf操作呢？

python、dataframe、dask、rapids

如何在大型数据集dask_cudf上运行dask_cuML (例如逻辑回归)？我不能在我的cudf dataframe上运行cuML，因为数据集太大了，所以只要我尝试任何东西，就会“内存不足”。好的一面是我有4个GPU可以和dask_cudf一起使用。例如，有人知道在dask_cudf数据帧上运行逻辑回归的步骤吗？关于我的cudf和cuml逻辑函数： type(gdf) cudf.core.dataframe.DataFrame logreg = cuml.LogisticRegression(penalty='none', tol=1e-6, max_iter=100

浏览 1提问于2020-02-06得票数 0

1回答

获取Json参数

json、facebook、foreach

我需要下面的json-string的消息部分。这应该是可能的，但事实并非如此。 echo $fb_response‘’data‘’message‘； [VGardena] => stdClass Object ( [data] => Array ( [0] => stdClass Object ( [message] => The traditional cuisine of Val Gardena -

浏览 2提问于2017-04-17得票数 0

1回答

从numba导入cuda，numpy_support和ImportError:无法从numba导入名称“numpy_support”

pandas、numpy、numba、cudf

我正在变熊猫为拥抱，以使更快的聚集和降低处理速度。我想出了一个用GPU和熊猫合作的图书馆。 "CUDF链接“ 当我进入下面的安装在我的项目中，它会出现一个错误，我也尝试了许多版本的numba。 conda install -c rapidsai -c nvidia -c numba -c conda-forge \ cudf=0.13 python=3.7 cudatoolkit=10.2 溯源 Traceback (most recent call last): File "/home/khawar/deepface/tests/Ensemble-Face-Re

浏览 1提问于2021-02-04得票数 0

回答已采纳

2回答

cudf.DataFrame.sort_values --“`ValueError:无法将NotImplementedType类型的值转换为cudf标量”

python、dataframe、cudf

在cudf sort_values上使用DataFrame (版本: 22.2.0)时出错： >>> import cudf >>> df = cudf.DataFrame() >>> df['a'] = [0, 1, 2] >>> df['b'] = [-3, 2, 0] >>> df.sort_values('b') ValueError: Cannot convert value of type NotImplementedType to cudf s

浏览 9提问于2022-09-19得票数 0

1回答

dask存储库中的语义版本控制

python、dependencies、dask、cudf

既然函数read_metadata与旧版本不兼容，为什么the commit 7138f470f0e55f2ebdb7638ddc4dfe2e78671403没有触发新的主要版本的dask？提交引入了4个值的返回，但旧版本只返回3个。根据semantic versioning的说法，这是正确的行为。因为那个提交，cudf被破坏了。问题中的代码： >>> import cudf >>> import dask_cudf >>> dask_cudf.from_cudf(cudf.DataFrame({'a':[1,2,3]

浏览 15提问于2020-08-18得票数 0

回答已采纳

1回答

无法将dask_cudf数据加载和计算到活跃的表中，并看到一些与内存相关的错误。(cudaErrorMemoryAllocation内存不足)

python、memory、dask、dask-distributed、rapids

发行: 尝试使用Dask加载一个文件(CSV和Parquet)，并看到一些与内存相关的错误。数据集可以很容易地放入内存中，并且可以使用BlazingSQL的read_parquet方法正确读取文件。但是，dask_cudf.read_parquet()方法也失败了。查看两种文件格式的相同错误。另一个观察是，当从cudf创建blazingSQL表时，表会被创建，但是没有记录。如果有人能给出一些建议来解决这个问题，那将是很有帮助的。数据集信息：行编号-1.26亿列编号- 209文件格式-分区的拼花号-8文件大小- 400 MB文件大小csv - 62 GB 系统信息: GPU -6( V1

浏览 4提问于2021-04-29得票数 0

8回答

如何从R中的数据中删除带有inf的行

r、dataframe

我有一个非常大的dataframe(df)，它有大约35-45列(变量)和大于300的行。有些行在单个变量或多个变量中包含NA、NaN、Inf、-Inf值，我使用na.omit(df)删除带有NA和NaN的行，但不能使用na.omit函数删除带有Inf和-Inf值的行。在搜索时，我遇到了这个线程，并使用了修改过的代码df[is.finite(df)]，但是它没有删除Inf和-Inf的行，并且也给出了这个错误。 is.finite(df)中的错误:类型“list”未实现的默认方法编辑删除整行，即使对应的一个或多个列都有inf和-inf。

浏览 7提问于2016-04-13得票数 47

回答已采纳

2回答

学习函数[错误:选定的未定义列]

r、function

这里是新手。我正在学习函数，我在运行这个函数时遇到了问题： newfunction = function(x) { limit = ncol(x) for(i in 1:limit){ if(anyNA(x[,i] == T)) { x[,i] = NULL } } } newfunction(WBD_SA) 我得到了错误：Error in '[.data.frame(x, , i) : undefined columns selected 我试图从我的数据集WBD_SA中删除所有具有NA值的列。我知道

浏览 2提问于2015-04-30得票数 0

回答已采纳

1回答

使用空单元格跨多列进行分段

r、multiple-columns、subset

我有一个很大的数据集，其中每一行可能有一个带有文本的单元格，而其余的单元格是空的。是否有一种方法可以将这些行子集为只包含给定列中的文本，而其余行则为空？我知道我可以使用例如tmp[tmp$A!="" & tmp$B=="" & tmp$C=="" & tmp$D=="",]，但因为我有大约。我想对每一列运行这30列，这将是相当乏味的。我已经尝试过以下方法，但它的行为并不像预期的那样。 tmp=data.frame(A=c("a","","","

浏览 0提问于2013-09-24得票数 0

回答已采纳

1回答

在Dask cuDF中内存不足

python、python-3.x、gpu、dask、rapids

最近，我在最近的项目中一直试图解决dask_cudf中的内存管理问题，但我似乎遗漏了一些东西，需要您的帮助。我正在工作的特斯拉T4 GPU与15 GiB内存。我有几个ETL步骤，但是GPU最近似乎在其中的大多数上失败了(其中大多数只是过滤或转换步骤，但很少有旋转移动)。我的数据包括大约20,500 My的拼花文件。对于这个特定的问题，我将提供一段用于过滤的代码，这将使GPU由于内存不足而失败。我首先建立一个数据自动化系统集群： CUDA_VISIBLE_DEVICES = os.environ.get("CUDA_VISIBLE_DEVICES", "0")

浏览 5提问于2022-06-24得票数 0

1回答

在包含NA列的数据帧中找到一行？

r、dataframe、find、match

我有一个有67列的翻译表，我得到了67列的输入。我的目标是检查是否能在这个翻译表中找到它。为了明确起见，67列生成一个键，另外10列是该键的实际值。如果输入中的某些列(变量)可以带有NA值，请告诉我如何快速找到它？小例子：投入： a b c d e 1 9 "r" NA NA 翻译表： a b c d e 5 NA NA NA 9 6 9 "o" 4 3

浏览 1提问于2017-12-21得票数 1

回答已采纳

1回答

CUDF错误处理大量的拼花文件

python、nvidia、dask、parquet、cudf

浏览 2提问于2019-09-26得票数 1

回答已采纳

1回答

识别data.frame中只有R中NA值的行

r、missing-data

我有一个data.frame，对34个序数和NA变量进行了15,000个观察。为了市场细分研究，我正在执行聚类，并且需要只删除NAs的行。在取出userID之后，我收到了一条错误消息，在集群之前省略了只有NAs的2099行。我找到了一个用于删除带有所有NA值的行的链接，但我需要确定2099行中哪些行具有所有NA值。在这里，讨论删除带有所有NA值的行的链接：下面是来自六个变量的前五个观察的示例： > head(Store2df, n=5) RowNo Age Gender HouseholdIncome MaritalStatus PresenceofChildren 1

浏览 1提问于2014-09-01得票数 12

回答已采纳

1回答

如何为所有工作进程和分区预缓存dask.dataframe以减少通信需求

python、pandas、dask、rapids、cudf

有时，使用dask.dataframe.map_partitions进行合并之类的操作很有吸引力。在某些情况下，当使用map_partitions在left_df和right_df之间进行合并时，我希望在执行合并之前先预缓存right_df，以减少网络开销/本地混洗。有什么明确的方法可以做到这一点吗？感觉应该可以使用client.scatter(the_df)、client.run(func_to_cache_the_df)或其他智能广播中的一种或两者的组合。在使用小得多的right_df (本质上是一个查找表)的大型left_df上执行左连接时，这一点尤为突出。感觉这个right_df应该

浏览 0提问于2019-07-30得票数 2

1回答