如何使用dask/dask-cudf将单个大型拼图文件读入多个分区？_如何使用linux或hdfs命令将多个拼图文件合并为单个拼图文件？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

全平台都能用的pandas运算加速神器

如何通过Maingear的新型Data Science PC将NVIDIA GPU用于机器学习

深度学习使我们能够执行许多类似人类的任务，但是如果是数据科学家并且没有在FAANG公司工作（或者如果没有开发下一个AI初创公司），那么仍然有可能会使用和旧的（好吧，也许不是那么古老）机器学习来执行日常任务。

Modin，只需一行代码加速你的Pandas

Modin是一个Python第三方库，可以通过并行来处理大数据集。它的语法和pandas非常相似，因其出色的性能，能弥补Pandas在处理大数据上的缺陷。

多快好省地使用pandas分析大型数据集

pandas虽然是个非常流行的数据分析利器，但很多朋友在使用pandas处理较大规模的数据集的时候经常会反映pandas运算“慢”，且内存开销“大”。

（数据科学学习手札150）基于dask对geopandas进行并行加速

大家好我是费老师，geopandas作为我们非常熟悉的Python GIS利器，兼顾着高性能和易用性，特别是在其0.12.0版本开始使用全新的shapely2.0矢量计算后端后，性能表现更是一路狂飙。

用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统

简单来说，现代推荐系统由训练/推理流水线（pipeline）组成，涉及数据获取、数据预处理、模型训练和调整检索、过滤、排名和评分相关的超参数等多个阶段。走遍这些流程之后，推荐系统能够给出高度个性化的推荐结果，从而提升产品的用户体验。

nvidia-rapids︱cuDF与pandas一样的DataFrame库

cuDF（https://github.com/rapidsai/cudf）是一个基于Python的GPU DataFrame库，用于处理数据，包括加载、连接、聚合和过滤数据。向GPU的转移允许大规模的加速，因为GPU比CPU拥有更多的内核。

2021 年年度最佳开源软件！

Svelte 是一种全新的构建用户界面的方法。传统框架如 React 和 Vue 在浏览器中需要做大量的工作，而 Svelte 将这些工作放到构建应用程序的编译阶段来处理。

使用Wordbatch对Python分布式AI后端进行基准测试

在过去的几年里，Python已成为数据科学和人工智能的通用语言，所有使用Python作为主要界面语言的着名深度学习框架（Keras，Pytorch，MXNet）。与竞争语言相比，Python在DS和AI的几乎每个方面都可以与之竞争或超越：最新的机器学习算法及其高效实现（Scikit-Learn，LightGBM，XGBoost），数据处理和分析（Pandas，cuDF），高效的数值计算库（Numpy），PyPy，Numba），GPU计算（CuPY）和Web API编程（Flask，Celery）。

nvidia-rapids︱cuGraph(NetworkX-like)关系图模型

RAPIDS cuGraph库是一组图形分析，用于处理GPU数据帧中的数据 - 请参阅cuDF。 cuGraph旨在提供类似NetworkX的API，这对数据科学家来说很熟悉，因此他们现在可以更轻松地构建GPU加速的工作流程

【Python 数据科学】Dask.array：并行计算的利器

Dask是一个用于并行计算的强大工具，它旨在处理大规模数据集，将数据拆分成小块，并使用多核或分布式系统并行计算。Dask提供了两种主要的数据结构：Dask.array和Dask.dataframe。在本文中，我们将重点介绍Dask.array，它是Dask中用于处理多维数组数据的部分。

使用Dask，SBERT SPECTRE和Milvus构建自己的ARXIV论文相似性搜索引擎

Arxiv.org大家一定都不陌生，学习数据科学的最佳方法之一是阅读Arxiv.org上的开源研究论文。但是即使对于经验丰富的研究人员来说，从大量的研究论文中找出想读的内容也是非常不容易的。Connected等论文之类的工具可以提供一些帮助，但是它们根据论文之间共享的引用和参考书目来衡量相似性的，这当然非常的好，并且也很简单，但是文档中文本的语义含义也是一个衡量相似度非常重要的特征。

在gpu上运行Pandas和sklearn

当涉及大量数据时，Pandas 可以有效地处理数据。但是它使用CPU 进行计算操作。该过程可以通过并行处理加快，但处理大量数据仍然效率不高。

GPU加速数据分析和机器学习

作为这种转变的示范，越来越多的在线数据科学平台现在正在添加GPU解决方案。一些示例是：Kaggle，Google Colaboratory，Microsoft Azure和Amazon Web Services（AWS）。

异构计算系列（二）：机器学习领域涌现的异构加速技术

“异构计算”（Heterogeneous computing），是指在系统中使用不同体系结构的处理器的联合计算方式。在 AI 领域，常见的处理器包括：CPU（X86，Arm，RISC-V 等），GPU，FPGA 和 ASIC。（按照通用性从高到低排序）本文是异构计算系列的第二篇文章，重点介绍机器学习领域涌现的异构加速技术。

Python王牌加速库：奇异期权定价的利器

在金融领域，计算效率有时可以直接转化为交易利润。量化分析师面临着在研究效率和计算效率之间进行权衡的挑战。使用Python可以生成简洁的研究代码，从而提高了研究效率。但是，一般的Python代码速度很慢，不适合用于生产环境。在这篇文章中，我们将探索如何使用Python的GPU库来高性能实现奇异期权定价领域遇到的问题。

实现矢量图的编辑和拼图，不用安装AI软件，也能快速出图！这个拼图工具快快用起来~·

科研绘图中有两种图像类型，矢量图（通常是PDF和AI格式）和位图（通常是JPG、TIF、PNG格式）。

使用Dask DataFrames 解决Pandas中并行计算的问题

如何将20GB的CSV文件放入16GB的RAM中。如果你对Pandas有一些经验，并且你知道它最大的问题——它不容易扩展。有解决办法吗? 是的-Dask DataFrames。大多数Dask AP

6个pandas新手容易犯的错误

我们在这里讨论6个新手容易犯的错误，这些错误与你所使用工具的API或语法无关，而是与你的知识和经验水平直接相关。在实际中如果出现了这些问题可能不会有任何的错误提示，但是在应用中却会给我们带来很大的麻烦。

Pandas高级教程——性能优化技巧

Pandas 是数据科学和分析领域中使用最广泛的库之一，但在处理大型数据集时，性能可能成为一个挑战。本篇博客将介绍一些高级技巧，帮助你优化 Pandas 操作，提高代码执行效率。

CPU靠边站！使用cuDF在GPU加速Pandas

使用Pandas Dataframe执行数千甚至数百万次计算仍然是一项挑战。你不能简单的将数据丢进去，编写Python for循环，然后希望在合理的时间内处理数据。公众号在此之前的一篇文章专门介绍了一些方法，请点击查看：

安利一个Python大数据分析神器！

对于Pandas运行速度的提升方法，之前已经介绍过很多回了，里面经常提及Dask，很多朋友没接触过可能不太了解，今天就推荐一下这个神器。

资源 | Pandas on Ray：仅需改动一行代码，即可让Pandas加速四倍

选自UC Berkeley Rise Lab 作者：Devin Petersohn 机器之心编译参与：Nurhachu Null、路雪本文中，来自 UC Berkeley 的 Devin Petersohn 发布文章介绍了其参与的项目 Pandas on Ray，使用这款工具，无需对代码进行太多改动即可加速 Pandas，遇到大型数据集也不怕。作者还对 Pandas on Ray、Pandas 进行了对比评估。机器之心对此文进行了编译介绍。项目链接：https://github.com/ray-pro

几个方法帮你加快Python运行速度

Python运行的慢是历来被诟病的，一方面和语言有关，另一方面可能就是你代码的问题。语言方面的问题我们解决不了，所以只能在编程技巧上来提高程序的运行效率。下面就给大家分享几个提高运行效率的编程方法。

如何在 GPU 上加速数据科学

我们认为使用大型模型架构和相同数据在XLNet 和BERT之间进行公平的比较研究具有重要的科学价值。

python︱大规模数据存储与读取、并行计算：Dask库简述

本文介绍了利用Dask和Kaleido库进行大数据处理和分析的应用案例，包括处理40TB数据集、进行特征工程、建立机器学习模型和评估模型性能。同时，本文还介绍了如何使用Dask进行分布式计算和并行计算，以及使用Kaleido进行特征选择和降维。

Python 实用技能 RAPIDS | 利用 GPU 加速数据科学工作流程

CSDN 叶庭云：https://yetingyun.blog.csdn.net/

有比Pandas 更好的替代吗?对比Vaex, Dask, PySpark, Modin 和Julia

表格是存储数据的最典型方式，在Python环境中没有比Pandas更好的工具来操作数据表了。尽管Pandas具有广泛的能力，但它还是有局限性的。比如，如果数据集超过了内存的大小，就必须选择一种替代方法。但是，如果在内存合适的情况下放弃Pandas使用其他工具是否有意义呢？

独家 | Python处理海量数据集的三种方法

作者：Georgia Deaconu 翻译：陈超校对：欧阳锦本文约1200字，建议阅读5分钟本文介绍了Python处理数据集的方法。作为一名数据科学家，我发现自己处理“大数据”的情况越来越多。我叫做大数据的是那些虽然不是很大，但是却足够让我的电脑处理到崩溃并且拖慢其他程序。图片来自 Mika Baumeister UNsplash 这个问题并不新鲜，且对于所有问题而言，从来没有一劳永逸的万能公式。最好的方法依赖于你的数据以及你应用的目的。然而，最流行的解决方法通常在以下描述的分类之中。 1. 通过优

MySQL的分区表：大规模数据处理的最佳方案

MySQL是一种常用的关系型数据库管理系统，分区表是一种在MySQL数据库中处理大规模数据的最佳方案之一。分区表技术可以将一个大型的表按照某种规则进行拆分成多个小型表，每个小型表称为一个分区，从而提高系统性能、快速处理海量数据和节省存储空间。

一行代码将Pandas加速4倍

虽然 panda 是 Python 中用于数据处理的库，但它并不是真正为了速度而构建的。了解一下新的库 Modin，Modin 是为了分布式 panda 的计算来加速你的数据准备而开发的。

xarray系列 | 基于xarray和dask并行写多个netCDF文件

上述步骤通常会产生很大的nc文件(>10G)，尤其是在处理大量数据时。最近在处理卫星数据时，最终生成的文件甚至超过了50G，有些甚至超过了100G。而目前xarray对于nc格式的大文件存储让人头疼。在存储这些大文件时耗时很长，甚至可能会导致程序挂起。

一行代码将Pandas加速4倍

Spark vs Dask Python生态下的计算引擎

对于 Python 环境下开发的数据科学团队，Dask 为分布式分析指出了非常明确的道路，但是事实上大家都选择了 Spark 来达成相同的目的。Dask 是一个纯 Python 框架，它允许在本地或集群上运行相同的 Pandas 或 Numpy 代码。而 Spark 即时使用了 Apache 的 pySpark 包装器，仍然带来了学习门槛，其中涉及新的 API 和执行模型。鉴于以上陈述，我们下面将对比这两个技术方案。

什么是Python中的Dask，它如何帮助你进行数据分析？

Python由于其易用性而成为最流行的语言，它提供了许多库，使程序员能够开发更强大的软件，以并行运行模型和数据转换。

重磅！你每天使用的NumPy登上了Nature!

数组编程为访问、操纵和操作向量、矩阵和高维数组数据提供了功能强大、紧凑且易于表达的语法。NumPy是Python语言的主要数组编程库。它在物理、化学、天文学、地球科学、生物学、心理学、材料科学、工程学，金融和经济学等领域的研究分析流程中起着至关重要的作用。例如，在天文学中，NumPy是用于发现引力波[1]和首次对黑洞成像[2]的软件栈的重要组成部分。本文对如何从一些基本的数组概念出发得到一种简单而强大的编程范式，以组织、探索和分析科学数据。NumPy是构建Python科学计算生态系统的基础。它是如此普遍，甚至在针对具有特殊需求对象的几个项目已经开发了自己的类似NumPy的接口和数组对象。由于其在生态系统中的中心地位，NumPy越来越多地充当此类数组计算库之间的互操作层，并且与其应用程序编程接口（API）一起，提供了灵活的框架来支持未来十年的科学计算和工业分析。

干货 | 数据分析实战案例——用户行为预测

背景：以某大型电商平台的用户行为数据为数据集，使用大数据处理技术分析海量数据下的用户行为特征，并通过建立逻辑回归模型、随机森林对用户行为做出预测;

八大工具，透析Python数据生态圈最新趋势！

我们前一阵子参加了在旧金山举办的Dato数据科学峰会。来自业界和学界的千余名数据科学研究人员在大会上对数据科学、机器学习和预测应用方面的最新发展进行了交流和探讨。以下是大会中讨论的数据科学家在未来可能使用的八个Python工具。 SFrame和SGraph 峰会上的一个重磅消息是Dato将在BSD协议下开源SFrame和SGraph。SFrame(Scaleable Data Frame)是一个为大数据处理优化内存和性能的数据框(DataFrame)结构。SGraph是一个类似的概念，但代表的不是数据框而

010

牛！NumPy团队发了篇Nature

在这里，我们回顾几个基本的数组概念，展示一个简单而强大的用于分析科学数据的编程范例。

MapReduce设计模式

一：概要模式 1：简介概要设计模式更接近简单的MR应用，因为基于键将数据分组是MR范型的核心功能，所有的键将被分组汇入reducer中本章涉及的概要模式有数值概要（numerical summarization），倒排索引（inverted index），计数器计数（counting with counter）2：概要设计模式包含 2.1：关于Combiner和paritioner combiner：reducer之前调用reducer函数，对数据进行聚合，极大的减少通过网络传输到reduce

用 Swifter 大幅提高 Pandas 性能

假如在此刻，您已经将数据全部加载到panda的数据框架中，准备好进行一些探索性分析，但首先，您需要创建一些附加功能。自然地，您将转向apply函数。Apply很好，因为它使在数据的所有行上使用函数变得很容易，你设置好一切，运行你的代码，然后…

请停止使用Excel进行数据分析，升级到Python吧

2017年，全球估计有7.5亿人使用Excel。2017年，世界人口约为76亿。这意味着大约有10%的人使用Excel，我猜大部分是用于数据分析。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐