使用pyarrow和pandas创建的地块文件的地图列没有数据_使用pandas和dask合并具有不同模式的地块文件_转换TypeError:不可散列的类型:使用pyarrow将s3地块数据集转换为pandas时的类型：'dict‘ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

geopandas&geoplot近期重要更新

最近一段时间（本文写作于2020-07-10）geopandas与geoplot两个常用的GIS类Python库都进行了一系列较为重大的内容更新，新增了一些特性，本文就将针对其中比较实际的新特性进行介绍。

03

（数据科学学习手札89）geopandas&geoplot近期重要更新

最近一段时间（本文写作于2020-07-10）geopandas与geoplot两个常用的GIS类Python库都进行了一系列较为重大的内容更新，新增了一些特性，本文就将针对其中比较实际的新特性进行介绍。

02

您找到你想要的搜索结果了吗？

是的

没有找到

独家 | Pandas 2.0 数据科学家的游戏改变者（附链接）

由于其广泛的功能性和多功能性，如果没有 importpandas as pd，几乎不可能做到数据操纵，对吧？

03

Pandas 2.0 简单介绍和速度评测

本文约1600字，建议阅读5分钟本文将做一个简单的介绍和评测，为什么pandas选择Arrow作为后端。 Pandas是机器学习中最常用的一个库了，我们基本上每天都会使用它。而pandas使用了一个“NumPy”作为后端，这个我们也都是知道的，但是最近 Pandas 2.0 的RC版已经最近发布了。这个版本主要包括bug修复、性能改进和增加Apache Arrow后端。当涉及到使用DF时，Arrow比Numpy提供了更多的优势。 PyArrow可以有效地处理内存中的数据结构。它可以提供一种标准化的方式来表示

02

Pandas 2.0 来了！

来源：数据STUDIO 机器学习杂货店本文约1200字，建议阅读5分钟我们一起聊一聊Pandas增加和改进的内容。 Pandas[1]是一个用于处理数据的Python库，在Python开发者中非常流行。相信你已经对他非常熟悉了。随着现在数据量越来越多，pandas的局限性也日渐凸显，在处理大数据时非常恼火，从而选择更加合适的工具，如pyspark等大数据处理框架。而 Pandas 2.0 也是朝着这个方向迈出的一步，接下来我们一起聊一聊Pandas增加和改进的内容。更快和更有效的内存操作本次最大

06

Pandas 2.1发布了

2023年3月1日，Pandas 发布了2.0版本。6个月后（8月30日），更新了新的2.1版。让我们看看他有什么重要的更新。

03

Pandas 2.1发布了

2023年3月1日，Pandas 发布了2.0版本。6个月后（8月30日），更新了新的2.1版。让我们看看他有什么重要的更新。

02

进步神速，Pandas 2.1中的新改进和新功能

Pandas 2.1于2023年8月30日发布。跟随本文一起看看这个版本引入了哪些新内容，以及它如何帮助用户改进Pandas的工作负载。它包含了一系列改进和一组新的弃用功能。

01

Spark Parquet详解

Apache Parquet属于Hadoop生态圈的一种新型列式存储格式，既然属于Hadoop生态圈，因此也兼容大多圈内计算框架（Hadoop、Spark），另外Parquet是平台、语言无关的，这使得它的适用性很广，只要相关语言有对应支持的类库就可以用；

04

pyspark 原理、源码解析与优劣势分析（2） ---- Executor 端进程间通信和序列化

对于 Spark 内置的算子，在 Python 中调用 RDD、DataFrame 的接口后，从上文可以看出会通过 JVM 去调用到 Scala 的接口，最后执行和直接使用 Scala 并无区别。而对于需要使用 UDF 的情形，在 Executor 端就需要启动一个 Python worker 子进程，然后执行 UDF 的逻辑。那么 Spark 是怎样判断需要启动子进程的呢？

02

百倍加速IO读写！快使用Parquet和Feather格式！⛵

我们在处理本地存储的数据时遇到了一些问题。在相对较小的数据集上，读取-处理-写入操作可能很舒服，但对于大型 .csv 文件来说，这些操作非常麻烦，可能会消耗大量时间和资源。

03

制作地图及常见问题

01

10个Pandas的另类数据处理技巧

来源：DeepHub IMBA本文约2000字，建议阅读5分钟本文介绍了10个Pandas的常用技巧。本文所整理的技巧与以前整理过10个Pandas的常用技巧不同，你可能并不会经常的使用它，但是有时候当你遇到一些非常棘手的问题时，这些技巧可以帮你快速解决一些不常见的问题。 1、Categorical类型默认情况下，具有有限数量选项的列都会被分配object 类型。但是就内存来说并不是一个有效的选择。我们可以这些列建立索引，并仅使用对对象的引用而实际值。Pandas 提供了一种称为 Categori

04

UE5的World Partition

世界分区，是UE5给大世界项目提供的一套新的解决方案。相比于UE4的WorldComposition有了非常多的改进。官网也有很具体的介绍：

01

PySpark源码解析，教你用Python调用高效Scala接口，搞定大规模数据分析

众所周知，Spark 框架主要是由 Scala 语言实现，同时也包含少量 Java 代码。Spark 面向用户的编程接口，也是 Scala。然而，在数据科学领域，Python 一直占据比较重要的地位，仍然有大量的数据工程师在使用各类 Python 数据处理和科学计算的库，例如 numpy、Pandas、scikit-learn 等。同时，Python 语言的入门门槛也显著低于 Scala。

04

Seaborn-让绘图变得有趣

如果曾经在Python中使用过线图，条形图等图形，那么一定已经遇到了名为matplotlib的库。

02

ArcGIS PRO基础教程（二）

获得整个范围的ph分布图（注：需选择范围与地块图层dk相同，注意设置坐标系与dk图层相同，不然会报错）

02

6个顶级Python可视化库！

如果你是Python可视化的新手，一些流行的可视化库包括Matplotlib、Seaborn、Plotly、Bokeh、Altair和Folium，以及大量的库和例子可能会让你感到不知所措。

01

6个顶级Python可视化库

这篇文章云朵君将和大家一起学习每个库的优点和缺点。到最后，对它们的不同特点有更好的了解，在合适的时候更容易选择合适的库。

02

ArcGIS PRO基础教程（二）

获得整个范围的ph分布图（注：需选择范围与地块图层dk相同，注意设置坐标系与dk图层相同，不然会报错）

01

独家 | PySpark和SparkSQL基础：如何利用Python编程执行Spark（附代码）

本文通过介绍Apache Spark在Python中的应用来讲解如何利用PySpark包执行常用函数来进行数据处理工作。

02

设计模式-工厂模式（简单工厂、工厂方法、抽象工厂）

简单工厂模式是属于创建型模式，是工厂模式的一种。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。定义了一个创建对象的类，由这个类来封装实例化对象的行为(代码)。当我们会用到大量的创建某种、某类或者某批对象时，就会使用到工厂模式。由于创建实例的方法通常为静态(static)方法，因此简单工厂模式又被成为静态工厂方法模式(Static Factory Method)。

04

一行代码加快pandas计算速度

Pandaral·lel 的想法是将pandas计算分布在计算机上所有可用的CPU上，以显着提高速度。

04

用 GeoPandas 绘制超高颜值数据地图

通常情况下，在执行 EDA 时，我们会面临显示有关地理位置的信息的情况。例如，对于 COVID 19 数据集，人们可能希望显示各个区域的病例数。这是 Python 库 GeoPandas 的用武之地。

02

开发 | 强化学习怎样在探索和利用之间找到平衡？OpenAI 推出了大型多智能体游戏环境 Neural MMO

AI 科技评论按：OpenAI 于今日发布了 Neural MMO，它是一个为强化学习智能体创建的大型多智能体游戏环境。该平台支持在一个持久、开放的任务中使用大规模且数量可变的智能体。将更多的智能体和物种囊括到环境中可以更好地执行探索任务，促进多种生态位的形成，从而增强系统整体的能力。

02

NASA数据集——2017 年北美 11 个研究地点收集的植被群落特征、土壤水分和生物物理数据

ABoVE: Post-Fire and Unburned Vegetation Community and Field Data, NWT, Canada, 2017

01

使用Pyspark进行特征工程时的那些坑

以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例：集群节点包括212、216、217、218。需要注意的是：

01

pySpark | pySpark.Dataframe使用的坑与经历

笔者最近在尝试使用PySpark，发现pyspark.dataframe跟pandas很像，但是数据操作的功能并不强大。由于，pyspark环境非自建，别家工程师也不让改，导致本来想pyspark环境跑一个随机森林，用《Comprehensive Introduction to Apache Spark, RDDs & Dataframes (using PySpark) 》中的案例，也总是报错…把一些问题进行记录。

02

Power BI着色地图自适应画布大小

针对第二个缺陷，例如切片器选择青海，Synoptic Panel其实仍然显示的是全国，只是青海有数据。

03

【云+社区年度征文】设计模式-工厂模式（简单工厂、工厂方法、抽象工厂）

个工厂对象决定创建出哪一种产品类的实例**。定义了一个创建对象的类，由这个类来封装实例化对象的行为(代码)。当我们会用到大量的创建某种、某类或者某批对象时，就会使用到工厂模式。

00

6个顶级Python可视化库

如果你是Python可视化的新手，一些流行的可视化库包括Matplotlib、Seaborn、Plotly、Bokeh、Altair和Folium，以及大量的库和例子可能会让你感到不知所措。

02

NASA数据集—— 2017 年 7 月和 2018 年 7 月期间从阿拉斯加育空-库斯科金（Y-K）三角洲高地苔原火灾历史梯度的 43 个地块收集的生态野外数据

ABoVE: Vegetation Composition across Fire History Gradients on the Y-K Delta, Alaska

01

Mongodb数据库转换为表格文件的库

大家好，我是吴老板。今天给大家分享一个可将Mongodb数据库里边的文件转换为表格文件的库，这个库是我自己开发的，有问题可以随时咨询我。

01

绝了！这个库让Pandas数据框互动起来了！

ITables 本质上是DataTables[2] 的 Python 封装。我们已设法将其依赖性降至最低：ITables 仅需要IPython、pandas和numpy，如果在 Jupyter 中使用 Pandas，您必须已经拥有这些资源（如果希望将 ITables 与PolarsDataFrames 结合使用，请添加 polars 和pyarrow）。

01

NFT考古行动：一文盘点史前NFT 项目

如果说 2020 年的夏天属于 DeFi，那么今年夏天，NFT 一定是当仁不让的主角。从腾讯、阿里等传统互联网巨头入局，再到路易威登、巴宝莉、保时捷等顶级品牌进行了联动，NFT 正在实现加密行业的又一次「破圈」。从虚拟土地的热炒，到 GameFi 游戏的爆红，再到头像 NFT 的风靡，NFT 的市场规模以惊人的速度扩张，且丝毫没有平息的迹象。

00

图扑智慧农业：农林牧数据可视化监控平台

数字农业是一种现代农业方式，它将信息作为农业生产的重要元素，并利用现代信息技术进行农业生产过程的实时可视化、数字化设计和信息化管理。能将信息技术与农业生产的各个环节有机融合，对于改造传统农业和改变农业生产方式具有重要意义。

03

8000 字 Python 数据可视化实操指南

大家好，今天让我们看一下使用Python进行数据可视化的主要库，以及可以使用它们完成的所有类型的图表。我们还将看到建议在每种情况下，使用哪个库以及每个库的独特功能。

02

Python数据可视化，完整版操作指南(建议收藏)

让我们看一下使用Python进行数据可视化的主要库以及可以使用它们完成的所有类型的图表。我们还将看到建议在每种情况下使用哪个库以及每个库的独特功能。

03

整理了25个Pandas实用技巧（上）

如果你还想知道pandas所依赖的模块的版本，你可以使用show_versions()函数:

02

【地产大数据案例】中指讯博：城市地图与投资决策

【数据猿导读】城市地图这样的互联网地图产品，在业务使用过程中具有很好的便利性，但在实际开发中却存在很大难题，会面临诸多共性问题。最终，这款极大地优化了项目的数据流通性，自动生成PPT报告的功能，也大大提升了上下级之间、企业与客户之间的沟通效率

02

使用Arrow管理数据

Apache Arrow defines a language-independent columnar memory format for flat and hierarchical data, organized for efficient analytic operations on modern hardware like CPUs and GPUs. The Arrow memory format also supports zero-copy reads for lightning-fast data access without serialization overhead.

02

绝了！这个库让Pandas数据框互动起来了！

今天我们介绍的是一个神奇的库 -- ITables ，它是获得 MIT 许可的 Python 软件包，是一个可使用DataTables[1] JavaScript 库渲染 Python DataFrames 的交互式表格。刚刚发布的 ITables 2.0 增加了对 DataTables 扩展库的支持。

01

使用Arrow管理数据

Apache Arrow defines a language-independent columnar memory format for flat and hierarchical data, organized for efficient analytic operations on modern hardware like CPUs and GPUs. The Arrow memory format also supports zero-copy reads for lightning-fast data access without serialization overhead.

04

CellphoneDB及可视化

CellphoneDB介绍以及结果怎么看可以参考[https://zhuanlan.zhihu.com/p/446055519]，这里就不再赘述了，直接开始跑代码。

02

大更新，pandas终于有case_when方法了！

数分小伙伴们都知道，SQL中的case when语句非常好用，尤其在加工变量的时候，可以按照指定的条件的进行赋值，并且结合其他嵌套用法还可以实现非常强大的功能。

01

预训练再次跨界！百度提出ERNIE-GeoL，地理位置-语言联合预训练！

每天给你送来NLP技术干货！ ---- 源 | 百度NLP 排版 | 夕小瑶的卖萌屋本文介绍『文心大模型』的一项最新工作：“地理位置-语言”预训练模型ERNIE-GeoL。论文链接： https://arxiv.org/abs/2203.09127 实践中的观察近年来，预训练模型在自然语言处理、视觉等多个领域都取得了显著效果。基于预训练模型，利用特定任务的标注样本进行模型微调，通常可以在下游任务取得非常好的效果。然而，通用的预训练语言模型在应用于地图业务（如POI检索、POI推荐、POI信息处理等

02

多套免费超棒的 CC0 3D 模型UI！

最近 Cocos 社区有好几位热心的开发者，整理了一些 CC0 协议的游戏资源分享到 Cocos Store！这里晓衡也现学现卖，说一下什么是 CC0，还是直接看这张图：

02

QIIME2-2019.10更新学习笔记

QIIME2 2019.10发布了，虽然已经是11月份，依然对这个版本有满满的期待，看看这个版本改进了什么吧！

01

数据可视化：可以下钻的着色地图

前期写文章推荐过在Power BI中使用SVG着色地图，该种类型的地图可以方便的显示数据标签：

03

明月机器学习系列（六）：构建机器学习or深度学习环境

Anaconda Notebook本身已经是一个很好的工具，非常适用于学习，不过在企业中应用时，该工具总感觉差了一点，经常需要安装各种包，而有些包未必能通过conda进行安装。因此，我们通过Docker镜像来构建满足自己的机器学习或者深度学习环境，尽量减少大家在环境安装上浪费的时间。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭