首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何组合两个依赖时间的数据集?

如何组合两个依赖时间的数据集?
EN

Data Science用户
提问于 2020-08-22 09:24:18
回答 2查看 93关注 0票数 1

我对数据科学非常陌生,所以请温柔一点。

我有一个数据集,其中包含过去35年发生火灾的记录(+-700.000行)。每个日期和时间可以有一个以上的事件,因为两个火灾可以同时发生在不同的地点。它的特点大致如下:

代码语言:javascript
运行
复制
Date and Time | Borough | County | Area Burned | Type | Cause | etc.

我计划将其与正在构建的新数据集结合起来。这个新的数据集将具有以下特性:

代码语言:javascript
运行
复制
Date and Time | Latitude | Longitude | Av. Temperature | Av. Wind Speed | Av, Humidity | etc.

我的想法是试图预测火灾发生的可能性,以及从一组给定的大气参数可以预测火灾的严重程度。但我有点不确定怎样才是把它们结合起来的最好方法。

如果我在日期上合并,我会有多个重复的行,同时在不同的地方发生火灾,这是最好的方式吗?我看到的问题是,没有火的位置不会被表示出来,所以我必须为所有没有火的位置添加一堆空白行来平衡集合。

对这件事的最佳策略有什么想法吗?

EN

回答 2

Data Science用户

发布于 2020-08-23 21:45:56

如果我在日期上合并,我会有多个重复的行,同时在不同的地方发生火灾,这是最好的方式吗?

可能不会,因为你不想失去位置信息。您可能会找到一种方法,将两个数据集之间的纬度/经度映射到自治市/县,从而获得语义一致的数据集(按日期/时间和位置列出的火灾列表)。

我看到的问题是,没有火的位置不会被表示出来,所以我必须为所有没有火的位置添加一堆空白行来平衡集合。

这取决于您计划如何处理您的数据,但考虑到您的第一个数据集当前的结构(火灾列表),添加没有火的位置没有多大意义。例如,您可能希望创建一个数据集,该数据集列出每个地方和每次发生火灾时的列表。

票数 0
EN

Data Science用户

发布于 2020-08-31 17:58:13

记住,始终可以将对象(如dicts或json)保存到Pandas中的单个单元中,这一点很重要。尤其是当你不知道该怎么分析的时候。

Google客户收入预测数据使用了大量的JSON

您可以看到人们如何分析记事本部分中的数据( https://www.kaggle.com/c/ga-customer-revenue-prediction/notebooks )。

或者,根据您的分析,可以有多个重复行。例如,您可以将数据转向/groupby/agg以“去复制”数据。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/80646

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档