首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >替换大型数据集中数据格式的最佳方式是什么?

替换大型数据集中数据格式的最佳方式是什么?
EN

Stack Overflow用户
提问于 2020-07-19 20:43:08
回答 1查看 46关注 0票数 2

我刚开始研究数据科学,所以很抱歉,如果这是一个简单的问题,但我已经搜索了谷歌几个小时,尝试了多种解决方案,但都没有效果。

基本上,我的数据集已经自动调整了一些值,例如3-5到03-May。我不能简单地更改Excel中的值,而是需要清理Python中的数据。我的第一个想法是简单地使用替换工具,即df = df.replace('2019-05-03 00:00:00', '3-5'),但它不起作用,大概是因为时间戳和字符串(?)之间的数据类型不同-如果我调整代码,即df = df.replace('0-2', '3-5'),它就会起作用。

我也不能简单地将该数据添加为缺失值,因为它只是一个格式错误,而不是一个虚假的条目。

有没有简单的方法可以做到这一点?

下面列出了我正在使用的数据的示例片段:

GitHub public gist

代码的PSB:

代码语言:javascript
运行
复制
#Dependencies
import pytest
import pandas as pd
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)
import numpy as np
from google.colab import drive
import io

#Import data
from google.colab import files
upload = files.upload()
df = pd.read_excel(io.BytesIO(upload['breast-cancer.xls']))

df

#Clean Data
df.types

#Correcting tumor-size and inv-nodes values
'''def clean_data(dataset):
      for i in dataset:
         dataset = dataset.replace('2019-05-03 00:00:00','3-5')
         dataset = dataset.replace('2019-08-06 00:00:00','6-8')
         dataset = dataset.replace('2019-09-11 00:00:00','9-11')
         dataset = dataset.replace('2014-12-01 00:00:00','12-14')
         dataset = dataset.replace('2014-10-01 00:00:00','10-14')
         dataset = dataset.replace('2019-09-05 00:00:00','5-9')
      return dataset

   cleaned_dataset = dataset.apply(clean_data)
   cleaned_dataset'''

df = df.replace('2019-05-03 00:00:00', '3-5')
df

#Check for duplicates
df.duplicated()
EN

回答 1

Stack Overflow用户

发布于 2020-07-19 22:48:53

df[['tumor-size', 'inv-nodes']] = df[['tumor-size', 'inv-nodes']].astype(str)

这一行代码拯救了一切。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62980450

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档