我刚开始研究数据科学,所以很抱歉,如果这是一个简单的问题,但我已经搜索了谷歌几个小时,尝试了多种解决方案,但都没有效果。
基本上,我的数据集已经自动调整了一些值,例如3-5到03-May。我不能简单地更改Excel中的值,而是需要清理Python中的数据。我的第一个想法是简单地使用替换工具,即df = df.replace('2019-05-03 00:00:00', '3-5'),但它不起作用,大概是因为时间戳和字符串(?)之间的数据类型不同-如果我调整代码,即df = df.replace('0-2', '3-5'),它就会起作用。
我也不能简单地将该数据添加为缺失值,因为它只是一个格式错误,而不是一个虚假的条目。
有没有简单的方法可以做到这一点?
下面列出了我正在使用的数据的示例片段:

代码的PSB:
#Dependencies
import pytest
import pandas as pd
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)
import numpy as np
from google.colab import drive
import io
#Import data
from google.colab import files
upload = files.upload()
df = pd.read_excel(io.BytesIO(upload['breast-cancer.xls']))
df
#Clean Data
df.types
#Correcting tumor-size and inv-nodes values
'''def clean_data(dataset):
for i in dataset:
dataset = dataset.replace('2019-05-03 00:00:00','3-5')
dataset = dataset.replace('2019-08-06 00:00:00','6-8')
dataset = dataset.replace('2019-09-11 00:00:00','9-11')
dataset = dataset.replace('2014-12-01 00:00:00','12-14')
dataset = dataset.replace('2014-10-01 00:00:00','10-14')
dataset = dataset.replace('2019-09-05 00:00:00','5-9')
return dataset
cleaned_dataset = dataset.apply(clean_data)
cleaned_dataset'''
df = df.replace('2019-05-03 00:00:00', '3-5')
df
#Check for duplicates
df.duplicated()发布于 2020-07-19 22:48:53
df[['tumor-size', 'inv-nodes']] = df[['tumor-size', 'inv-nodes']].astype(str)
这一行代码拯救了一切。
https://stackoverflow.com/questions/62980450
复制相似问题