Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >在机器学习中使用python替换数据集中的无用字符以清除数据集中的无用字符

问在机器学习中使用python替换数据集中的无用字符以清除数据集中的无用字符
EN

Stack Overflow用户

提问于 2021-01-04 16:40:04

回答 1查看 82关注 0票数 0

我怀疑，每当我尝试用NaN替换给定dataset中的?时，我都会使用python提供的Numpy(此处为np)库在python中编写以下代码

dataset = pd.read_excel("D:\Gursimran\AIML\Datasets\AdultIncomeData.xlsx")
dataset.replace('?', np.NaN, inplace=True)

当我运行这段代码时，它没有显示错误，但当我尝试通过以下方式查看数据集中的更改时：

dataset.head(10)

然后，我可以再次在我的数据集中看到?。这些?不会被替换。有人能告诉我我错过了什么吗？

请帮帮我。

machine-learning

有奖征集｜云上CPU玩转AIGC挑战赛

参加活动赢取洛斐键盘、小米电纸书、智能音响等鹅厂周边！

EN

回答 1

Stack Overflow用户

发布于 2021-01-04 21:34:07

我的猜测是，一些/所有问号被一些看不见的字符所包围，例如空格、制表或换行符。例如，考虑以下示例数据：

import pandas as pd
import numpy as np

dataset = pd.DataFrame({
    'age': [19, 28, 41, 30],
    'workclass': ['?', 'Private', 'Self-emp-inc', '   ?'],
    'occupation': ['Sales', '?', '?    ', 'Tech-support']
})

如果我们使用print(dataset)，我们会看到：

   age     workclass    occupation
0   19             ?         Sales
1   28       Private             ?
2   41  Self-emp-inc         ?    
3   30             ?  Tech-support

如果我们仔细观察打印的数据，我们可能会注意到，第三行上的问号并不是唯一的，因为它不是与占领列的右侧对齐的。然而，第四行上的问号似乎是孤立的，但事实并非如此。因此，在替换单个问号时，如

print(dataset.replace('?', np.NaN))

只有第一行和第二行中的是固定的：

   age     workclass    occupation
0   19           NaN         Sales
1   28       Private           NaN
2   41  Self-emp-inc         ?    
3   30             ?  Tech-support

这可以通过替换空格来修复。我们可以使用正则表达式，如

print(dataset.replace('\\s*\?\\s*', np.NaN, regex=True))

结果将是：

   age     workclass    occupation
0   19           NaN         Sales
1   28       Private           NaN
2   41  Self-emp-inc           NaN
3   30           NaN  Tech-support

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65566362

复制

相关文章

替换 VOC 数据集中图片路径

xml git linux c++c#

在一次做项目的时候，团队分配任务做数据集，用 labelimage 来打标，汇总数据时发现 xml 中的图片路径各不相同，于是就写了这个工具来修改 xml 中的图片路径。

HauHau

2022/01/12

1.6K0

vue-clearcss 高效清除vue中无用的css

html vue.js css 正则表达式

vue-clearcss 会找到你css中没有使用的css样式，是否删除由使用者自己决定，工作起来就像eslint

玖柒的小窝

2021/10/26

1.8K0

vue-clearcss 高效清除vue中无用的css

python strip()函数删除字符串中无空白字符或者是无用字符

s.strip(rm) 删除s字符串中开头、结尾处，位于 rm删除序列的字符

学到老

2019/02/14

1.2K0

python strip()函数删除字符串中无空白字符或者是无用字符

函数原型声明：s为字符串，rm为要删除的字符序列 s.strip(rm) 删除s字符串中开头、结尾处，位于 rm删除序列的字符 s.lstrip(rm) 删除s字符串中开头处，位于 rm删除序列的字符 s.rstrip(rm) 删除s字符串中结尾处，位于 rm删除序列的字符注意： 1. 当rm为空时，默认删除空白符（包括'\n', '\r', '\t', ' ') >>> a = ' 123' >>> a.strip() '123'

学到老

2018/03/19

1.5K0

读书无用中的数据分析2022.11.3

1、二分类人看到的或者然后看不到多分类、多因素如何准确描述长期、复利、明确相关性的价值是个难点。 2、看不到比例书籍出版数量和好书比例成功人士和人口基数比例 3、无法承受不稳定性 4、没有方法在信息过载的现代做筛选 1个问题统计100本书筛选50本高评分书筛选30本点评、听书、解读，知识框架基本观点大碰撞筛选20本看目录筛选10本精读筛选5本反复读，输出读后感 PDCA循环5遍 5、幸存者偏差

用户7138673

2022/12/19

1660

读书无用中的数据分析2022.11.3

MySQL字符集中文乱码剖析

云数据库 SQL Server 数据库机器学习

serena

2016/11/08

4.2K0

Spring Security 在 Spring Boot 中的使用【集中式】

spring spring boot 网站数据库 sql

创建好一个空的 Spring Boot 项目之后，写一个 controller 验证此时是可以直接访问到该控制器的。

Demo_Null

2020/10/28

2.5K0

Spring Security 在 Spring Boot 中的使用【集中式】

python中替换字符串中字符_Python replace()函数：替换字符串中的某个字符「建议收藏」

python java https 网络安全

下面我们将通过一组示例，详细给大家说明下关于用python的替换问题，相信大家结合实例一定非常容易理解，一起来看下吧~

全栈程序员站长

2022/09/06

4.5K0

python中替换字符串中字符_Python replace()函数：替换字符串中的某个字符「建议收藏」

在 Python 中的常见的几种字符串替换操作

编程算法正则表达式 https java python

比如，输入的字符串为’one two one two one’，第一个参数为替换前的参数，第二个为替换后的参数。默认会替换字符串中的所有符合条件的字符串。

全栈程序员站长

2022/09/07

6.2K0

XPath在数据采集中的运用

在进行数据采集和信息提取的过程中，XPath是一种非常强大且灵活的工具。它可以在HTML或XML文档中定位和提取特定的数据，为数据分析和应用提供了良好的基础。本文将介绍XPath的基本概念和语法，并分享一些实际操作，帮助您充分了解XPath的威力，并学会在数据采集中灵活运用。

华科云商小孙

2023/10/09

2310

分分钟清除项目中无用的console.log代码

webpack javascript 打包网站 vue.js

说起console.log调试，不用多说，那是非常的好用，开发中帮助我们解决了不少Bug。我们经常能在开发环境中看见这一坨一坨的console调试。但是生产环境是绝不对不允许出现console信息代码的。你还在手动一个一个删除吗，那得多累啊！

童欧巴

2021/08/20

3.2K0

分分钟清除项目中无用的console.log代码

python 清除字符串中的 emoji 表情

emoji replace 函数字符串

https://pypi.org/project/emoji/ pip install emoji 字符串中间有 emoji 表情，替换掉。 text = "🐰贝贝有点甜🐰" res = emoji.demojize(text) # ':rabbit_face:贝贝有点甜:rabbit_face:' # 正则表达式替换为 r"想换的字符串" res = re.sub(emoji.get_emoji_regexp(), r" ", text) # ' 贝贝有点甜 ' 封装为函数 def remove_emo

Michael阿明

2021/09/06

3.8K0

清理无用的依赖包

npm eslint lodash javascript 编程算法

随着开发的不断推进，难免会产生一些以前引入了但现在已经不再需要的依赖包，置之不理显然并不是一个好习惯。

凌虚

2020/07/17

4.3K0

简单介绍数据采集中的数据埋点

每个人都会走路跑步，但是并不是人人都能成为专业的运动员那么出色。产品经理就是一种这样的职业，我们都可以站在产品的角度思考问题，但我们并不是都能够成为一名出色的产品经理。

木东居士

2019/02/28

2.6K0

怎样把DataGrid存放在ViewState中的无用数据卡掉

编程算法 http java

作者：无间道的博客http://www.cnblogs.com/wangsaokui/article网络

Java架构师必看

2021/03/22

5150

深度学习（Deep Learning）是否已经让传统的机器学习无用了？

深度学习机器学习

作者：威廉·沃海思（William Vorhies）编译： AI100 原文地址： http://www.datasciencecentral.com/m/blogpost?id=6448529

AI科技大本营

2018/04/26

2.7K0

深度学习（Deep Learning）是否已经让传统的机器学习无用了？

数据降本利器：无用数据下线自动化

当前，成本观念已经深入人心，有很多小伙伴主动参与到日常降本的工作当中，节省了大量成本。

有赞coder

2023/03/07

6040

数据降本利器：无用数据下线自动化

R 去除无用的levels

有的时候处理完数据后，数据变少了，但是factor的levels却没变。比如说有一个数据：

生信编程日常

2020/06/15

1.7K0

点击加载更多

相似问题

如何使用python过滤数据集中无用的数据？

17

python -如何去除开放数据集中的无用数据

110

如何从数据集中移除无用的元素

312

Python中机器学习数据集中的类名存储在哪里？

10

机器学习模型在数据集中的预测模式

17

活动推荐

即时通信IM，低门槛快速接入

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例