首页
学习
活动
专区
工具
TVP
发布

数据分析

数据清洗,数据预处理,特征提取,特征选择,数据分析,机器学习,深度学习
专栏作者
41
文章
57148
阅读量
47
订阅数
[数据清洗]-混乱的邮编数据
 内容概要: 我们怎么知道是混乱的数据 修复 nan 值和字符串/浮点类型的混乱问题 “-”怎么处理 整合代码 # 导入需要的包 import pandas as pd import numpy as np # 可以展示比较多的列,60 列 pd.set_option('display.line_width', 5000) pd.set_option('display.max_columns', 60)  混杂数据最重要的一个问题就是:怎么知道是否是混杂的数据。 下面准备使用 N
数据分析
2018-03-01
1.8K0
[数据清洗]-Pandas 清洗“脏”数据(一)
概要 准备工作 检查数据 处理缺失数据 添加默认值 删除不完整的行 删除不完整的列 规范化数据类型 必要的转换 重命名列名 保存结果 更多资源 Pandas 是 Python 中很流行的类库,使用它可以进行数据科学计算和数据分。他可以联合其他数据科学计算工具一块儿使用,比如,SciPy,NumPy 和 Matplotlib,建模工程师可以通过创建端到端的分析工作流来解决业务问题。 虽然我们可以 Python 和数据分析做很多强大的事情,但是我
数据分析
2018-03-01
3.8K0
[数据清洗]- Pandas 清洗“脏”数据(二)
概要 了解数据 分析数据问题 清洗数据 整合代码 了解数据 在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数据的列/行、记录、数据格式、语义错误、缺失的条目以及错误的格式,这样我们就可以大概了解数据分析之前要做哪些“清理”工作。 本次我们需要一个 patient_heart_rate.csv (链接:https://pan.baidu.com/s/1geX8oYf 密码:odj0)的数据文件,这个数据很小,可以让我们一目了然。这个数据是 csv 格式。数据是描述不同个体在不
数据分析
2018-03-01
2.1K0
[数据清洗]- Pandas 清洗“脏”数据(三)
预览数据 这次我们使用 Artworks.csv ,我们选取 100 行数据来完成本次内容。具体步骤: 导入 Pandas 读取 csv 数据到 DataFrame(要确保数据已经下载到指定路径) DataFrame 是 Pandas 内置的数据展示的结构,展示速度很快,通过 DataFrame 我们就可以快速的预览和分析数据。代码如下: import pandas as pd ​ df = pd.read_csv('../data/Artworks.csv').head(100) df.head(1
数据分析
2018-03-01
1.5K0
[数据清洗]-看上去一样的数字
数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据清洗很枯燥,但是随着数据清理技巧越来越熟练,就有越有可能从他人无从下手的文档中获取
数据分析
2018-03-01
8830
[数据分析工具] Pandas 不可不知的功能(一)
如果你在使用 Pandas(Python Data Analysis Library) 的话,下面介绍的对你一定会有帮助的。 首先我们先介绍一些简单的概念 DataFrame:行列数据,类似 Excel 的 sheet,或关系型数据库的表 series:单列数据 axis:0:行,1:列 shape:DataFrame的行列数,(行数,列数) 1. 加载 CSV Read_csv 方法有很多参数,有效的利用这些参数可以减轻数据预处理的工作。谁都不愿意做数据清洗,那么我们就在加载数据的时候做一些简
数据分析
2018-03-01
1.6K0
[机器学习]-[数据预处理]-中心化 缩放 KNN(一)
据预处理是总称,涵盖了数据分析师使用它将数据转处理成想要的数据的一系列操作。例如,对某个网站进行分析的时候,可能会去掉 html 标签,空格,缩进以及提取相关关键字。分析空间数据的时候,一般会把带单位(米、千米)的数据转换为“单元性数据”,这样,在算法的时候,就不需要考虑具体的单位。数据预处理不是凭空想象出来的。换句话说,预处理是达到某种目的的手段,并且没有硬性规则,一般会跟根据个人经验会形成一套预处理的模型,预处理一般是整个结果流程中的一个环节,并且预处理的结果好坏需要放到到整个流程中再进行评估。 本次,
数据分析
2018-03-01
9820
[机器学习]-[数据预处理]-中心化 缩放 KNN(二)
上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下 召回率和 f1。 真实结果 预测结果 预测结果 正例 反例 正例 TP 真正例 FN 假反例 反例 FP 假正例 TN 真反例 召回率:TP/(TP+FN) f1:2TP/(2TP+FN+FP) 我们使用scikit-learn的分类
数据分析
2018-03-01
7120
[数据分析工具] Pandas 功能介绍(二)
条件过滤 我们需要看第一季度的数据是怎样的,就需要使用条件过滤 体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据 最后整合上面两种条件,在一季度体感湿度比较舒适的数据 列排序 数据按照某
数据分析
2018-03-01
1.6K0
[SQLServer大对象]——FileTable从文件系统迁移文件
阅读导航 从文件系统中迁移文件到FileTable 批量加载文件到FileTable 如何批量加载文件到FileTable 通过博文[SQLServer大对象]——FileTable初体验,已经可以将文件加载到数据库中,并查看和访问这些文件。 将文件加载到 FileTable,可以使用工具xcopy或robocopy,也可以自己编写脚本(如PowerShell)或者应用程序,复制文件到FileTable中。 现在说一说文件的迁移。 从文件系统中迁移文件到FileTable 迁移文件条件     文件存储在文
数据分析
2018-03-01
1.3K0
[数据库基础]——快速浏览日期时间转换
阅读导航 数据库日期和时间类型 相互转换     time ⇌ date time ⇌ smalldatetime time ⇌ datetime time ⇌ datetime2 time ⇌ datetimeoffset date ⇌ smalldatetime date ⇌ datetime date ⇌ datetime2 date ⇌ datetimeoffset smalldatetime ⇌ datetime smalldatetime ⇌ datetime2 small
数据分析
2018-03-01
1K0
[数据库基础]——索引
一、引言 对数据库索引的关注从未淡出我的们的讨论,那么数据库索引是什么样的?聚集索引与非聚集索引有什么不同?希望本文对各位同仁有一定的帮助。有不少存疑的地方,诚心希望各位不吝赐教指正,共同进步。[最近首页之争沸沸扬扬,也不知道这个放在这合适么,苦劳?功劳?……] 二、 B-Tree 我们常见的数据库系统,其索引使用的数据结构多是 B-Tree 或者 B+Tree 。例如, MsSql 使用的是 B+Tree , Oracle 及 Sysbase 使用的是 B-Tree 。所以在最开始,简单地介绍一
数据分析
2018-03-01
1.1K0
[数据库基础]——索引详解
索引对于接触过数据库的人,都不会很陌生,但是说实话,也不一定很熟悉。先来介绍下索引的优点。 提高性能 现在有一个数据库表[Words],有[WordID],[WordPage],[[WordName],[WordPronunciation] ,[WordMeaning],[WordSentence]五个列,假设有上万条记录。 现在,使用查询语句找到“boyce”的详细信息,使用语句 1: SELECT * FROM [Words] 2: WHERE [WordName] = 'boyce
数据分析
2018-03-01
7360
char varchar nchar nvarcharar到底有多大区别
首先说明下,ASP.NET MVC系列还在龟速翻译中。 工作好多年,基础知识甚是薄弱,决定以后在coding(cv操作)的时候尽量多google下,然后总结下来,目的有三:     1. 加深自己的理解,如果园看懂了并且没有误导人,那么我就理解对了。     2. 以备自己遇到问题之后还要google,直接看看自己的就好了。     3. 也许面试前的突击能用到,不用东找西看 下面言归正传,介绍下char、varchar、nchar、nvarcharar到底有什么区别,免得每次创建新表的时候,总是在模仿别
数据分析
2018-03-01
7760
[译]Asp.net MVC 之 Contorllers(一)
Asp.net MVC contorllers     在Ajax全面开花的时代,ASP.NET Web Forms 开始慢慢变得落后。有人说,Ajax已经给了Asp.net致命一击。Ajax使越来越多的控制在Html和客户端代码完成。随着时间的推移,导致了架构的变化,也使ASP.NET Web Forms有点不能适应当今潮流。     基于当前的ASP.NET运行时环境和MVC模式,诞生了一个新的架构——ASP.NET MVC,这种组合的Web开发模式顺应了当今的开发的趋势。     在ASP.NET M
数据分析
2018-03-01
1K0
[译]Asp.net MVC 之 Contorllers(二)
URL路由模块 取代URL重写 路由请求 URL路由模块的内部结构 应用程序路由 URL模式和路由 定义应用程序路由 处理路由 路由处理程序 处理物理文件请求 防止路由定义的URL 属性路由  书接上回[译]Asp.net MVC 之 Contorllers(一) URL 路由HTTP模块通过获取 URL,然后调用合适的执行方法处理进来的请求。URL 路由 HTTP 模块取代了旧版本 ASP.NET 的 URL 重写功能。URL 重写的核心包括获取请求、解析原始 URL 以及指导 HTTP 运行时环境服务于
数据分析
2018-03-01
1.9K0
表格搞定 Asp.net Web 状态管理
 最近在网上搜罗了 ASP.NET WEB 状态管理方面的一些内容,终于把这些内容整合总结了一下。 1. 希望自己通过整理,能够掌握一些,为自己投资。 2. 以便自己忘记,又要浪费时间搜罗。 3. 希望对园友有帮助,这是一件很开心的事情 4. 希望大侠们看到问题及时帮忙指正,不想误导自己,更不想误导园友,在下不胜感激 不再磨叽,马上上菜 名称 用户 生存时间 数据 位置 优势 劣势 建议 Application 所有用户 应用程序重新启
数据分析
2018-03-01
1.9K0
C# 6.0 功能预览 (一)
一、索引的成员和元素初始化 1.1 原始初始化集合 Dictionary 1.2 键值初始化集合 Dictionary 1.3 运算符 $ 初始化集合 Dictionary 二、自动属性的初始化 一不小心发现 C# 已经到 6.0 了,现在项目中使用的还是 4.0,这节奏,完全跟不上啊! 虽然自己也没有使用过 6.0,既然看到了,就拿出来和园有分享一下。 看到了@dotnetgeek的评论,非常感谢,认为是给我这样浮躁的人善意的警告,不应该盲目跟风追新,应该老老实实把现在的搞清楚,万变不离其宗
数据分析
2018-03-01
9520
C# 6.0 功能预览 (二)
在Language Feature Status上面看到,其实更新的并不是特别多,为了不会误导看了C# 6.0 功能预览 (一)的园友,现在把官方的更新列表拿了过来,供大家参考 Roslyn 编译平台概述  示例 语法可视化工具 蓝图 语言功能状态 语言设计说明 FAQ 语言功能实现状态 存在: 在以前的版本中已经存在 完成: 已经在该版本中实现 计划: 预计在该版本中 可能: 预计可能在该版本中 撤销: 可能不在该版本中 没有: 该版本中没有 N/A: 没有意义 功能 例子 C#
数据分析
2018-03-01
6910
SQL Server 性能优化之——T-SQL TVF和标量函数
上一篇介绍了关于“临时表、表变量和Union优化”这次转向关注定义函数——也就是表-值函数、标量函数。 UDF(用户定义函数,User defined Function)对于集中精力处理业务逻辑很方便,因为可以在UDF中指定一组业务逻辑,其中可以设计多个存储过程和一些特定的查询语句。但是,由于UDF对CPU的大量请求可能导致性能下降 1. TVF(表-值行数Table-Valued Functions) 一般情况,当使用TVF与一个对象内联接,如果该对象没有索引将会导致TVF像索引扫描或表扫描一样做扫描操作
数据分析
2018-03-01
1.5K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档