社区首页 >问答首页 >回归决策树-规范化或分割成连续特征

问回归决策树-规范化或分割成连续特征
EN

Data Science用户

提问于 2018-07-07 02:08:27

回答 1查看 159关注 0票数 1

我的数据集中有一个名为distances的特性，其范围从200到12000 (或多或少)。由于其他特性的值都低于50，所以我需要在distances中进行一些转换。

我想到的第一件事是将它正常化，例如，将这个特性保持在0到10之间。但是，用这种方法，我可能有很多不同的价值，这可能会产生太多的分裂。

我考虑的另一种方法是确定范围。例如

From 0 to 1000 => 1
From 1000 to 3000 => 2
From 3000 to 6000 => 3
From 6000 to 12000 => 4
//Or +6000 => 4

我相信这种方法会更好，因为决定三将只有4个分支机构为这一分裂。

现在我的问题是：

是将我们自己的范围指定给这类特性的正确方法，还是仅仅标准化然后使用一些算法为我们设置范围更好？
如果我们是决定范围的人，我的例子正确吗？应以组的范围为常数，或至少将范围与分配的单位之间的关系联系起来。

就像这样：

From 0 to 3000 => 1
From 3000 to 6000 => 2
From 6000 to 9000 => 3
From 9000 to 12000 => 4
//Or +9000 => 4

我之所以遵循第一种方法，是因为distances比高值得到了更多的观测值。因此，我试图得到一个平衡的功能，在这四个类别中每一个都有相似的观察量。

使用第二种方法，几乎所有的观测结果都是1或2型的，因为大多数distances都小于5000个单位。然而，我不确定这是否是我应该关注的回归决策树。

machine-learning

decision-trees

xgboost

normalization

CDN&音视频通信出海专场

提供游戏出海、社交娱乐等方案，助力企业抢占出海市场

回答 1

Data Science用户

发布于 2021-12-13 16:56:12

考虑到您使用的是回归决策树算法，您提到的所有问题都不值得关注。您应该能够成功地将回归决策树算法与原始数据相匹配。在使用基于树的模型时，没有理由对这些特性进行规范化或存储。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/34130

复制

SQL 时间查询

腾讯云开发者社区 sql

特殊说明：以上文章，均是我实际操作，写出来的笔记资料，不会盗用别人文章！烦请各位，请勿直接盗用！转载记得标注来源！

收心

2022/10/28

2.1K0

优化时间序列应用程序的数据查询

其他

原文地址：https://dzone.com/articles/optimizing-data-queries-for-time-series-applicatio

双愚

2018/06/04

9150

mysql慢查询优化方法_MySQL查询优化

sql 数据库云数据库 SQL Server https 网络安全

’mysql慢查询优化第一步：开启mysql慢查询日志，通过慢查询日志定位到执行较慢的SQL语句。第二步：利用explain关键字可以模拟优化器执行SQL查询语句，来分析SQL查询语句。第三步：通过查询的结果进行优化。

全栈程序员站长

2022/11/07

14.6K0

查询优化器概念—查询优化器介绍

sql 数据库

查询优化器（简称为优化器）是内置数据库软件，用于确定 SQL 语句访问请求数据的最有效方法。

Yunjie Ge

2022/04/24

1.2K0

SQL查询优化

sql 缓存

① 给合适的列建立索引，对于大表而言，如果查询的时候不走索引，那查询是非常慢的，查询复杂度为O（N）

用户1260737

2023/01/11

1.5K0

mysql查询优化

云数据库 SQL Server

很多传统型的公司的数据量都比较小，并且没有DBA这个岗位去对你开发项目中的sql进行一个最终的审核，导致开发的时候写了一些慢sql，数据量小的时候可能还好，一旦数据量上来了，查询效能极低，并且请求次数过多的话很可能会因为这一个慢sql把你整个系统拖垮，不能正常对外提供服务

炒香菇的书呆子

2022/04/14

1.3K0

MySQL查询优化

数据库 sql 云数据库 SQL Server

通过上述参数可以了解当前DB应用是插入更新为主还是查询为主，以及各类的SQL执行比例。

JavaEdge

2021/12/07

1.5K0

MySQL查询优化

数据库 sql 云数据库 SQL Server

通过上述参数可以了解当前DB应用是插入更新为主还是查询为主，以及各类的SQL执行比例。

JavaEdge

2021/10/18

1.6K0

Mongodb 查询优化

equality point range sort sticky

A good writeup of how your index should be created is available in Optimizing MongoDB Compound Indexes. Let's take the main point of the article, where the compound index ordering should be equality --> sort --> range:

乐事

2020/05/10

1.1K0

MySQL查询优化

云数据库 SQL Server 数据库 sql

一个好的web应用，最重要的一点是有着优秀的访问性能。数据库MySQL是web应用的组成部分，也是决定其性能的重要部分。所以提升MySQL的性能至关重要。

那一叶随风

2018/08/22

2K0

ClickHouse查询优化

云数据仓库 ClickHouse

ClickHouse是OLAP（Online analytical processing）数据库，以速度见长^clickhouse_bench。ClickHouse为什么能这么快？有两点原因^why_clickhouse_is_so_fast：

charmer

2022/11/14

2.2K0

MySQL 查询优化

云数据库 SQL Server 数据结构存储数据库

要知道为什么使用索引，要知道如何去使用好索引，使自己的查询达到最优性能，需要先了解索引的数据结构和磁盘的存取原理 1. 不使用顺序查找，因为顺序查找比较慢，通过特定数据结构的特点来提升查询速度，这种数

guanguans

2018/06/13

3.8K0

django 时间日期查询

python

1、gt：大于某个时间 now = datetime.datetime.now() #前一天 start = now – datetime.timedelta(hours=23, minutes=59, seconds=59) a=yourobject.objects .filter(youdatetimcolumn__gt=start) 2、gte：大于等于某个时间： a=yourobject.objects .filter(youdatetimcolumn__gte=start) 3、

kirin

2020/11/11

3.5K0

Oracle根据时间查询

编程算法

以下SQL，只会查询2021-01-01至2021-1-2 00:00:00的数据

鱼找水需要时间

2023/02/16

2.1K0

hudi时间旅行查询

flink commit

hudi每次数据写入时都会生成一个时间戳，用于表示数据写入的时间，基于该特性，在进行数据查询时可使用该时间对hudi中数据进行查询。

从大数据到人工智能

2022/08/30

1.3K0

sequlize 查询时间范围和多表查询

attributes email include model sequelize

前端传参时间范围如：createdAtFrom = '', createdAtTo = '' ，并且在后端接收参数后给的默认值 ''

用户4793865

2023/01/12

2.6K0

数据库查询优化技术（二）：子查询优化

数据库云数据库 SQL Server sql

对应的是限制条件(格式类似“field<op>consant”, field表示列对象,op是操作符如"="、">"等)。

sunonzj

2022/06/21

3.3K0

Mysql进阶优化篇06——分组查询优化、分页查询优化、覆盖索引

java innodb io mysql 索引

group by 使用索引的原则几乎跟 order by 一致，group by 即使没有过滤条件用到索引，也可以直接使用索引。

半旧518

2022/10/26

2K0

性能优化-子查询的优化

distinct join 优化

子查询是我们在开发过程中经常使用的一种方式，在通常情况下，需要把子查询优化为join查询但在优化是需要注意关联键是否有一对多的关系，要注意重复数据。

cwl_java

2020/02/13

1.7K0

es搜索优化&mysql查询优化

云数据库 SQL Server 数据库 sql 编程算法机器人

这周优化了我们沙抖官网搜索的功能，这个搜索目前是根据视频标题进行匹配，之前是对用户输入的关键词进行了分词查找，比如用户输入【机器人】,这样的话，只要视频标题中有关键词的任意一个字都会被搜到，比如含有【人】字的标题会展示出来，并可能排的很靠前，所以我就对当前的搜索进行了优化，现在搜索是优先进行相邻短语查询 match_phrase，如果相邻短语查询结果小于2个就进行普通的分词查询，这个相邻短语查询是要求在请求字符串中的所有查询项必须都在文档中存在，文中顺序也得和请求字符串一致，且彼此相连。这样查询的话，标题中含有【机器人】的结果肯定在前。

用户4945346

2020/06/16

1.5K0

相似问题

在magento2中应用主题

在magento2中创建主题

在magento2中添加新主题

231

安装Magento2主题

无法从后端安装magento2扩展。为什么？

活动推荐

腾讯特效SDK 2.5折起，优惠多多！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例