开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何使用分类特征和非分类特征进行回归

回归是一种机器学习算法，用于预测连续型变量的值。在回归问题中，特征可以分为分类特征和非分类特征。

分类特征是指具有离散取值的特征，例如性别（男、女）、地区（东部、西部、南部、北部）等。在使用分类特征进行回归时，需要将其转换为数值型特征。一种常用的方法是独热编码（One-Hot Encoding），将每个分类特征的每个取值都转换为一个新的二进制特征。例如，对于性别特征，可以创建两个新的特征：男性和女性，取值为0或1，表示是否为该性别。

非分类特征是指具有连续取值的特征，例如年龄、收入等。在使用非分类特征进行回归时，可以直接使用原始特征的数值。

在回归问题中，可以使用各种算法来建立模型，例如线性回归、决策树回归、支持向量回归等。这些算法可以根据特征的类型（分类或非分类）进行选择和调整。

对于分类特征和非分类特征的回归问题，腾讯云提供了一系列适用的产品和服务：

数据处理和分析：腾讯云数据万象（https://cloud.tencent.com/product/ci）提供了丰富的图像和视频处理能力，可用于处理多媒体数据中的分类特征。
机器学习平台：腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）提供了强大的机器学习算法和模型训练能力，可用于回归问题中的特征处理和模型建立。
云数据库：腾讯云数据库（https://cloud.tencent.com/product/cdb）提供了高性能、可扩展的数据库服务，可用于存储和管理回归问题中的数据。
云服务器：腾讯云云服务器（https://cloud.tencent.com/product/cvm）提供了可靠的计算资源，可用于运行回归问题中的算法和模型。
云安全：腾讯云安全产品（https://cloud.tencent.com/product/saf）提供了全面的网络安全解决方案，可保护回归问题中的数据和模型的安全性。

通过使用腾讯云的产品和服务，可以方便地处理和分析分类特征和非分类特征，并建立高效准确的回归模型。

相关搜索:使用分类特征构建回归使用scikit进行特征选择-学习分类特征使用图像和其他特征进行分类具有分类特征的线性回归分析特征选择和分类变量使用tensorflow分类进行特征提取对同时具有连续和分类特征的数据进行特征选择？云服务器分类和特征 R:如何使用分类特征和数字特征来度量差异特征选择与选择的回归/分类模型无关吗？使用多个特征训练sklearn分类器 Pytorch:使用nn.Embedding对分类特征进行编码如何实现分类变量的特征选择？使用回归代替分类进行多类分类如何根据编码后的分类特征生成分类器？scikit-学习线性回归中的分类(但数字)特征如何将动作相关特征(ADF)从分类特征转换为连续/离散特征？如何使用逻辑回归进行递归特征消除？关于使用pandas的分类特征的问题分类和聚类的特征之间的关系

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为数据|附代码数据

最近我们被客户要求撰写关于电商购物网站的用户行为的研究报告，包括一些图形和统计输出。

00

第七章 Logistic 回归

蓝色：加入新的训练集后，之前拟合的线性函数，显然适用于新的数据集。但是，此时我们因为新的数据集的加入，拟合出一个新的线性函数（蓝色），此时，若还用 0.5 作为阈值，那么分类结果就不那么理想了。

05

用Python进行速度预测

这次分享一段数据特征挖掘准备工作的套路~ 数据格式是这样的： 📷 task 预测值：速度特征值： Region 区域 Length 长度Volume 流量 Median 中央分隔形式 Separator 机非分隔形式 CrossingO 路段起点行人过街形式 CrossingD 路段终点行人过街形式 Access 接入口数量数字型变量有length，volume，出入口数量类别型变量有地区，中央分隔带，机非分隔带，路段开始和结束处的行人过街方式框架单变量研究多变量研究数据

09

人工智能算法总结

可以分为监督学习（Supervised Learning），无监督学习（Unsupervised Learning）、半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）四大类。

02

最全推荐系统传统算法合集

我花了半个多月将推荐系统传统算法分别进行了总结归纳，应该时目前全网最全的版本了。希望对大家了解推荐系统传统算法有所帮助。

03

推荐算法背后的机器学习技术

机器学习是一种利用统计和其他数学理论给予计算机学习能力的方法。机器学习和统计其实都有相同的目标：从数据中学习知识。但是具体的手段和理念有所不同。机器学习是计算机科学的一个分支，侧重的是从数据中建立有机的系统，而不是用目的很明显的规则去编程。而统计学是数学的一个分支，侧重的是用数学公式建立变量之间的联系。近年来，随着计算机硬件成本的不断降低和数据量的极大增加，数据科学家得以充分利用机器学习手段来分析和挖掘数据。另一方面，统计建模技术则早在计算机问世前就已经存在。

03

连接组学表征的新进展

近年来，利用静息状态功能性MRI对人类连接组(即人类大脑中的所有连接)的研究迅速普及，特别是随着大规模神经成像数据集的日益可用性。这篇综述文章的目的是描述自2013年神经影像特刊《连接组图谱》以来，功能连接组表征在过去8年里出现的创新。在这一时期，研究已从群体层面的大脑分区化转向个性化连接组的表征以及个体连接组差异与行为/临床变异之间的关系。在分区边界中实现特定个体的准确性，同时保持跨个体通信是一项挑战，目前正在开发各种不同的方法来应对这一挑战，包括改进的对齐、改进的降噪和稳健的群体到个体映射方法。除了对个性化连接组的兴趣之外，人们正在研究数据的新表示，以补充传统的分区连接组表示(即，不同大脑区域之间的成对连接)，例如捕捉重叠和平滑变化的连接模式(梯度)的方法。这些不同的连接组表征为大脑固有的功能组织提供了有益的见解，但功能连接组的研究仍然面临挑战。未来的研究将进一步提高可解释性，以深入了解功能MRI所获得的连接组观察的神经机制。还需要进行比较不同连接组表征的验证研究，以建立共识和信心，继续进行临床试验，这些临床试验可能产生有意义的连接组研究转化。

02

一个真实数据集的完整机器学习解决方案（上）

我们到底应该怎么学会、灵活使用机器学习的方法？技术宅做过小小的调研，许多同学会选择一本机器学习的书籍，或是一门机器学习的课程来系统性地学习。而在学完书本、课程后，并不清楚如何将这些理论、技术应用到实际的项目流程中。

01

数据科学经验谈：这三点你在书里找不到

我真的不是在说这些课程的坏话。我在大学教了很多年的机器学习，教的东西始终都围绕着那些非常具体的算法模型。你可能非常了解支持向量机，高斯混合模型， K-均值聚类等等，但是只有当你开始准备硕士论文的时候，你才真的学会了如何正确的处理数据。

03

[计算机视觉论文速递] 2018-06-06

这篇文章有4篇论文速递信息，涉及目标跟踪、GAN、Zero-Shot Learning、视频分类和行人重识别等方向（含一篇IJCAI 2018和一篇IROS 2018 submission ）。

02

大数据科研解决方案「建议收藏」

第一章建设背景 1.1 国家政策  2017年1月工业和信息化部正式发布了《大数据产业发展规划（2016－2020年）》，明确了“十三五”时期大数据产业的发展思路、原则和目标，将引导大数据产业持续健康发展，有力支撑制造强国和网络强国建设。  2018年9月工信部公示“2018年大数据产业发展试点示范项目名单”，公布了包括大数据存储管理、大数据分析挖掘、大数据安全保障、产业创新大数据应用、跨行业大数据融合应用、民生服务大数据应用、大数据测试评估、大数据重点标准研制及应用、政务数据共享开放平台及公共数据共享开放平台等10个方向200个项目。  2019年11月为进一步落实《国务院关于印发促进大数据发展行动纲要的通知》和《大数据产业发展规划（2016~2020年）》，推进实施国家大数据战略，务实推动大数据技术、产业创新发展，我国工业和信息化部将组织开展2020年大数据产业发展试点示范项目申报工作。 1.2 发展趋势据IDC分析报道，中国互联网企业，到电信、金融、政府这样的传统行业，都开始采用各种大数据和分析技术，开始了自己的大数据实践之旅;应用场景也在逐渐拓展，从结构化数据的分析，发展到半结构化、非结构化数据的分析，尤其是社交媒体信息分析受到用户的更多关注。用户们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。当今大数据一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。面向数据分析市场的新产品、新技术、新服务、新业态正在不断涌现，从个人、学院、企业到国家层面，都把数据作为一种重要的战略资产，逐渐认识到了数据的价值，不同程度地渗透到每个行业领域和部门，随着大数据行业应用需求日益增长，未来越来越多的研究和应用领域将需要使用大数据技术，大数据技术将渗透到每个涉及到大规模数据和复杂计算的应用领域。 1.3 建设必要性将大数据运用于教学与科研是一种趋势，目前各高校都在寻找符合自身特点的大数据应用开发模式，各学校的平台根据自身学科发展的方向基于大数据平台面向政府、企业、高校、社会提供服务。通过对遍布教、学、研多层面的数据进行整合，并结合对大数据技术的有效利用，可以从根本上给教育、科研带来全方位的提升。通过大数据平台技术的应用，可以帮助学生改善学习效率，提供符合职业规划的个性化学习服务；同时也有助于教育和科研机构加快提升科研成果和提高教育质量，培养更多更优秀的创新性人才。数据挖掘和大数据分析是多学科交叉产物，其涉及统计学、计算机网络、数据库、机器学习、人工智能以及模式识别等多种学科领域。目前，在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括：计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。这些专业在使用大数据挖掘与分析平台时的侧重点各不相同，使用人员层次水平也不相同，对算法的使用也不相同，因此，需要建设一个便利、操作简易、算法全面、可视化的综合平台是非常有必要的。大数据挖掘与分析平台能够满足学校长期稳定、饱满的实践教学或科研等任务，适应学科专业建设和实训、科研及社会服务的需要。第二章建设目标 2.1 帮助师生进行科研活动大数据挖掘与分析平台建设项目，可辅助教师与学生在科研项目方面的研究工作，从数据分析、数据挖掘和场景应用的可视化等多方面多环节，降低数据挖掘学习门槛，提升师生数据挖掘能力。 2.2 提高学生的实践能力大数据分析目前是各大企业、政府、事业单位进行的一项工作内容，同时这种应用随着时间的推移将更加广泛。平台的建立就是为培养这样的人才所做的必要准备，将会对提高学生的社会调查研究实践能力、数据分析能力具有显著帮助，同时提高学生自身在就业中的竞争优势和就业后对社会的服务水平。 2.3 促进重点学科和品牌专业建设大数据挖掘与分析平台建设项目，依托具有品牌专业的学科专业而建设，随着统计理论的发展，统计方法已经成为各个领域不可缺少的方法论。它的建设不仅对相关专业的未来发展有着重大的意义，同时也将大大促进学科特色优势学科的深化发展。提升学校知名度、美誉度和科研能力。第三章大数据挖掘与分析平台 3.1 整体介绍 3.1.1 产品概述红亚科技大数据挖掘与分析平台是一款集数据接入、数据处理、数据挖掘、数据可视化、数据应用于一体的软件产品。它秉持“智能、互动、增值”的设计理念，面向高校用户提供自助式数据探索与分析能力，帮助用户快速发现数据意义与价值。平台包括可视化探索、深度分析两大模块。可视化探索模块：提供拖拽式的操作，让用户能够随时更改观察数据的维度、指标，将数据以丰富的图表方式，进行迅速、直观的表达，同时借助联动、钻取、链接等交互操作，

01

scikit-learn的核心用法

Scikit-learn是基于NumPy、 SciPy和 Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了，scikit-learn简称sklearn，在 Sklearn 里面有六大任务模块：分别是分类、回归、聚类、降维、模型选择和预处理，此外还有一个数据引入模块。

02

【数据科学】数据科学经验谈：这三点你在书里找不到

什么样的处理才算是正确的处理呢？为了目的不择手段？只要得到好的预测性能就万事大吉？事实确实如此，但是这么做的关键在于，你能确保未知数据也能有个不错的表现。就像我经常说的那样，你很容易就会受到它的蒙蔽，在分析训练结果的时候，轻易地就相信了你选择的方法。以下三点很重要。 1.模型评价是关键数据分析/机器学习/数据科学（或任何你能想到的领域）的主要目标，就是建立一个系统，要求它在预测未知数据上有良好的表现。区分监督学习（像分类）和无监督学习（如聚合）其实没有太大的意义，因为无论如何你总会找到办法来构建和设计你

XGBoost中的参数介绍

在运行XGBoost之前，必须设置三种类型的参数：通用参数、提升器参数和学习任务参数。

01

[计算机视觉论文速递] 2018-03-20

通知：这篇推文有13篇论文速递信息，涉及图像分割、SLAM、显著性、深度估计、车辆计数等方向往期回顾 [计算机视觉] 入门学习资料 [计算机视觉论文速递] 2018-03-18 [计算机视觉论文速递] 2018-03-16 图像分割 [1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation》 Abstract：我们提出了一种具有分层分

08

【数据科学】数据科学书上很少提及的三点经验

【编者按】本文作者指出了关于数据科学书上很少提及的三点经验：模型评价方法是关键，特征提取是根本，模型选择而非数据集规模最费时间。文章指出，处理上万维的特征和几十万的样本的现代算法是愚蠢的，而特征工程理论还不完善，更像是一门艺术。这是数据科学大行其道的时代。各类课程、博客、培训学校如雨后春笋般出现。然而，每次我浏览这些学习资料时，我发现它们过于强调一些具体的算法。理解逻辑回归或者深度学习的原理当然很酷，可是一旦从事数据相关工作，你会发现还有其它一些同样重要的事情，甚至更为重要的。我真不应该去责备这些课程。

关于数据科学，书上不曾提及的三点经验

【编者按】本文作者指出了关于数据科学书上很少提及的三点经验：模型评价方法是关键，特征提取是根本，模型选择而非数据集规模最费时间。文章指出，处理上万维的特征和几十万的样本的现代算法是愚蠢的，而特征工程理论还不完善，更像是一门艺术。这是数据科学大行其道的时代。各类课程、博客、培训学校如雨后春笋般出现。然而，每次我浏览这些学习资料时，我发现它们过于强调一些具体的算法。理解逻辑回归或者深度学习的原理当然很酷，可是一旦从事数据相关工作，你会发现还有其它一些同样重要的事情，甚至更为重要的。我真不应该去责备这些课程。

02

关于数据科学，书上不曾提及的三点经验

【编者按】本文作者指出了关于数据科学书上很少提及的三点经验：模型评价方法是关键，特征提取是根本，模型选择而非数据集规模最费时间。文章指出，处理上万维的特征和几十万的样本的现代算法是愚蠢的，而特征工程理论还不完善，更像是一门艺术。这是数据科学大行其道的时代。各类课程、博客、培训学校如雨后春笋般出现。然而，每次我浏览这些学习资料时，我发现它们过于强调一些具体的算法。理解逻辑回归或者深度学习的原理当然很酷，可是一旦从事数据相关工作，你会发现还有其它一些同样重要的事情，甚至更为重要的。我真不应该去责备这些课程。

07

北大 & 中科大提出 PlainMamba | 即插即用，保持高性能的同时大大减少计算量 !

开发高性能的视觉编码器一直是计算机视觉领域最重要的目标之一。借助高质量的视觉特征，一系列下游任务，如语义分割、物体识别和检测，都可以相对容易地解决。

01

【数据科学】数据科学书上很少提及的三点经验

这是数据科学大行其道的时代。各类课程、博客、培训学校如雨后春笋般出现。然而，每次我浏览这些学习资料时，我发现它们过于强调一些具体的算法。理解逻辑回归或者深度学习的原理当然很酷，可是一旦从事数据相关工作，你会发现还有其它一些同样重要的事情，甚至更为重要的。我真不应该去责备这些课程。我在大学任教机器学习课程很多年了，课堂上主要是讲解具体算法。你掌握了支持向量机（SVM）、高斯混合模型（GMM）、k均值（k-Means）聚类等算法的细枝末节，但是直到写硕士论文的时候才学会如何正确地处理数据。那么何谓正确？最终

06

深度牛顿！24岁博士小哥用图神经网络重新发现宇宙

19岁时，Miles Cranmer读了一篇物理学家李 · 斯莫林的采访。其中的一句话改变了他整个职业生涯的研究方向：

02

【ICLR2022】分布外泛化的不确定性建模

来源：专知本文约1000字，建议阅读5分钟对特征统计量(均值和标准差)进行适当的操作，以提高深度学习模型的泛化能力。尽管深度神经网络在各种视觉任务中取得了显著的进展，但在非分布场景下测试时，其性能仍存在明显的下降。我们认为可以对特征统计量(均值和标准差)进行适当的操作，以提高深度学习模型的泛化能力。常用的方法往往把特征统计量看作是由学习到的特征量测量出来的确定性值，而没有明确考虑测试过程中可能发生的域转移所引起的不确定性统计差异。在训练过程中，利用综合特征统计量对域转移的不确定性进行建模，提高了网络的泛

04

BERT是图像预训练未来？字节跳动iBOT刷新十几项SOTA，部分指标超MAE

这个新方法在十几类任务和数据集上刷新了 SOTA 结果，在一些指标上甚至超过了 MAE。

02

数据科学教材没有教给你的三件事

有问题直接微信我吧！大家好，PPV课大数据微信开通了人工客服，大家有问题可以在工作时间：9：00-18:00直接通过微信与客服联系！如果你还没有听说的话，那么我告诉你，数据科学简直太疯狂了。相关的

04

图解机器学习 | XGBoost模型详解

教程地址：http://www.showmeai.tech/tutorials/34

09

【机器学习】迭代决策树GBRT

一、决策树模型组合单决策树C4.5由于功能太简单，并且非常容易出现过拟合的现象，于是引申出了许多变种决策树，就是将单决策树进行模型组合，形成多决策树，比较典型的就是迭代决策树GBRT和随机森林RF。在最近几年的paper上，如iccv这种重量级会议，iccv 09年的里面有不少文章都是与Boosting和随机森林相关的。模型组合+决策树相关算法有两种比较基本的形式：随机森林RF与GBDT，其他比较新的模型组合+决策树算法都是来自这两种算法的延伸。核心思想：其实很多“渐进梯度”

06

【机器学习】迭代决策树GBRT

一、决策树模型组合单决策树C4.5由于功能太简单，并且非常容易出现过拟合的现象，于是引申出了许多变种决策树，就是将单决策树进行模型组合，形成多决策树，比较典型的就是迭代决策树GBRT和随机森林RF。在最近几年的paper上，如iccv这种重量级会议，iccv 09年的里面有不少文章都是与Boosting和随机森林相关的。模型组合+决策树相关算法有两种比较基本的形式：随机森林RF与GBDT，其他比较新的模型组合+决策树算法都是来自这两种算法的延伸。核心思想：其实很多“渐进梯度”Gr

04

生命可以用更少的氨基酸编码蛋白质吗？

蛋白质是生命活动的主要承担者，生命进化最终都会体现在蛋白质的功能的多样化上。蛋白质是由20种氨基酸编码的，相比于ATGC的DNA遗传编码信息，氨基酸字母表显示出极大地复杂性和多样性。这就产生了一系列非常有趣的问题：生命为什么会选择20种氨基酸作为标准字母表？更少的氨基酸能否组成或满足一个蛋白质执行功能的基本组成单元？我们能否用更少的氨基酸创造出摆脱当前遗传法则，设计更为独特的生命？

01

生命可以用更少的氨基酸编码蛋白质吗？

蛋白质是生命活动的主要承担者，生命进化最终都会体现在蛋白质功能的多样化上。蛋白质是由20种氨基酸编码的，相比于ATGC的DNA遗传编码信息，氨基酸字母表显示出极大地复杂性和多样性。

02

SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为数据

假如你有一个购物类的网站，那么你如何给你的客户来推荐产品呢？这个功能在很多电商类网站都有，那么，通过SQL Server Analysis Services的数据挖掘功能，你也可以轻松的来构建类似的功能。

01

卷积神经网络(CNN)基础介绍

本文是对卷积神经网络的基础进行介绍，主要内容包括卷积神经网络概念、卷积神经网络结构、卷积神经网络求解、卷积神经网络LeNet-5结构分析、卷积神经网络注意事项。

02

逻辑回归 + GBDT模型融合实战！

协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型，该模型利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当做LR模型的输入，来产生最后的预测结果，该模型能够综合利用用户、物品和上下文等多种不同的特征，生成较为全面的推荐结果，在CTR点击率预估场景下使用较为广泛。

04

Logistic 回归为什么适用于二分类问题？

Logistic 回归非常适用于二分类问题的主要原因在于它的核心机制和输出特性。首先，Logistic 回归模型基于概率的理念，通过 Sigmoid 函数转换输入特征的线性组合，将任意实数映射到 [0, 1] 区间内。这样的输出可以解释为预测某个类别的概率，是处理二分类问题的理想选择。因为它自然地将预测值限制在两个可能的类别之间。

00

一文介绍回归和分类的本质区别！！

本文将从回归和分类的本质、回归和分类的原理、回归和分类的算法三个方面，详细介绍回归和分类（Regression And Classification）。

01

逻辑回归优化技巧总结（全）

逻辑回归是简单的广义线性模型，模型的拟合能力很有限，无法学习到特征间交互的非线性信息：一个经典的示例是LR无法正确分类非线性的XOR数据，而通过引入非线性的特征（特征生成），可在更高维特征空间实现XOR线性可分，如下示例代码：

02

机器学习算法系列(一)：logistic回归

定义：X是连续随机变量，X服从logistic分布，则X具有下列的分布函数和密度函数：

03

博客 | 机器学习算法系列(一)：logistic回归

定义：X是连续随机变量，X服从logistic分布，则X具有下列的分布函数和密度函数：

02

逻辑回归（LR）个人学习总结篇

线性模型LR(没有考虑特征间的关联)——>LR +多项式模型（特征组合，不适用于特征稀疏场景，泛化能力弱）——>FM（适用于稀疏特征场景*，泛化能力强）——>FFM【省去零值特征，提高FFM模型训练和预测的速度，这也是稀疏样本采用FFM的显著优势】

03

逻辑回归（LR）个人学习总结篇

逻辑回归（LR,Logistic Regression）是传统机器学习中的一种分类模型，由于LR算法具有简单、高效、易于并行且在线学习（动态扩展）的特点，在工业界具有非常广泛的应用。

04

人脸识别技术大总结1——Face Detection &Alignment

搞了一年人脸识别，寻思着记录点什么，于是想写这么个系列，介绍人脸识别的四大块：Face detection, alignment, verification and identification(recognization)，本别代表从一张图中识别出人脸位置，把人脸上的特征点定位，人脸校验和人脸识别。（后两者的区别在于，人脸校验是要给你两张脸问你是不是同一个人，人脸识别是给你一张脸和一个库问你这张脸是库里的谁。今天先介绍第一部分和第二部分。主要说三篇顶会文章。 =====================

05

【机器学习】GBDT 与 LR 的区别总结

本质上来说，他们都是监督学习，判别模型，直接对数据的分布建模，不尝试挖据隐含变量，这些方面是大体相同的。但是又因为一个是线性模型，一个是非线性模型，因此其具体模型的结构导致了VC维的不同：其中，Logistic Regression作为线性分类器，它的VC维是d+1，而 GBDT 作为boosting模型，可以无限分裂，具有无限逼近样本VC维的特点，因此其VC维远远大于d+1，这都是由于其线性分类器的特征决定的，归结起来，是Logistic Regression对数据线性可分的假设导致的

05

GBDT 与 LR 区别总结

本质上来说，他们都是监督学习，判别模型，直接对数据的分布建模，不尝试挖据隐含变量，这些方面是大体相同的。但是又因为一个是线性模型，一个是非线性模型，因此其具体模型的结构导致了VC维的不同：其中，Logistic Regression作为线性分类器，它的VC维是d+1，而 GBDT 作为boosting模型，可以无限分裂，具有无限逼近样本VC维的特点，因此其VC维远远大于d+1，这都是由于其线性分类器的特征决定的，归结起来，是Logistic Regression对数据线性可分的假设导致的

02

数据挖掘知识点串烧：逻辑回归

关于作者：DD-Kylin，一名喜欢编程与机器学习的统计学学生，勤学好问，乐于钻研，期待跟大家多多探讨机器学习的相关内容~

03

OpenImage冠军方案：在物体检测中为分类和回归任务使用各自独立的特征图

这篇文章来自商汤科技，是OpenImage竞赛的冠军方案，本文对物体检测中的分类和回归任务的冲突问题进行了重新的审视，并给出了一个为不同任务分别生成特征图的方案，取得了很好的效果。

03

机器学习--决策树算法(CART)

我们知道，在ID3算法中我们使用了信息增益来选择特征，信息增益大的优先选择。在C4.5算法中，采用了信息增益比来选择特征，以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的，这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢？有！CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。

02

机器学习入门 9-5 决策边界

本系列是《玩转机器学习教程》一个整理的视频笔记。本小节介绍对于分类问题非常重要的决策边界，先对逻辑回归求出决策边界的函数表达式并绘制，但是对于像kNN这种不能求出决策边界表达式的可以通过预测样本特征平面中区间范围内的所有样本点来绘制决策边界。最后通过调整kNN算法的k值，了解模型的复杂与简单对应的决策边界不同。

02

目标检测算法SSD结构详解

我们知道之前学的RCNN系列需要选取候选框和分类回归两步操作，称为Two-Stage类算法。今天我们学习一种新的目标检测算法SSD(Single Shot MultiBox Detector)，该算法属于One-Stage类算法范畴。首先我们先看一下One-Stage和Two-Stage类算法到底有哪些区别。

03

机器学习面试干货精讲

本内容涉及模型核心数学公式，把本人面试中常被问到问题以及模型知识点的总结，起到提纲挈领作用，在准备的过程中抓住每个模型的重点。

02

关于逻辑回归，面试官都怎么问

最近准备开始如同考研一般的秋招复习了！感觉要复习的东西真的是浩如烟海;) 有2023届做算法的同学可以加入我们一起复习~

02

基于Fast R-CNN的FPN实现方式及代码实现细节(未完待续)

基于传统的方法，先要进行区域建议的生成，然后对每个区域进行手工特征的设计和提取，然后送入分类器。在Alexnet出现后，CNN的性能比较好，不但可以学习手工特征还有分类器和回归器。CNN主要用来提取特征，SS提取出的最小外接矩形可能不精准，这样的话就需要Bounding Box回归对区域的位置进行校正。输入图片SS算法算法生成区域，然后到原图里面截取相应的区域，截出的区域做了稍微的膨胀，把框稍微放松一点，以保证所有物体的信息都能进来，然后做一下尺寸的归一化，把尺寸变成CNN网络可接受的尺寸，这样的话送到所有的CNN网络，这个CNN是Alexnet，然后对每个区域分别做识别得到了人的标签，和传统方法相比这里是用CNN提取特征。

00

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭