Caret -基于多个变量创建分层数据集_基于集合创建分区(数据分层)_如何使用基于给定数据集的函数创建分层直方图？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

机器学习-R-特征选择

使用Flow forecast进行时间序列预测和分类的迁移学习介绍

ImageNet首次发表于2009年，在接下来的四年里，它成为了大多数计算机视觉模型的基础。到目前为止，无论您是在训练一个模型来检测肺炎还是对汽车模型进行分类，您都可能从在ImageNet或其他大型(和一般图像)数据集上预先训练的模型开始。

ML Mastery 博客文章翻译（二）20220116 更新

Machine Learning Mastery 计算机视觉教程通道在前和通道在后图像格式的温和介绍深度学习在计算机视觉中的 9 个应用为 CNN 准备和扩充图像数据的最佳实践 8 本计算机视觉入门书籍卷积层在深度学习神经网络中是如何工作的？ DeepLearningAI 卷积神经网络课程（复习）如何在 Keras 中配置图像数据扩充如何从零开始为 CIFAR-10 照片分类开发 CNN 用于 Fashion-MNIST 服装分类的深度学习 CNN 如何为 MNIST 手写数字分类开发 CNN

R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口

假设我们需要设计一个抽样调查，有一个完整的框架，包含目标人群的信息（识别信息和辅助信息）。如果我们的样本设计是分层的，我们需要选择如何在总体中形成分层，以便从现有的辅助信息中获得最大的优势。

拓端tecdat|R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口|附代码数据

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

尽管用于生成图像的大模型已经成为计算机视觉和图形学的基础，但令人惊讶的是，分层内容生成或透明图像（是指图像的某些部分是透明的，允许背景或者其他图层的图像通过这些透明部分显示出来）生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉内容编辑软件和工作流程都是基于层的，严重依赖透明或分层元素来组合和创建内容。

ViT终于有挑战 MobileNet 的勇气了 | HSViT用更少的参数，干翻 MobileNet/EfficientNe！

Vision Transformer, 图像级特征嵌入, 水平扩展, 卷积神经网络, 计算机视觉需要对ViTs进行预训练，因为它们缺乏与卷积神经网络（CNNs）中存在的类似的归纳偏置。特别是，CNNs内在地结合了多种归纳偏置，使它们适合于计算机视觉（CV）任务，如平移不变性、空间局部性和层次化特征学习。

值得思考，机器学习模型做出的决策是你想要的吗？

区分预测模型和分类模型是很重要的一个事情。在很多决策应用中，分类模型代表着一个“不成熟”的决定，它组合了预测模型和决策制定，但剥夺了决策者对错误决定带来的损失的控制权 (如随机森林中的服从大多数原则，51棵树预测结果为患病49棵树预测结果为正常与91棵树预测结果为患病``9棵树预测结果为正常返回的结果都是患病)。如果采样标准或损失/收益规 (在预测疾病时，更看重敏感性而非假阳性)则发生改变，分类模型也需要相应的改变。而预测模型是与决策分开的，可用于任何决策制定。

R语言实现模型构建

1. 数据的分割。createDataPartition()对数据进行训练集和测试集的简单无放回分割；bootstrap samples()进行有放回的分组；createFolds()用于进行交叉验证的K分组；groupKFold()基于分组因子的交叉分组。其中times指的组数；list指的是否以列表形式输出。我们直接看下实例：

追番必备，动漫角色也可以用人脸识别了

自七十年代以来，人脸识别已经成为了计算机视觉和生物识别领域研究最多的主题之一。近年来，传统的人脸识别方法已经被基于卷积神经网络（CNN）的深度学习方法代替。目前，人脸识别技术广泛应用于安防、商业、金融、智慧自助终端、娱乐等各个领域。而在行业应用强烈需求的推动下，动漫媒体越来越受到关注，动漫人物的人脸识别也成为一个新的研究领域。

ggplot2--R语言宏基因组学统计分析(第四章)笔记

ggplot2可以用来创建优雅的图形，由于它的灵活，简洁和一致的接口，可以提供美丽、可直接用来发表的图形，吸引了许多用户，特别是科研领域的用户。ggplot2使用grid包来提供一系列的高水平的函数，并将其延伸为图形语法，即独立指定绘图组件，并将它们组合起来，以构建我们想要的任何图形显示。图形语法包含6个主要成分：data, transformations, element, scales, guide和 coordinate system。图层图形语法源于多层数据构建图形的想法。它定义了下表中的图形组分：data, aesthetic mappings, statistical transformations, geometric objects, position adjustment, scales, coordinate system 和 faceting（数据、几何映射、统计变换、几何对象、位置调整、比例、坐标和面）。数据、几何映射、统计变换、几何对象、位置调整形成一个图层，一个图可以有多个图层。

一套完整的基于随机森林的机器学习流程（特征选择、交叉验证、模型评估））

为了展示随机森林的操作，我们用一套早期的前列腺癌和癌旁基因表达芯片数据集，包含102个样品(50个正常，52个肿瘤)，2个分组和9021个变量 (基因)。（https://file.biolab.si/biolab/supp/bi-cancer/projections/info/prostata.html）

集成特征选择

集成特征选择是融合集成学习思想和特征选择方法，它结合了多个特征选择器的输出，通常可以提高性能，使得用户不必局限于选择单一的方法。简而言之：

干货收藏！Python完整代码带你一文看懂抽样

导读：抽样是从整体样本中通过一定的方法选择一部分样本。抽样是数据处理的基本步骤之一，也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

分类I-树、延迟和概率笔记

这个数据集和书中的略有区别，不过应该是包含的关系，这个数据的样本更多，应该不影响的。扩展：split函数完成训练和测试的划分

深度学习算法中的分层聚类网络（Hierarchical Clustering Networks）

随着深度学习算法的不断发展和应用，研究者们不断提出新的网络结构来解决各种问题。其中，分层聚类网络（Hierarchical Clustering Networks）是一种基于分层聚类思想的深度学习算法，能够有效地处理复杂的数据集和任务。本文将介绍分层聚类网络的基本原理、优势以及应用领域。

RayData数据可视化系列课程第二讲 ——常见的数据可视化图表类型

类似于折线图，但是用宽度相同的条形的高度或长短来表示数据多少的图形，条形图可以横置或纵置。

caret包进行机器学习

使用createDataPartition创建一系列测试/训练分区。输入为预测结果的一列，和用于训练的数据集比例，一般用四分之三来训练，四分之一来测试，即p = 0.75。

数据仓库分层架构深度讲解

我们在数仓项目的时候往往是需要将它分层的，但是为什么分层你真正的了解过吗，那它分层的好处又是什么呢。好我们今天就针对这个话题进行讲解。如果你还不了解数仓中的模型可以去看这篇（数仓模型设计详细讲解）,编写不易请给个一键三连。

MuRP | 双曲空间下知识图谱链路预测新方法

今天给大家介绍收录在NIPS2019的文章“Multi-relational Poincaré Graph Embeddings”，该文章由爱丁堡大学信息学院和剑桥三星AI中心合作完成。这篇文章提出了一种多关系庞加莱模型（MuRp），该模型将多关系图数据嵌入到双曲空间庞加莱球中，使得模型在低维链路预测的效果上，明显优于欧几里得空间中相关模型和现有的其他模型。

R代码|基于特征重要性的特征排序代码

https://setscholars.net/2019/10/25/how-to-rank-feature-with-importance-in-r-feature-selection-in-r/

Pandas DataFrame 中的自连接和交叉连接

在 SQL 中经常会使用JOIN操作来组合两个或多个表。有很多种不同种类的 JOINS操作，并且pandas 也提供了这些方式的实现来轻松组合 Series 或 DataFrame。

想要找到好工作，掌握这五类数据科学技能

也许你一直在学习数据科学，也熟读了一大堆教科书，但要获得数据科学相关的职位，你还需要向雇主展示自己的技能水平。最好的方式是作品集，你可以借此向雇主表明你所一直学习的技能能够用于工作中，为公司创造价值。要展示自身技能，这5种类型的数据科学项目可供参考：

预测建模常用的数据预处理方法

是金子总会发光，一个未经雕琢的数据，本身的价值也难以得到体现，通过数据预处理，可以让数据展现真正的价值；另外，不同的模型对数据有不同的要求，通过预处理可以让数据符合算法的要求，这样也能提高模型的预测能力。这就是数据预处理的重要作用！

R︱mlr包挑选最适机器学习模型+变量评估与选择（案例详解）

机器学习数据集的获取和测试集的构建方法

上一篇机器学习入门系列(2)--如何构建一个完整的机器学习项目(一)介绍了开始一个机器学习项目需要明确的问题，比如当前任务属于有监督还是无监督学习问题，然后性能指标需要选择什么，常用的分类和回归损失函数有哪些，以及实际开发中需要明确系统的输入输出接口问题。

LOG-LIO: 一种高效局部几何信息估计的激光雷达惯性里程计方法

文章：LOG-LIO: A LiDAR-Inertial Odometry with Efficient Local Geometric Information Estimation

R 交叉验证①

什么是交叉验证？在机器学习中，交叉验证是一种重新采样的方法，用于模型评估，以避免在同一数据集上测试模型。交叉验证的概念实际上很简单:我们可以将数据随机分为训练和测试数据集，而不是使用整个数据集来训练和测试相同的数据。交叉验证方法有几种类型LOOCV - leave -one- out交叉验证，holdout方法，k - fold交叉验证。 K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本，不重复的选取其中一个子样本作为测试集，其他K-1个样本用来训练。共重复K次，

单变量分析 — 简介和实施

作为一名数据科学家，当你收到一组新的、不熟悉的数据时，你会采取什么第一步？熟悉数据。

Python机器学习：适合新手的8个项目

教科书和课程会让你误以为精通，因为材料就在你面前。但当你尝试去应用它时，可能会发现它比看起来更难。而「项目」可帮助你快速提高应用的 ML 技能，同时让你有机会探索有趣的主题。

一文带你认清数据仓库【维度模型设计】与【分层架构】

本篇博客，博主为大家带来关于数仓项目中纬度模型设计与分层架构的一个说明。

（数据科学学习手札27）sklearn数据集分割方法汇总

一、简介　　在现实的机器学习任务中，我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练，以尽可能高的精度为目标，但这里便出现一个问题，一是很多情况下我们不能说搜集到的样本集就能代表真实的全体，其分布也不一定就与真实的全体相同，但是有一点很明确，样本集数量越大则其接近真实全体的可能性也就越大；二是很多算法容易发生过拟合（overfitting），即其过度学习到训练集中一些比较特别的情况，使得其误认为训练集之外的其他集合也适用于这些规则，这使得我们训练好的算法在输入训练数据进行验证时结果非常好，但在训练

如何优雅地设计数据分层

本文主要讲解数据仓库的一个重要环节：如何设计数据分层！其它关于数据仓库的内容可参考之前的文章。

CMU 研究人员提出 Deep Attentive VAE：第一个用于深度概率模型中变分推理的注意力驱动框架

数据是机器学习中必不可少的元素，了解它的分布方式至关重要。无监督方法使生成模型能够了解任何数据分布。他们可能会产生独特的数据样本，如假脸、图形艺术品和风景全景图。它们与其他模型结合使用，以用未观察到的信息补充观察到的数据集，以更好地定义创建感兴趣数据的技术。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐