哪两个值最常出现在每个类别中？_获取SQL中每个类别的值的最大值(Oracle)_Numpy从另一列中查找每个值最常见的项目 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

【计算机视觉】检测与分割详解

【导读】神经网络在计算机视觉领域有着广泛的应用。只要稍加变形，同样的工具和技术就可以有效地应用于广泛的任务。在本文中，我们将介绍其中的几个应用程序和方法，包括语义分割、分类与定位、目标检测、实例分割。

01

为什么独热编码会引起维度诅咒以及避免他的几个办法

特征工程是数据科学模型开发的重要组成部分之一。数据科学家把大部分时间花在数据处理和特征工程上，以便训练一个鲁棒模型。数据集由各种类型的特征组成，包括类别、数字、文本、日期时间等。

01

您找到你想要的搜索结果了吗？

是的

没有找到

用自定义素材组合生成艺术NFT

像Cryptopunks[4]和Bored Ape Yacht Club[5]这样的知名 NFT 项目已经创造了数亿美元的收入，并使其所有者成为百万富翁。

06

RS(2)--从文本数据到用户画像

用户画像其实就是从海量的用户数据中，建模抽象出来每个用户的属性标签体系，这些属性通常需要具有一定的商业价值。

01

常见面试算法：朴素贝叶斯

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后，我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。

02

计算与推断思维六、可视化

表格是一种组织和可视化数据的强大方式。然而，无论数据如何组织，数字的大型表格可能难以解释。有时解释图片比数字容易得多。

02

数据分析小白必看，一种通用的数据分析思路

数据分析是一个庞大的工程，有的时候过于抽象且依赖经验。本文是笔者对学习和实践数据分析的一个总结，希望提供一种通用的数据分析思路，并在分析思路的每个步骤中介绍相关的分析算法及其应用场景，对于算法只做浅层次的介绍，待读者在实际使用中自行深入了解。

04

浅谈Entity Embedding

现实生活或者比赛中，我们会经常见到表格数据，其中包含了各种类别特征。本文将简单介绍利用神经网络来表示类别特征的方法-Entity Embedding，这个方法首先出现在kaggle上的《Rossmann Store Sales》中的rank 3的解决方案，作者在比赛完后为此方法整理一篇论文放在了arXiv，文章名：《Entity Embeddings of Categorical Variables》。

02

【机器学习实战】第4章基于概率论的分类方法：朴素贝叶斯

文章主要介绍了如何利用机器学习算法对RSS源进行分类和过滤。首先介绍了RSS源的分类和过滤的必要性，然后详细介绍了基于机器学习算法的RSS源过滤方法，包括特征提取、模型训练和过滤策略等。最后，介绍了一个基于机器学习算法的RSS源过滤系统的设计与实现。

高中就开始学的正态分布，原来如此重要

机器学习的世界是以概率分布为中心的，而概率分布的核心是正态分布。本文说明了什么是正态分布，以及为什么正态分布的使用如此广泛，尤其是对数据科学家和机器学习专家来说。

02

高中就开始学的正态分布，原来如此重要

机器学习的世界是以概率分布为中心的，而概率分布的核心是正态分布。本文说明了什么是正态分布，以及为什么正态分布的使用如此广泛，尤其是对数据科学家和机器学习专家来说。

02

高中就开始学的正态分布，原来如此重要

我们从高中就开始学正态分布，现在做数据分析、机器学习还是离不开它，那你有没有想过正态分布有什么特别之处？为什么那么多关于数据科学和机器学习的文章都围绕正态分布展开？本文作者专门写了一篇文章，试着用易于理解的方式阐明正态分布的概念。

03

评估方法详解

模型评价是指对于已经建立的一个或多个模型，根据其模型的类别，使用不同的指标评价其性能优劣的过程。常用的聚类模型评价指标有ARI评价法（兰德系数）、AMI评价法（互信息）、V-measure评分、FMI评价法和轮廓系数等。常用的分类模型评价指标有准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1值（F1 Value）、ROC和AUC等。常用的回归模型评价指标有平均绝对误差、均方根误差、中值绝对误差和可解释方差值等。

03

详解基于内容的推荐算法

本文介绍的将会是推荐系统最古老的算法：基于内容的推荐算法（Content-Based Recommendations CB）。

04

【技术综述】视频分类/行为识别研究综述，从数据集到方法

视频分类/行为识别是计算机视觉领域中非常有挑战性的课题，因为其不仅仅要分析目标体的空间信息，还要分析时间维度上的信息，如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集，技术进展从传统特征法到深度学习中的3DCNN，LSTM，Two-Stream等。

04

《美团机器学习实践》第二章特征工程

从数学角度讲，特征工程就是将原始数据空间变换到新的特征空间，或者说是换一种数据的表达方式，在新的特征空间中，模型能够更好地学习数据的规律。

03

主题数据区的设计

关于主题数据区的设计，首先需要明确的是按照什么对数据进行归类。大的原则，当然还是按照业务来分类，但是分类的出发点不同，划分的类别也不相同。例如针对机场数据，可以从业务特征分类，那么可以分为运行保障、旅客服务、航班资源等；如果按照功能区分类，则可以分为空侧、陆侧、航站楼侧等。

03

[机器学习算法]聚类学习

在无监督学习中unsupervised learning中，训练样本的标记信息是未知的，其目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。而此类学习任务中应用最广、研究最多的即聚类clustering。以通俗的语言讲解，聚类学习将数据集中的样本分成若干个互不相交的子集（称为簇cluster）。保持簇内差异尽可能小而簇间差异尽可能大我们就可以将每个簇映射到一些潜在的类别。

03

行为统计学第二章知识总结（未完）

如何将数据组织成某些可理解的形式，使得他可以比较容易地发现数据的趋势，并与其他人交流，这就是描述性统计的任务：简化结构并整理组织数据。整理一组数据的最常用过程是将数据放入一个频数分布。

01

资源 | 1460万个目标检测边界框：谷歌开源Open Images V4数据集

这些边界框大部分由专业的标注人员手工绘制，以确保准确性和一致性。数据集中的图像非常多样化，通常包含存在多个目标的复杂场景（平均每张图像 8.4 个）。此外，数据集用逾数千个类别的图像级标签进行标注。

03

Pandas数据可视化

pandas库是Python数据分析的核心库它不仅可以加载和转换数据，还可以做更多的事情：它还可以可视化 pandas绘图API简单易用，是pandas流行的重要原因之一

01

《机器学习》-- 第九章聚类

聚类是一种经典的无监督学习(unsupervised learning)方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律，即不依赖于训练数据集的类标记信息。

01

如何用NumPy搭建卷积神经网络实现手写数字识别（附代码）

当Yann LeCun发表了他关于开发一种新型神经网络架构——卷积神经网络(Convolutional neural network, CNN)——的研究成果时，他的工作基本上没有引起注意。在2012年的ImageNet计算机视觉大赛上，来自多伦多大学的一组研究人员花了14年的时间将CNN引入公众视野。当他们从数千个类别的中对数百万张图片进行分类时，只产生了15.8%的错误。快进到现在，当前最先进的卷积神经网络实现的精度超过人类水平的性能。

01

TF-IDF算法（1）—算法概述

假设现在有一篇很长的文章，要从中提取出它的关键字，完全不人工干预，那么怎么做到呢？又有如如何判断两篇文章的相似性的这类问题，这是在数据挖掘，信息检索中经常遇到的问题，然而TF-IDF算法就可以解决。这两天因为要用到这个算法，就先学习了解一下。

02

推荐系统遇上深度学习(九)--评价指标AUC原理及实践

CTR问题我们有两种角度去理解，一种是分类的角度，即将点击和未点击作为两种类别。另一种是回归的角度，将点击和未点击作为回归的值。不管是分类问题还是回归问题，一般在预估的时候都是得到一个[0,1]之间的概率值，代表点击的可能性的大小。

01

Plos Comput Biol: 降维分析中的十个重要tips!

Journal: PLOS COMPUT BIOL Published: June20,2019 Link: https://journals.plos.org/ploscompbiol/arti

04

一起学Elasticsearch系列-搜索推荐

我们在进行搜索的时候，一般都会要求具有“搜索推荐”或者叫“搜索补全”的功能，即在用户输入搜索的过程中，进行自动补全或者纠错，以此来提高搜索文档的匹配精准度，进而提升用户的搜索体验，这就是Suggest。

02

颜色系(color palette)是什么？一文带你掌握全部用法！

颜色的选择是创建有效图表的主要因素。一组好的颜色将突出您希望数据讲述的故事，糟糕的颜色会隐藏或分散可视化数据的目的。

01

从基础到 RNN 和 LSTM，NLP 取得的进展都有哪些？

本文基于 NLP 的基础知识，全方位介绍了 NLP 随着深度学习和神经网络的应用所取得的进展。

02

odoo Actions学习总结

action可以存储在数据库中，也可以作为字典直接返回，例如按钮方法。所有Action都有两个强制属性：

03

【干货】7种最常用的机器学习算法衡量指标

【导读】你可能在你的机器学习研究或项目中使用分类精度、均方误差这些方法衡量模型的性能。当然，在进行实验的时候，一种或两种衡量指标并不能说明一个模型的好坏，因此我们需要了解常用的几种机器学习算法衡量指标

06

python机器学习实战（三）

这篇博客是关于机器学习中基于概率论的分类方法--朴素贝叶斯，内容包括朴素贝叶斯分类器，垃圾邮件的分类，解析RSS源数据以及用朴素贝叶斯来分析不同地区的态度.

02

python机器学习实战（三）

原文链接：www.cnblogs.com/fydeblog/p/7277205.html

00

详解对象检测网络性能评价指标mAP计算

上次我写了一篇关于mAP计算的文章，发布之后得到很多网友的反馈，有感于此，觉得有必要重写一篇，目的有两个，一个是告诉大家你们的意见我收到了，另外一个是细化了我对mAP的计算过程的理解，如有廖误恳请指正，本人一定虚心接受！欢迎继续拍砖！

02

[数据可视化之一]Pandas单变量画图

pandas库是Python数据分析最核心的一个工具库：“杀手级特征”，使整个生态系统融合在一起。除了数据读取、转换之外，也可以进行数据可视化。易于使用和富有表现力的pandas绘图API是pandas流行的重要组成部分。

02

CS231n：6 训练神经网络（一）

神经网络最初受到生物神经系统启发得来，并逐渐脱离生物神经系统，演变成一个工程问题，并在机器学习任务中实现了很好的结果。不过，我们还是简单地介绍一下生物神经系统。大脑的最基本的计算单元是神经元。人类的神经系统中有大约860亿个神经元，并且由大约1e14-1e15个突触（synapses）相连。如下图左是一张生物神经元的示意图，右边是一个神经元的数学建模。每个神经元会接受来自树突（dendrites）的输入信号，然后沿着轴突（axon）产生输出信号。轴突最终会产生分支并和其他神经元的树突通过突触相连。在神经元的数学模型中，来自其他神经元轴突的信号（比如）与当前神经元的树突通过突触基于突触上的强度（比如）进行乘法形式的交互（比如）。这一方法中，突触的强度 w 是可以学习的，通过控制强度（以及方向，比如正面影响还是负面影响）来影响其他某个神经元。在这一基础模型中，树突将所有输入的信号带到细胞体中，并将它们全部相加。如果最终的总和大于某个门槛值，那么这个神经元将会被激活，将会沿着轴突发出激活信号。在计算模型中，我们假设准确的激活时间不重要，只有激活的频率表示通信的信息。基于这一频率编码的解释，我们建模出了激活频率，即激活函数 f ，用于表示轴突发出激活信号的频率。在历史上，最常用的激活函数时sigmoid函数，它会将输入压缩在0-1的范围内，以实数的形式输出。后面我们将看到关于这个函数的细节。

02

塔秘 | 极简Python带你探索分类与回归的奥秘

前言本文从分类和回归两个方面介绍了基本的监督学习方法，并用Scikit-Learn做了实例演示。为何使用人工智能和机器学习？地球的未来在于人工智能和机器学习。如果对这些技术一无所知，人们很快会发

存储类别、链接和内存管理（一）--面试中你遇到过static关键字吗？

halo大家好~今天我们来分享一下在有关C语言面试中我们最常被面试官问到的static关键字到底有什么用？相信学完本期内容你就会回答了~

02

「自然语言处理（NLP）」一文带你了解TF-IDF

今天看了一下网上关于TF-IDF的文章，但是相关文章的知识点比较分散，所以作者对这些分散的知识进行了梳理整合，希望本文能够让你很快了解TF-IDF到底是什么，为什么会存在，以及其优缺点？

01

入门 | 区分识别机器学习中的分类与回归

选自MachineLearningMastery 作者：Jason Brownlee 机器之心编译参与：Nurhachu Null、刘晓坤、李泽南分类问题和回归问题之间有着很重要的区别。从根本上来说，分类是预测一个标签，回归是预测一个数量。我经常看到这样的问题：如何计算回归问题的准确率？这种问题意味着提问的人并没有真正理解分类和回归之间的差别，以及准确率到底是在评估什么？你会在这篇文章中发现分类和回归之间的区别。读完本文，你会了解以下内容：预测建模是关于学习从输入到输出的函数映射的问题，这个映射

05

【机器学习】第三部分肆：朴素贝叶斯

朴素贝叶斯是一组功能强大且易于训练的分类器，它使用贝叶斯定理来确定给定一组条件的结果的概率，“朴素”的含义是指所给定的条件都能独立存在和发生. 朴素贝叶斯是多用途分类器，能在很多不同的情景下找到它的应用，例如垃圾邮件过滤、自然语言处理等.

01

数据分析入门系列教程-KNN原理

从今天开始，我们就进入正式的算法相关的学习了。在学习算法部分时，我希望你已经完全消化了前面所学习的内容，并能够熟练的掌握相关的知识了。

03

机器学习（19）——特征工程数据收集数据清洗数据不平衡特征转换增维降维特征选择

前言：特征工程是机器学习的重点，他直接影响着模型的好坏。数据收集在进行机器学习之前，收集数据的过程中，我们主要按照以下规则找出我们所需要的数据：业务的实现需要哪些数据？基于对业务规则的理解，尽可能多的找出对因变量有影响的所有自变量数据。数据可用性评估在获取数据的过程中，首先需要考虑的是这个数据获取的成本；获取得到的数据，在使用之前，需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。数据源用户行为日志数据：记录的用户在系统上所有操作所留下来的日志行为数据业务数据：商

05

干货 | 上手机器学习，从搞懂这十大经典算法开始

翻译 | AI科技大本营（rgznai100）参与 | 林椿眄编辑 | 波波，Donna 在机器学习领域，“没有免费的午餐”是一个不变的定理。简而言之，没有一种算法是完美的，可以作为任何问题的最佳解决方案。认清这一点，对于解决监督学习问题（如预测建模问题）尤其重要。我们不能总说神经网络就是比决策树好，反之亦然。影响算法性能的因素有很多，比如数据集的大小和结构。因此，对于自己的问题，要尝试多种不同的算法，并使用测试数据集来评估各个算法的性能，以选出效果最优的那一个。当然，前面所尝试的算法必须要适

Google发布语义分割新数据集！顺带开发个模型屠榜，已被CVPR2021接收

对于人来说，看一张平面照片能够想象到重建后的3D场景布局，能够根据2D图像中包含的有限信号来识别对象，确定实例大小并重建3D场景布局。

05

CS231n：5 卷积神经网络

对于普通的神经网络，首先收到输入数据，然后通过若干的隐藏层的转换得到输出。每个隐藏层是由一组神经元组成的，并且这些神经元与前一层进行全连接。在单层中的每个神经元都是完全独立的，不会与其他神经元共享任何连接。最后一个全连接层又称为输出层，在分类任务中，它代表了每个类别的得分。常规的神经网络不能很好地扩展到整个图像。在CIFAR-10数据集中，图片的大小只有32*32*3 ，所以全连接的神经网络在第一个隐藏层中就需要个权重，这看起来还是可以接受的一个数据量，但是如果图片更大，常规的神经网络就不能很好地使用了。显然易见的是，全连接这样的形式带来参数量巨大的问题，会导致性能的浪费和过拟合问题。

02

数据集中的10种变量类型

在任何数据集中，尤其是表格形式的数据集中，我们通常将列分类为特征或目标。在处理和分析数据时，理解哪些是特征哪些是目标对于构建有效的模型至关重要。

01

GAN：「太难的部分我就不生成了，在下告退」

生成对抗网络（GAN）在合成逼真的图像方面能力出色，但我们不禁要问：怎样才能知道 GAN 无法生成的东西呢？模式丢失或模式崩塌被视为 GAN 所面临的最大难题之一，此时 GAN 会忽视目标分布中的某些部分，然而对于 GAN 中的这一现象，当前的分析工具所能提供的见解非常少。

02

机器学习实战之朴素贝叶斯

机器学习实战之朴素贝叶斯 1.1、简介贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(AB)的情况下如何求得P(BA)。这里先解释什么是条件概率：P(AB)表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：我们可以很容易直接得出P(AB)，P(BA)则很难直接得出，但我们更关心P(BA)，贝叶斯定理就

07

绝对不容错过：最完整的检测模型评估指标mAP计算指南(附代码)在这里！

作者: 叶虎编辑: 赵一帆前言本文翻译自Measuring Object Detection models - mAP - What is Mean Average Pr

09

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭