从数据中进行不规则抽样_从表中随机抽样_从截尾正态分布中抽样 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

ICML 2020 | 时间序列相关论文一览（附原文源码）

ICML 是 International Conference on Machine Learning的缩写，即国际机器学习大会。ICML如今已发展为由国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议，被中国计算机协会推荐为A类会议。

02

matlab计算机仿真与蒙特卡洛法【数学建模】

前言：在计算机出现之前，我们对数学模型的研究只能通过数学推导和实验研究两种方法。在此之后，我们可以通过在计算机上对实际问题的模拟、仿真求解模型。计算机仿真在数学建模中具有很重要的作用，而蒙特卡洛法则是计算机仿真中的一个重要方法。

03

您找到你想要的搜索结果了吗？

是的

没有找到

谁能驾驭马赛克？微软AI打码手艺 VS 谷歌AI解码绝活儿

上个月底，微软研究院推出一套基于AI 技术的视频人脸模糊解决方案，通俗讲就是为人脸自动打码。而在今日，谷歌发布了模糊图片转高清图片的解决方案，说白了就是去除马赛克的技术。你说谷歌，人家微软刚整出一套自动打码手艺，你就来个自动解码绝活。不少人有个疑问，那么谷歌是否能解除微软打的马赛克，上演一番科技版“用我的矛戳你的洞”？我们先来看下双方的技术原理是怎么样。一、微软自动打码手艺根据微软亚洲研究院副研究员谢文轩介绍，操作这套解决方案，用户只需在后台用鼠标选择想要打码的人物，相应人物在视频中的所有露脸区域

03

R语言蒙特卡洛模拟计算π

蒙特卡洛法的基本思想是：为了求解问题，首先建立一个概率模型或随机过程，使它的参数或数字特征等于问题的解：然后通过对模型或过程的观察或抽样试验来计算这些参数或数字特征，最后给出所求解的近似值。解的精确度用估计值的标准误差来表示。蒙特卡洛法的主要理论基础是概率统计理论，主要手段是随机抽样、统计试验。用蒙特卡洛法求解实际问题的基本步骤为：

03

每日学术速递5.26

1.BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once

00

多项分布和的分布_bernoulli多项式

二项分布的典型例子是扔硬币，硬币正面朝上概率为p, 重复扔n次硬币，k次为正面的概率即为一个二项分布概率。（严格定义见伯努利实验定义）

02

PCBA加工产品验收标准

焊点的最大高度（E）可以延伸到PAD或端盖金属化的顶部，延伸到可焊接端，但不能接触元件主体（可接受）

06

Hive实现数据抽样的三种方法

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样（SAMPLING）的功能，能够根据一定的规则进行数据抽样，目前支持数据块抽样，分桶抽样和随机抽样，具体如下所示：

01

DT时代下[个推3.0]遵循的四个法则

DT(Data Technology)，是以服务大众、激发生产力为主的技术。从IT时代走向DT时代，我们要思考如何用互联网技术、理念、思想去与传统行业进行交融和共同发展。 1.数据是决策的基本依据在

06

AAAI 2020 | 华南理工：面向文本识别的去耦注意力网络

本文对华南理工大学和联想研究院共同完成，被AAAI-20录用的论文《Decoupled Attention Network for Text Recognition》进行解读。

01

【期末考试】计算机网络、网络及其计算考试重点

数字通信的优点：抗干扰性强、保密性好、设备易于集成化、便于使用计算机技术对其进行处理等。

01

数据挖掘建模过程全公开

数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力。

02

啊！圆周率怎么玩？

圆周率是圆的周长与直径的比值，一般用希腊字母π表示，是一个在数学及物理学中普遍存在的数学常数。π也等于圆形之面积与半径平方之比，是精确计算圆周长、圆面积、球体积等几何形状的关键值。

03

图神经网络研究综述(GNN)

图神经网络由于其在处理非欧空间数据和复杂特征方面的优势，受到广泛关注并应用于推荐系统、知识图谱、交通道路分析等场景。

01

用Java构建不规则数组：从入门到精通

今天我要给大家分享一些自己日常学习到的一些知识点，并以文字的形式跟大家一起交流，互相学习，一个人虽可以走的更快，但一群人可以走的更远。

02

图神经网络2-图表征学习

图表征学习（Graph Representation Learning，也称之为图表示学习）是专门针对图数据域的技术，旨在将图结构中的节点转化为具有连续数值的向量表示，以便在这些表示上进行进一步的机器学习任务，如分类、聚类、链接预测等。

00

数据科学18 | 统计推断-渐近性

渐近性（asymptopia）是样本量接近于无穷大时统计行为的一个术语。渐近统计即大样本统计主要研究当样本量n→∞时统计方法的有关渐进性质。渐近性有助于简单的统计推断和估计，也是频率解释概率的基础。

03

clickhouse表引擎学习

MergeTree是clickhouse最强大的引擎。其主要特点： 1：存储的数据按主键排序 2：支持数据分区 3：支持数据副本 4：支持数据采样 5：支持ttl 下面我们来建一个表test_mergetree，表数据只保留一个月下面的就是例子

02

什么是“探索性数据分析"？

在大数据时代，混乱的、无结构的、多媒体的海量数据，通过各种渠道源源不断地积累和记载着人类活动的各种痕迹。探索性数据分析可以成为了一个有效的工具。美国约翰·怀尔德杜克（John Wilder Tukey）1977年在《探索性数据分析》（Exploratory Data Analysis）一书中第一次系统地论述了探索性数据分析。他的主要观点是：探索性数据分析（EDA）与验证性数据分析（Confirmatory Data Analysis ）有所不同：前者注重于对数据进行概括性的描述，不受数据模型和科研假设的限

05

Robust Scene Text Recognition with Automatic Rectification 学习笔记

识别自然图像中的文字仍是一个充满挑战的任务，本文提出了RARE（Robust text recognizer with Automatic REctification），一个对于不规则的文字具有鲁棒性的识别模型。RARE是一个深度神经网络，包括一个空间变换网络Spatial Transformer Network (STN)和一个序列识别网络Sequence Recognition Network (SRN)，两个网络同时用BP算法进行训练。网络结构如下：

03

《python数据分析与挖掘实战》笔记第1章

数据挖掘是从大量数据（包括文本）中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程。

02

干货 | 进化策略入门：最优化问题的另一种视角

AI 科技评论按：这是 otoro.net 的系列技术博客之一，以通俗可视化的方法讲解了进化策略（Evolution Strategies）中的诸多概念。AI 科技评论全文编译如下。本文将通过一些可视化的案例向大家解释进化策略是如何工作的。为了方便更多入门读者理解本文，我将对相关公式做简化处理。同时，我也为希望理解更多数学细节的读者提供了相关数学公式的原始论文。这是本系列的第一篇文章，在本系列中，我会向大家介绍如何在诸如 MNIST、OpenAI Gym、Roboschool、PyBullet 等任务中应

05

入门干货：从《权力的游戏》战斗场景中搞懂数据抽样和过滤

导读：直观来看，处理大数据的一个方法就是减少要处理的数据量，从而使处理的数据量能够达到当前的处理能力能够处理的程度。可以使用的方法主要包括抽样和过滤。两者的区别是，抽样主要依赖随机化技术，从数据中随机选出一部分样本，而过滤依据限制条件仅选择符合要求的数据参与下一步骤的计算。

01

【博士论文】图处理加速架构研究

来源：专知本文为论文介绍，建议阅读5分钟本文从分析图计算应用和图神经网络的执行特征出发，对专用图处理加速架构进行了探索。来自中科院计算所的严明玉博士论文，入选2022年度“CCF优秀博士学位论文奖”初评名单！ https://www.ccf.org.cn/Focus/2022-12-08/781244.shtml 图计算应用和图神经网络是处理图数据的核心应用，被广泛应用于各个领域。图数据处理应用特有的执行行为导致传统的通用架构无法高效地执行上述应用。随着智能万物互联时代的来临，上述应用急需高效的硬件

03

CUDA指针数组Kernel函数

在前面的一篇文章中，我们介绍了在C++中使用指针数组的方式实现的一个不规则的二维数组。那么如果我们希望可以在CUDA中也能够使用到这种类似形式的不规则的数组，有没有办法可以直接实现呢？可能过程会稍微有一点麻烦，因为我们需要在Host和Device之间来回的转换，需要使用到很多CUDA内置的cudaMalloc和cudaMemcpy函数，以下做一个完整的介绍。

01

CCF优秀博士论文 | 图处理加速架构研究

来自中科院计算所的严明玉博士论文，入选2022年度“CCF优秀博士学位论文奖”初评名单！

04

TDSC-ABUS2023——2023年自动化3D乳腺超声 (ABUS) 的肿瘤检测、分割和分类挑战验证集结果

乳腺癌是全世界女性最常见的死亡原因之一。早期发现有助于减少死亡人数。自动化 3D 乳房超声是一种较新的乳房筛查方法，与手持式乳房 X 光检查相比具有许多优点，例如安全性、速度和更高的乳腺癌检出率。因此，它可能在未来几年内风靡全球。

04

Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版（九）

¹ Jasper Snoek 等人，“机器学习算法的实用贝叶斯优化”，《第 25 届国际神经信息处理系统会议论文集》2（2012）：2951–2959。

00

学界 | 中科院自动化所提出不规则卷积神经网络：可动态提升效率

选自arXiv 作者：马佳彬等机器之心编译参与：李泽南近日，中国科学院自动化研究所马佳彬、王威、王亮等人发表的研究提出了一种新形式的卷积神经网络——不规则卷积神经网络。研究人员认为新的方法能够解

07

【说站】java对象分配内存的两种类型

（1）指针碰撞的分配方式用于在内存整齐的堆积中进行对象分配，所有被使用的内存放在一边，没有被使用的在另一边，中间放置指针作为界点的指示器，作为对象分配内存时，将指针移动到没有被使用的同时与对象相等大小的距离即可。

02

MORAN文本识别算法开源，刷新多个OCR数据集state-of-the-art

近日华南理工大学金连文老师组在文本识别领域又出牛文，提出一种基于像素级不规则文本纠正的识别新算法MORAN(Multi-Object Rectified Attention Network)，刷新了多个OCR数据集的最高精度,并将其开源了！

01

ElasticSearch 倒排索引简析

倒排索引是一种数据库的索引形式，存储了 “内容 -> 文档” 映射关系，目的是快速的进行全文搜索。

01

神经受控微分方程：非规则时间序列预测新SOTA

神经常微分方程是对时序动态建模的不错选择。但是，它存在一个基本问题：常微分方程的解是由其初始条件决定的，缺乏根据后续观察调整轨迹的机制。

01

数据竞赛之常见数据抽样方式

该抽样方法是按等概率原则直接从总中抽取n个样本，这种随机样本方法简单，易于操作；但是它并不能保证样本能完美的代表总体，这种抽样的基本前提是所有样本个体都是等概率分布，但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中，得到的结果是不重复的样本集，还可以使用有放回的简单随机抽样，这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。

02

科研作图系列：如何画出CNS级别的细胞示意图？

这些圆圆的细胞均属于血液系统。上图可以看出，细胞的图形构造相对简单，采用四种工具就能完成，即圆形变形处理、颜色填充、羽化或内发光效果、透明度调整。

01

ICLR 2024 | FTS-Diffusion：针对金融时序中不规则特征的生成学习

对于金融应用中的深度学习模型，训练数据有限是一个大问题。因为金融时间序列有不规则和尺度不变的特点，很难合成真实数据。

01

Image Pro Plus测量肝细胞脂滴。

之前，小编讲过Image Pro Plus测量面积和面积比的详细方法。如果你已经学会，并打下基础，就可以开始实战了。

02

各种聚类算法的介绍和比较「建议收藏」

聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。

02

前沿 | 不再需要动作捕捉，伯克利推出「看视频学杂技」的AI智能体

作者：Xue Bin (Jason) Peng 和 Angjoo Kanazawa

03

给宇宙最强Visual Studio Code配置编译和运行C/C++

C++ 是一种静态类型的、编译式的、通用的、大小写敏感的、不规则的编程语言，支持过程化编程、面向对象编程和泛型编程。通用的基于C的中级编程语言。它是由Bjarne Stroustrup于1979年开发的。当今许多操作系统，系统驱动程序，浏览器和游戏都使用C++作为其核心语言，从而使其成为最受欢迎的语言之一。

02

为什么基于树的模型在表格数据上仍然优于深度学习

来源：Deephub Imba本文约2800字，建议阅读5分钟本文介绍了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。在这篇文章中，我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。论文的注意事

01

为什么基于树的模型在表格数据上仍然优于深度学习

在这篇文章中，我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。

01

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

本文对华中科大、阿里巴巴合作完成的、发表在AAAI 2020的论文《All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting》进行解读。

01

给宇宙最强Visual Studio Code配置编译和运行C/C++

C++ 是一种静态类型的、编译式的、通用的、大小写敏感的、不规则的编程语言，支持过程化编程、面向对象编程和泛型编程。通用的基于C的中级编程语言。它是由Bjarne Stroustrup于1979年开发的。当今许多操作系统，系统驱动程序，浏览器和游戏都使用C++作为其核心语言，从而使其成为最受欢迎的语言之一。

02

有意思！不规则边框的生成方案

本文完整的 DEMO，你可以戳这里：transparent 配合 SVG feMorphology 滤镜生成不规则边框

02

聚类算法总结

（本文转自网上，具体出处忘了是哪里的，好像是上海一位女士在网上的博文，此处转载，用以备查，请原作者见谅）聚类算法总结： --------------------------------------------------------- 聚类算法的种类：基于划分聚类算法（partition clustering)

04

盘一盘 QuantLib 系列 6 - IRS/TS/CCBS

想要得到本贴 Jupyter Notebook 的同学分享此贴，在本帖留个言，我便发给你链接。

01

考虑所有微服务易受攻击，并监控它们的行为

这篇文章警告 Devops 不要有虚假的安全感。在开发和配置微服务时，遵循安全最佳实践不会产生不易受攻击的微服务。这篇文章表明，尽管所有部署的微服务都容易受到攻击，但仍有很多事情可以做，以确保微服务不被利用/开采（exploited）。它解释了如何从安全角度，分析客户端和服务的行为，这里称为“安全行为分析”，可以保护部署的易受攻击的微服务。它提到Guard[1]，这是一个开源项目，提供对 Kubernetes 被认为易受攻击的微服务的安全行为监控和控制。

03

数据挖掘中易栽的10个坑，你中了没？

-欺诈侦测(：在上百万的交易中，可能只有屈指可数的欺诈交易，还有很多的欺诈交易没有被正确标注出来，这就需要在建模前花费大量人力来修正。

03

使用CSS 3创建不规则图形

前言 CSS 创建复杂图形的技术即将会被广泛支持，并且应用到实际项目中。本篇文章的目的是为大家开启它的冰山一角。我希望这篇文章能让你对不规则图形有一个初步的了解。现在，我们已经可以使用CSS 3 常

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭