开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在Python中基于较小的数据集生成较大的合成数据集

在Python中，可以使用各种方法基于较小的数据集生成较大的合成数据集。以下是一些常用的方法：

重复复制：通过多次复制原始数据集中的样本来生成更大的数据集。这种方法适用于数据集较小且样本之间相互独立的情况。
数据增强：通过对原始数据集中的样本进行一系列的变换和扩充来生成更多的样本。例如，对图像数据集可以进行旋转、翻转、缩放、平移等操作，对文本数据集可以进行词语替换、插入、删除等操作。
合成数据生成：通过模拟生成符合原始数据集分布特征的新样本。例如，对于数值型数据集，可以使用概率分布函数生成符合原始数据集分布的新样本。
数据插值：对于时间序列或连续数据，可以使用插值方法生成更多的数据点。常用的插值方法包括线性插值、样条插值等。
数据合成模型：使用生成对抗网络（GAN）等生成模型来生成合成数据集。这些模型可以学习原始数据集的分布特征，并生成具有相似特征的新样本。

对于Python中的数据生成，可以使用以下库和工具：

NumPy：用于数值计算和数组操作，可以用于生成符合特定分布的随机数。
Pandas：用于数据处理和分析，可以用于复制、合并和变换数据集。
Scikit-learn：用于机器学习和数据挖掘，提供了一些数据生成的方法，如聚类、降维等。
Keras、TensorFlow、PyTorch等深度学习框架：提供了生成对抗网络（GAN）等生成模型的实现。
Faker：一个用于生成随机数据的Python库，可以用于生成各种类型的合成数据，如姓名、地址、电子邮件等。

以下是一些腾讯云相关产品和产品介绍链接地址，可以用于数据存储和处理：

腾讯云对象存储（COS）：提供了高可靠、低成本的对象存储服务，适用于存储和管理大规模的非结构化数据。链接地址：https://cloud.tencent.com/product/cos
腾讯云数据库（TencentDB）：提供了多种类型的数据库服务，包括关系型数据库、NoSQL数据库等，适用于数据的存储和管理。链接地址：https://cloud.tencent.com/product/cdb
腾讯云大数据（TencentDB）：提供了一系列的大数据处理和分析服务，包括数据仓库、数据湖、数据计算等，适用于大规模数据的处理和分析。链接地址：https://cloud.tencent.com/product/emr

请注意，以上仅为示例，实际选择使用的产品和工具应根据具体需求和场景进行评估和选择。

相关搜索:将较大的数据集连接到较小的数据集，保持R中较小的数据集的行数 Python -基于现有数据集生成相关数据集基于不同的数据集创建数据集在python matplotlib中基于数据集生成具有颜色梯度的网格在python中将大数据集划分为较小的子集 Python -从现有数据集生成新的更大的数据集，循环行按字符/因子值合并两个数据集；保留较小的数据集基于虹膜数据集的Python模糊聚类生成虚构的面板数据集函数不适用于较大的数据集生成器中的tensorflow数据集基于索引的数据集外推在python中命名数据集的列较小数据集上的Spark Job估计开销使用多个数据集的数据集的现有列动态生成r中的列生成数据集的所有排列如何使用数据子集的x，y坐标创建散点图，并基于较大的数据集分配颜色从数据集生成范围中的下拉填充 Rshiny中的数据集基于电影数据集的KMeans聚类

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

DeepMind | 提出合成数据是AGI的关键，可使PaLM2 性能暴涨6%！

【导读】AI可以从自己生成的「合成数据」中学习，最重要的是，能够大幅提升数据问题解决和代码生成的能力。

01

合成数据生成——数据科学家必备技能

数据就像是新的石油，而事实上只有少数几个大玩家才有强大能力去这控制这种新的货币。谷歌和脸书非常慷慨地免费提供自家最新型的机器学习算法和软件包，因为现在进入算法世界的门槛已经是相当低了。自从被史蒂夫• 鲍尔默冠以恶名到成为微软公司不可或缺的部分，开源已经走过了一段漫长的路程。大量的开源项目正在推动数据科学、数字分析和机器学习的发展。

01

Chronos: 将时间序列作为一种语言进行学习

这是一篇非常有意思的论文，它将时间序列分块并作为语言模型中的一个token来进行学习，并且得到了很好的效果。

01

ImageNet-1K压缩20倍，Top-1精度首超60%：大规模数据集蒸馏转折点

过去几年，数据压缩或蒸馏任务引起了人们的广泛关注。通过将大规模数据集压缩成具有代表性的紧凑子集，数据压缩方法有助于实现模型的快速训练和数据的高效存储，同时保留原始数据集中的重要信息。数据压缩在研究和应用中的重要性不可低估，因为它在处理大量数据的过程中起着关键作用。通过采用先进的算法，数据压缩取得了显著的进展。然而，现有解决方案主要擅长压缩低分辨率的小数据集，这种局限性是因为在双层优化过程中执行大量未展开的迭代会导致计算开销巨大。

03

教程 | 无需反向传播的深度学习：DeepMind的合成梯度

选自GitHub 作者：iamtrask 机器之心编译参与：王宇欣、Ellen Han 在这篇博文中，我们将从起点（从零开始）学习 DeepMind 最近提出的一篇论文—使用合成梯度的解耦神经接口。读者可以点击「阅读原文」下载此论文。合成梯度概述通常，神经网络将其预测与数据集进行比较，以决定如何更新其权重。然后使用反向传播来确定每个权重应该如何移动，以使预测更加准确。然而，对于合成梯度来说，数据的「最佳预测」由各层完成，然后基于这个预测更新权重。这个「最佳预测」被称为合成梯度。数据仅用于帮助更新每个

RandomRooms：用于3D目标检测的无监督预训练方法（ICCV2021）

论文标题：RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection

02

Scaling Law 又一次性感了吗？

自 OpenAI 发布 Sora，业界对该模型的能力及其所带来的影响和机会讨论不断。虽然 OpenAI 没有放出 Sora 的训练细节，但在其技术报告中又一次强调该公司所拥护的核心理念——Scaling Law。即，支持 Sora 的 Diffusion Transformer 模型同样符合 Scale effectively），随着训练计算量增加，视频质量显著提升。这让 Scaling Law 再次成为人工智能领域的热点话题。

01

用深度学习实现异常检测/缺陷检测

创建异常检测模型，实现生产线上异常检测过程的自动化。在选择数据集来训练和测试模型之后，我们能够成功地检测出86%到90%的异常。

02

用计算机视觉来做异常检测

创建异常检测模型，实现生产线上异常检测过程的自动化。在选择数据集来训练和测试模型之后，我们能够成功地检测出86%到90%的异常。

01

虚实结合：无需人工标注的可泛化行人再辨识

本文作者提出一个虚实结合的行人再辨识新思路：通过半监督方式联合训练有标签虚拟数据和无标签真实数据，取得更好的可泛化行人再辨识性能，并且其无需人工标注的优点更具有规模化的可扩展性和实际应用价值。

01

教科书级数据is all you need：1.3B小模型逆袭大模型的秘密

人工智能的三个核心要素是算力、算法和数据，这是大多数人在初识人工智能时都会接触到的一个观点。不过，在深入阐述该观点时，很多材料都倾向于解释数据「大」的一面，毕竟当前的大模型一直在由不断增加的「大数据」来推动，而且这条路似乎还没有走到极限。

03

总结374篇相关工作，陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

大语言模型（Large Language Models, LLMs）在过去两年内迅速发展，涌现出一些现象级的模型和产品，如 GPT-4、Gemini、Claude 等，但大多数是闭源的。研究界目前能接触到的大部分开源 LLMs 与闭源 LLMs 存在较大差距，因此提升开源 LLMs 及其他小模型的能力以减小其与闭源大模型的差距成为了该领域的研究热点。

01

谷歌开源 AI 微调方法： Distilling Step-by-Step

华盛顿大学和谷歌研究中心的一个团队最近开源了 Distilling Step-by-Step（逐步蒸馏），一种用于微调规模较小的语言模型的技术。与标准微调相比，逐步蒸馏需要的训练数据更少，并且生成的模型更小，但模型性能却优于参数规模是它 700 倍的小样本提示大型语言模型（LLM）。

02

微软Phi-3，3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美，量化后还可直接在IPhone中运行

Phi-3是一系列先进的语言模型，专注于在保持足够紧凑以便在移动设备上部署的同时，实现高性能。Phi-3系列包括不同大小的模型：

01

数学推理增强，Xwin-Math利用合成数据解锁LLaMA-2-7B潜力！

数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。

01

打破单模态局限，LoRS在多模态数据提炼上的突破！

数据集蒸馏能够在保留其基本信息和模型训练性能的同时，合成一个更小且更紧凑的数据集。由于它具有很高的压缩比，在机器学习和大规模模型数据的背景下尤其值得关注。然而，当前的算法在图像领域的应用受到限制，很少有研究涉及到其他单一模态的数据，如文本（Li和Li，2021年）、视频（Wang等人，2023年）或图形数据（Xu等人，2023b年）。随着视觉-语言预训练模型（VLP）和多模态大型语言模型（MLLM）（Li等人，2023年；Liu等人，2023a年）变得占主导地位，作者将注意力转向配对的图像-文本数据。

01

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。

01

一文说清楚如何如何利用NVIDIA工具包和生成式AI改变视觉AI应用

本文来自NVIDIA讲座《Transform Your Vision AI Applications With Gen AI 》

02

A full data augmentation pipeline for small object detection based on GAN

小物体（即32×32像素以下的物体）的物体检测精度落后于大物体。为了解决这个问题，我们设计了创新的体系结构，并发布了新的数据集。尽管如此，许多数据集中的小目标数量不足以进行训练。生成对抗性网络（GAN）的出现为训练体系结构开辟了一种新的数据增强可能性，而无需为小目标注释巨大数据集这一昂贵的任务。在本文中，我们提出了一种用于小目标检测的数据增强的完整流程，该流程将基于GAN的目标生成器与目标分割、图像修复和图像混合技术相结合，以实现高质量的合成数据。我们的流水线的主要组件是DS-GAN，这是一种基于GAN的新型架构，可以从较大的对象生成逼真的小对象。实验结果表明，我们的整体数据增强方法将最先进模型的性能提高了11.9%AP@。在UAVDT上5 s和4.7%AP@。iSAID上的5s，无论是对于小目标子集还是对于训练实例数量有限的场景。

02

打破机器学习中的小数据集诅咒

最近深度学习技术实现方面取得的突破表明，顶级算法和复杂的结构可以将类人的能力传授给执行特定任务的机器。但我们也会发现，大量的训练数据对深度学习模型的成功起着至关重要的作用。就拿Resnet来说，这种图像分类结构在2015年的ILSVRC分类竞赛中获得了第一名，比先前的技术水平提高了约50%。

02

关于GAN的灵魂七问

根据一些指标显示，关于生成对抗网络（GAN）的研究在过去两年间取得了本质的进步。在图像合成模型实践中的进步快到几乎无法跟上。

02

小数据处理的 7 个技巧

本文作者是 Kanda 的机器学习工程师 Daniel Rothmann，他在和客户合作的过程中总结出的小数据处理方法。

02

让光学3D传感器「看见」透明杯子，这是来自谷歌、哥大的新研究

从自动驾驶汽车到自动机器人等领域，光学 3D 距离传感器与 RGB-D 相机的应用一样广泛，它可以生成丰富而精确的 3D 环境地图。

02

一键去纹身，AI看了直呼......

程序小哥 Vijish Madhavan 刚刚开源了他搞的去纹身模型 SkinDeep，下面是这个 AI 应用到那个 AI 身上的效果，看起来效果杠杠的。

03

学界！关于GAN的灵魂七问

根据一些指标显示，关于生成对抗网络（GAN）的研究在过去两年间取得了本质的进步。在图像合成模型实践中的进步快到几乎无法跟上。

03

北航张欢：如何运用深度学习进行位姿测量？| 分享总结

AI 研习社按：位姿测量是许多空间任务的基础，也是移动机器人移动的前提，其重要性不必多言。传统的位姿测量方法已经发展了几十年，取得累累硕果的同时也遇到了不少技术瓶颈。深度学习的兴起，重新给了位姿测量新思路，本文为大家介绍的就是基于深度学习的位姿测量。在近期AI研习社举办的线上公开课上，来自北京航空航天大学的张欢同学分享了一篇CVPR 2015文章中用到的利用深度学习进行位姿测量的方法。没有观看直播的同学可以点击视频回放（http://www.mooc.ai/open/course/343）。张欢，北京航

05

打破机器学习中的小数据集诅咒

最近深度学习技术实现方面取得的突破表明，顶级算法和复杂的结构可以将类人的能力传授给执行特定任务的机器。但我们也会发现，大量的训练数据对深度学习模型的成功起着至关重要的作用。就拿Resnet来说，这种图像分类结构在2015年的ILSVRC分类竞赛中获得了第一名，比先前的技术水平提高了约50%。

03

smote算法_探索SMOTE算法

SMOTE是一种综合采样人工合成数据算法，用于解决数据类别不平衡问题(Imbalanced class problem)，以Over-sampling少数类和Under-sampling多数类结合的方式来合成数据。本文将以 Nitesh V. Chawla(2002) 的论文为蓝本，阐述SMOTE的核心思想以及实现其朴素算法，在传统分类器(贝叶斯和决策树)上进行对比算法性能并且讨论其算法改进的途径。

02

用于类别级物体6D姿态和尺寸估计的标准化物体坐标空间

本文的目的是估计RGB-D图像中未见过的对象实例的6D姿态和尺寸。与“实例级”6D姿态估计任务相反，我们的问题假设在训练或测试期间没有可用的精确对象CAD模型。为了处理给定类别中不同且未见过的对象实例，我们引入了标准化对象坐标空间（NOCS）-类别中所有可能对象实例的共享规范表示。然后，我们训练了基于区域的神经网络，可以直接从观察到的像素向对应的共享对象表示（NOCS）推断对应的信息，以及其他对象信息，例如类标签和实例蒙版。可以将这些预测与深度图结合起来，共同估算杂乱场景中多个对象的6D姿态和尺寸。为了训练我们的网络，我们提出了一种新的上下文感知技术，以生成大量完全标注的混合现实数据。为了进一步改善我们的模型并评估其在真实数据上的性能，我们还提供了具有大型环境和实例变化的真实数据集。大量实验表明，所提出的方法能够稳健地估计实际环境中未见过的对象实例的姿态和大小，同时还能在标准6D姿态估计基准上实现最新的性能。

03

没有数据就自己造数据

学习了一段时间的机器学习发现除了各种算法原理的公式推导比较麻烦之外，没有数据也是很痛苦，在训练各种算法模型的时候，一个良好的数据集就已经成功一大半了，那么剩下的就是调参优化。那么问题来了，不是任何时候我们都有一个现成的数据集可用，公共的数据集毕竟有限，如果自己去采集数据那么同样很烦，这是我们就要考虑自动生成数据集了。除了随机生成数据这种简单的方法之外，目前机器学习算法领域有各种函数库可以让我们调用，编程的难度不大，所以今天给大家介绍几个自动生成数据的Python库。

02

用小数据集进行原型设计结果的小技巧

本文作者是 Kanda 的机器学习工程师 Daniel Rothmann，他对一切具有变革性的事物都感兴趣，这里是他在和客户合作的过程中总结出的小数据处理方法。雷锋网整理。

01

20大热门项目告诉你，计算机视觉未来的五大趋势

随着深度学习的进步、计算存储的扩大、可视化数据集的激增，计算机视觉方面的研究在过去几年蓬勃发展。在自动驾驶汽车、医疗保健、零售、能源、语言学等诸多领域，计算机视觉的应用都越来越广。

03

数据集蒸馏 by Matching Training Trajectories

代码：https://github.com/GeorgeCazenavette/mtt-distillation

02

SuperLine3D：从3D点到3D线

这个工作来自于浙江大学和DAMO academy。在点云配准领域，尽管已经有很多方法被提出来，但是无论是传统方法，还是近年来蓬勃发展的基于深度学习的三维点云配置方法，其实在真正应用到真实的LiDAR扫描点云帧时都会出现一些问题。造成这种困窘的一个主要的原因在于LiDAR扫描到的点云分布极不均匀。具体而言，相较于RGBD相机，LiDAR的有效扫描深度要大很多。随着深度的增大，其激光发射出去的扇面将会变得稀疏。因此，即使是扫描同一目标或场景的点云帧之间，其尺度并不一致。导致想要研究的关键点周围的邻域点分布也存在较大不同，难以通过这些3D点的特征描述关联起点云帧。这个问题一直以来都十分棘手。这个工作独辟蹊径，提出对于这种点云数据，不再通过3D点来构建关联以实现点云配准，而是研究点云数据中的高层次的几何原语。这种做法直观来说是有道理的，因为这些高层次的几何原语通常会有较大的支撑点集，换句话说，其对于点云扫描和采样具有较大的鲁棒性，通常不会因为某个点没有被记录而影响相应几何原语的提取。同时，几何原语通常具有更具体的特征和几何结构，例如一条直线、一个平面等，其更容易构建不同帧间的关联，避免误匹配。但是，这种研究思路通常难度较大，原因在于缺乏足够的有标签的数据集。在这种情况下，这个工作显得极其重要，它不仅仅提供了一个数据集自动标注模型，同样也是少数真正开始探索几何原语用于点云配准任务的先河性的工作。

02

A Shape Transformation-based Dataset Augmentation Framework for Pedestrian Detection

基于深度学习的计算机视觉通常需要数据。许多研究人员试图用合成数据来增强数据集，以提高模型的稳健性。然而，增加流行的行人数据集，如加州理工学院和城市人，可能极具挑战性，因为真实的行人通常质量较低。由于遮挡、模糊和低分辨率等因素，现有的增强方法非常困难，这些方法通常使用3D引擎或生成对抗性网络（GAN）合成数据，以生成逼真的行人。与此不同的是，为了访问看起来更自然的行人，我们建议通过将同一数据集中的真实行人转换为不同的形状来增强行人检测数据集。因此，我们提出了基于形状变换的数据集增强（STDA）框架。所提出的框架由两个后续模块组成，即形状引导变形和环境适应。在第一个模块中，我们引入了一个形状引导的翘曲场，以帮助将真实行人的形状变形为不同的形状。然后，在第二阶段，我们提出了一种环境感知混合映射，以更好地将变形的行人适应周围环境，获得更逼真的行人外观和更有益的行人检测增强结果。对不同行人检测基准的广泛实证研究表明，所提出的STDA框架始终比使用低质量行人的其他行人合成方法产生更好的增强结果。通过扩充原始数据集，我们提出的框架还将基线行人检测器在评估基准上提高了38%，实现了最先进的性能。

02

SuperLine3D：基于自监督的激光雷达点云线分割与描述子计算方法

文章：SuperLine3D: Self-supervised Line Segmentation and Description for LiDAR Point Cloud

02

Texture Underﬁtting for Domain Adaptation

全面的语义分割是鲁棒场景理解的关键组成部分之一，也是实现自动驾驶的要求。在大规模数据集的驱动下，卷积神经网络在这项任务上表现出了令人印象深刻的结果。然而，推广到各种场景和条件的分割算法需要极其多样化的数据集，这使得劳动密集型的数据采集和标记过程过于昂贵。在分割图之间结构相似的假设下，领域自适应有望通过将知识从现有的、潜在的模拟数据集转移到不存在监督的新环境来解决这一挑战。虽然这种方法的性能取决于神经网络学习对场景结构的高级理解这一概念，但最近的工作表明，神经网络倾向于过度适应纹理，而不是学习结构和形状信息。考虑到语义分割的基本思想，我们使用随机图像风格化来增强训练数据集，并提出了一种有助于纹理适配的训练程序，以提高领域自适应的性能。在使用有监督和无监督方法进行合成到实域自适应任务的实验中，我们表明我们的方法优于传统的训练方法。

02

人类创造的数据太贵了！开发者悄悄使用AI合成数据训练模型

在以往，大多数AI模型都是靠人类的数据训练的，但现在，越来越多的公司（包括OpenAI、微软，以及Cohere这样的初创公司）都开始使用这种AI生成的「合成数据」，或者在努力搞清如何使用AI生成的数据了。

03

学界 | UC伯克利AI实验室发干货：用于训练神经网络抓取机器人的Dex-Net 2.0数据集

AI科技评论按：伯克利AI实验室最新发文公布了用于机器人抓取的Dexterity Network (Dex-Net) 2.0数据集，这些数据集可以用来训练根据实际机器人的点云做抓取规划的神经网络。本

05

ICCV2021 RealVSR: 业界首个移动端真实场景视频超分数据集。附：深度思考

视频超分旨在对低分辨率视频提升分辨率的同时对细节进行增强(可能还会附带噪声抑制、压缩伪影移除亦或取出运动模糊)。现有的视频超分方案大多在合成数据上进行训练，这种简单的退化机制在面对真实场景的复杂退化时就会出现严重的性能下降。因此，如何将学术界的视频超分方案应用到真实场景，或者缩小两者之间的性能差异就更为值得进行探索与研究。

04

大模型系列——解读RAG

RAG 是2023年最流行的基于 LLM 的应用系统架构。有许多产品几乎完全建立在 RAG 之上，覆盖了结合网络搜索引擎和 LLM 的问答服务，到成千上万个数据聊天的应用程序。很多人将RAG和Agent 作为大模型应用的两种主流架构，但什么是RAG呢？RAG又涉及了哪些具体的技术呢？

01

ACL2022 | 类增量学习的少样本命名实体识别

每天给你送来NLP技术干货！ ---- ©作者 | 回亭风单位 | 北京邮电大学研究方向 | 自然语言理解来自 | PaperWeekly 论文标题： Few-Shot Class-Incremental Learning for Named Entity Recognition 收录会议： ACL 2022 论文链接： https://aclanthology.org/2022.acl-long.43 Abstract 之前的面向 NER 的类增量学习的工作都是基于新类有丰富的监督数据的情况，本文

02

语音合成综述

区分说话主要是通过音高（基频）和音色（频谱包络-频谱最大幅度的连接线）音高：http://ibillxia.github.io/blog/2013/05/16/audio-signal-processing-time-domain-pitch-python-realization/ 音色：http://ibillxia.github.io/blog/2013/05/18/audio-signal-processing-time-domain-timbre-python-realization/ 此工具箱通过提取语音的三个特征，然后对其进行修改，从而改变语音的音色等特征，从而转换语音特性比如：通过调高基频，可以偏女性化，通过改变基频未固定值，可以类似机器人等等 f0 : ndarray F0 contour. 基频等高线 sp : ndarray Spectral envelope. 频谱包络 ap : ndarray Aperiodicity. 非周期性

02

【前沿】NIPS2017贝叶斯生成对抗网络TensorFlow实现（附GAN资料下载）

导读今年五月份康奈尔大学的 Andrew Gordon Wilson 和 Permutation Venture 的 Yunus Saatchi 提出了一个贝叶斯生成对抗网络（Bayesian GAN），结合贝叶斯和对抗生成网络，提出了一个实用的贝叶斯公式框架，用GAN来进行无监督学习和半监督式学习。论文《Bayesian GAN》也被2017年机器学习顶级会议 NIPS 接受，今天Andrew Gordon Wilson在Twitter上发布消息开源了这篇论文的TensorFlow实现，并且Google

08

深度学习中，面对不可知攻击，如何才能做到防御「有的放矢」?

近年来，深度学习（Deep Learning，DL）技术取得了突飞猛进的发展，在一些人工智能任务（如图像分类、语音识别等）中取得了突破。互联网巨头，如谷歌、Facebook 和亚马逊，都在提供由 DL 驱动的服务和产品方面进行了大量投资[1]。然而，高度非线性、非凸函数建模的深度神经网络（Deep neural networks，DNNs）本质上非常容易受到对抗性输入（Adversarial inputs）的影响。对抗性输入是由对手（攻击者）设计的恶意样本，目的是触发 DNNs 的不当行为。

01

神作《GTA 5》走进现实！AI逼真还原游戏街景，还能“脑补”细节 | 英特尔出品

GTA 也叫“侠盗猎车手”，是R星旗下一款超高人气动作冒险类游戏，目前已经发售至第五版。

08

CVPR2017|基于构造多视图子空间中的潜在表示解决聚类问题

作者 | 张泽宇编辑 | 臧晨宇校对 | 李仲深今天给大家介绍天津大学张长青老师等人在CVPR2017上发表的文章“Latent Multi-view Subspace Clustering”。与直接使用原始特征进行单视图的子空间聚类不同，本文提出了一种潜在多视图子空间的聚类方法(LMSC)，用数据点的潜在表示进行聚类，同时在多个视角中发掘互补信息。该方法在多视图中寻找数据的潜在表示，并在此基础上对数据进行重构，建立了数据的完备表示，提高了子空间表示的准确性和鲁棒性。该方法同时采用了ALM-ADM算法

01

NLP重磅！谷歌、Facebook新研究：2.26亿合成数据训练神经机器翻译创最优！

机器翻译依赖于大型平行语料库，即源语和目的语中成对句子的数据集。但是，双语语料是十分有限的，而单语语料更容易获得。传统上，单语语料被用于训练语言模型，大大提高了统计机器翻译的流畅性。

02

碾压Llama2！微软13亿参数phi-1.5，单个A100训练，刷新SOTA

论文地址：https://arxiv.org/pdf/2309.05463.pdf

08

个性化联邦学习PFedMe详细解读（NeurIPS 2020）

本文介绍一篇 NeurIPS 2020 的论文『Personalized Federated Learning with Moreau Envelopes』，对个性化联邦学习 PFedMe 进行详细解读。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭