Python如何根据条件从现有数据集创建新数据集_Python -从现有数据集生成新的更大的数据集，循环行_基于现有SAS向数据集创建新行 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

印尼医疗龙头企业Halodoc的数据平台转型之路：基于Apache Hudi的数据平台V2.0

数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们，它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥着重要作用。作为印度尼西亚最大的在线医疗保健公司的数据工程师，我们面临的主要挑战之一是在整个组织内实现数据民主化。Halodoc 的数据工程 (DE) 团队自成立以来一直使用现有的工具和服务来维护和处理大量且多样的数据，但随着业务的增长，我们的数据量也呈指数级增长，需要更多的处理资源。由于现代数据平台从不同的、多样化的系统中收集数据，很容易出现重复记录、错过更新等数据收集问题。为了解决这些问题，我们对数据平台进行了重新评估，并意识到架构债务随着时间的推移积累会导致大多数数据问题。我们数据平台的所有主要功能——提取、转换和存储都存在问题，导致整个数据平台存在质量问题。现有数据平台印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0 在过去几年中为我们提供了很好的服务，但它的扩展性满足不了不断增长的业务需求。

02

RDB 和 AOF 持久化的原理是什么？我应该用哪一个？它们的优缺点？

RDB：生成指定时间间隔内的 Redis 内存中数据快照，是一个二进制文件 dumpr.rdb

04

您找到你想要的搜索结果了吗？

是的

没有找到

如何在Python中构建决策树回归模型

本文讲解什么是决策树回归模型，以及如何在Python中创建和实现决策树回归模型，只需要5个步骤。

01

开源库 Taipy 将 AI 算法、数据转化为 Web 应用程序

Taipy 是一个免费框架，它允许 Python 开发人员、数据科学家和机器学习工程师创建 Web 应用程序。

01

进能形式逻辑，退能四则运算，MAmmoT让LLM成为数学通才

数学推理是现代大型语言模型（LLM）的一项关键能力。尽管这一领域近来进展不错，但闭源和开源 LLM 之间仍然存在明显的差距——GPT-4、PaLM-2 和 Claude 2 等闭源模型主宰了 GSM8K 和 MATH 等常用数学推理基准，而 Llama、Falcon 和 OPT 等开源模型在所有基准上都大幅落后。

03

FP-Growth算法全解析：理论基础与实战指导

FP-Growth（Frequent Pattern Growth，频繁模式增长）算法是一种用于数据挖掘中频繁项集发现的有效方法。它是由Jian Pei，Jiawei Han和Runying Mao在2000年的论文中首次提出的。该算法主要应用于事务数据分析、关联规则挖掘以及数据挖掘领域的其他相关应用。

03

定制人脸图像没那么难！使用TL-GAN模型轻松变脸

描述一张图像对人类来说相当容易，我们在很小的时候就能做到。在机器学习中，这项任务是一个判别分类/回归问题，即从输入图像预测特征标签。随着最近 ML/AI 技术（尤其是深度学习模型）的进步，它们开始在这些任务中脱颖而出，有时会达到甚至超过人类的表现，如视觉目标识别（例如，从 AlexNet 到 ResNet 在 ImageNet 分类任务上的表现）和目标检测/分割（如从 RCNN 到 YOLO 在 COCO 数据集上的表现）等场景中展示的一样。

02

arXiv | DAGAN:数据增强生成对抗网络

今天给大家介绍的是来自爱丁堡大学的Antreas Antoniou等人在arXiv上发表的文章”DATA AUGMENTATION GENERATIVEADVERSARIAL NETWORKS”。该模型基于图像条件生成对抗网络，从源域获取数据并学习获取任何数据项并将其生成为生成其他类内数据项。由于这个生成过程不依赖于类本身，它可以应用于新颖的不可见的数据类。

02

这个插件竟打通了Python和Excel，还能自动生成代码！

大家好，我是云朵君！加载一个Jupyter插件后，无需写代码就能做数据分析，还帮你生成相应代码？

01

PostgreSQL 教程

本 PostgreSQL 教程可帮助您快速了解 PostgreSQL。您将通过许多实际示例快速掌握 PostgreSQL，并将这些知识应用于使用 PostgreSQL 开发应用程序。

01

【干货】推荐19款最常用的数据挖掘工具

数据在当今世界意味着金钱。随着向基于app的世界的过渡，数据呈指数增长。然而，大多数数据是非结构化的，因此需要一个过程和方法从数据中提取有用的信息，并将其转换为可理解的和可用的形式。

03

干货 | 19款最好用的免费数据挖掘工具大汇总

数据在当今世界意味着金钱。随着向基于app的世界的过渡，数据呈指数增长。然而，大多数数据是非结构化的，因此需要一个过程和方法从数据中提取有用的信息，并将其转换为可理解的和可用的形式。

02

普林斯顿开源34B数学大模型：性能媲美谷歌Minerva，参数少一半！550亿token专业数据训练

最近，普林斯顿大学等七家机构联合发布了一个专门用于数学的大语言模型LLEMMA，性能媲美谷歌Minerva 62B，并公开了其模型、数据集和代码，为数学研究带来了前所未有的机会和资源。

01

Prior-based Domain Adaptive Object Detection for Hazy

恶劣的天气条件，如雾霾和雨水，会破坏捕获图像的质量，导致训练在干净图像上的检测网络在这些图像上表现不佳。为了解决这一问题，我们提出了一种无监督的基于先验的领域对抗目标检测框架，使检测器适应于雾蒙蒙和多雨的条件。基于这些因素，我们利用利用图像形成原理获得的特定天气的先验知识来定义一个新的先验-对抗性损失。用于训练适应过程的前对抗性损失旨在减少特征中与天气相关的信息，从而减轻天气对检测性能的影响。此外，我们在目标检测管道中引入了一组残差特征恢复块来消除特征空间的扭曲，从而得到进一步的改进。针对不同情况(如霾、雨)，在不同数据集(雾城景观、雨城景观、RTTS和UFDD)上进行的评估显示了所提方法的有效性。

03

Dataset Search | 数据集搜索专用引擎

Dataset Search 测试版地址：https://toolbox.google.com/datasetsearch

02

AI研发者福利！谷歌推出数据集搜索专用引擎Dataset Search

Dataset Search 测试版地址：https://toolbox.google.com/datasetsearch

02

Redis持久化 - RDB和AOF

持久化（Persistence），即把数据（如内存中的对象）保存到可永久保存的存储设备中（如磁盘）。持久化Redis所有数据保持在内存中，对数据的更新将异步地保存到磁盘上。

01

Redis持久化 - RDB和AOF

持久化（Persistence），即把数据（如内存中的对象）保存到可永久保存的存储设备中（如磁盘）。持久化Redis所有数据保持在内存中，对数据的更新将异步地保存到磁盘上。

04

机器学习(31)之频繁集挖掘FP Tree详解

关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第一【Python】：排名第三【算法】：排名第四明早7:22推送第2期免费送书活动 10本机器学习书籍相送获奖者可5选1 详情见明早推文前言在（机器学习(22)之Apriori算法原理总结）中，对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法，Apriori算法需要多次扫描数据，I/O是很大的瓶颈。为了解决这个问题，FP Tree算法采用了一些技巧，无论多少数据，只需要扫描两次数据集，因此提高了算法运行的效率。下

06

Redis持久化

Redis是内存型数据库，为了使Redis在重启之后仍能保证数据不丢失，需要将数据从内存中同步到硬盘中，这一过程就是持久化。 Redis支持两种持久化的方式，一种是RDB持久化，另一种是AOF持久化，可以单独使用其中一种或将二者结合使用，或者关闭持久化功能。 Redis 持久化 Redis持久化提供了多种方式： RDB 持久化可以在指定的时间间隔内生成数据集的时间点快照（point-in-time snapshot）。 AOF 持久化记录服务器执行的所有写操作命令，并在服务器启动时，通过重新执行这些命令来还

05

bigML中提升树模型的6个步骤

BigML将提升树模型（Boosted Trees）带入我们日益增长的监督式学习技术套件中。Boosting是一个变体，旨在减少偏见，可能会导致比Bagging或随机决策森林更好的表现。

00

手把手 | 如何用Python做自动化特征工程

机器学习的模型训练越来越自动化，但特征工程还是一个漫长的手动过程，依赖于专业的领域知识，直觉和数据处理。而特征选取恰恰是机器学习重要的先期步骤，虽然不如模型训练那样能产生直接可用的结果。本文作者将使用Python的featuretools库进行自动化特征工程的示例。

01

FDA｜医疗器械开发中的机器学习规范：指导原则

2021年10月27日，FDA、加拿大卫生部和英国药品和保健品管理局（MHRA）联合发布了10项指导原则，可以为机器学习规范（Good Machine Learning Practice, GMLP）的发展提供参考。这些指导原则将有助于促进安全、有效和高质量的使用人工智能和机器学习（AI/ML）的医疗设备的开发。

02

70个NumPy练习：在Python下一举搞定机器学习矩阵运算

翻译 | 王柯凝责编 | suisui 【导读】Numpy是一个开源的Python科学计算库，专用于存储和处理大型矩阵，相比Python自身的嵌套列表结构要高效很多，是数据分析、统计机器学习的必备工具。Numpy还是深度学习工具Keras、sk-learn的基础组件之一。此处的70个numpy练习，可以作为你学习numpy基础之后的应用参考。练习难度分为4层：从1到4依次增大。快来试试你的矩阵运算掌握到了什么程度： 1.导入模块numpy并以np作为别名，查看其版本难度：1 问题：导入模块num

04

猛犸象大模型！MAmmoTH：目前最好的开源、通用数学大模型，现已超过GPT-4！

大型语言模型 (LLM)的数学推理能力是评估大模型能力的一项关键指标。尽管目前很多大型语言模型(LLMs)在该领域取得了一定的进展，但与闭源的大模型相比，开源大模型的数学推理能力仍然有很大差距。

02

Nat Com丨单细胞转录组数据检索新方法和参考数据库

近年来单细胞转录组测序的迅猛发展，为细胞功能和基因调控网络等重要生物学问题的研究提供了强大的技术支持。在单细胞转录组数据的相关研究中，研究者通常会先对细胞进行注释，如鉴定细胞类型、细胞分化阶段等，然而，常用的注释手段较为繁琐，且无法保证不同数据集间的可比性。随着单细胞转录组数据逐渐积累，用现有数据集作为参考（reference），来注释新测序的细胞成为一种潜在的解决方案。

02

Tutorial | 单细胞转录组数据【细胞注释指南】

细胞注释是单细胞转录组分析的重要环节，来自加拿大的研究人员在《Nature protocols》发表细胞注释教程综述，介绍了单细胞转录组数据分析中细胞注释的一般工作流程，涵盖可用于每个步骤的软件工具和资源的指导原则和具体建议。

03

干货 | 19款最好用的免费数据挖掘工具大汇总

数据在当今世界意味着金钱。随着向基于app的世界的过渡，数据呈指数增长。然而，大多数数据是非结构化的，因此需要一个过程和方法从数据中提取有用的信息，并将其转换为可理解的和可用的形式。

02

【数据架构】数据网格解释

本文/报告的目的是根据 Zhamak Dehghani 在即将举行的 Datanova — 数据网格峰会之前关于 Martin Fowler 的前两篇文章，分享和解释我对数据网格的理解。许多句子直接取自扎马克的文章。

01

激发数学思维：GPT-4实证研究探索挑战性数学问题

考虑到自然语言在许多科学和工程领域表达的数学问题的丰富性，使用大语言模型(LLM)来解决数学问题是一项有趣的研究工作。今天给大家介绍一篇微软研究院联合欧美高校关于如何使用GPT-4解决数学问题的研究论文。

03

使用TensorFlow一步步进行目标检测(3)

进行到这一步，我们已选择了预训练模型，并将现有数据集转化为单个TFRecord文件。但是，如果我们找到的数据集与即将使用的目标检测模型不完全匹配，而我们希望获得最佳效果，该怎么办？更极端的时候，我们可能无法找到任何合适的数据集？

03

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

还记得英伟达在 GTC 2019 披露的令人惊叹的图像生成器 GauGAN 吗？仅凭几根线条，草图秒变风景照，自动生成照片级逼真图像的技术堪比神笔马良。

02

一文了解数据湖引擎

数据湖引擎是一种开源软件解决方案或云服务，它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。

05

如何在自定义数据集上训练 YOLOv9

2024 年 2 月 21 日，Chien-Yao Wang、I-Hau Yeh 和 Hong-Yuan Mark Liao 发布了“YOLOv9：Learning What You Want to Learn Using Programmable Gradient Information”论文，介绍了一种新的计算机视觉模型架构：YOLOv9。目前，源代码已开源，允许所有人训练自己的 YOLOv9 模型。

02

Redis持久化

Redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大. 如果你只希望你的数据在服务器运行的时候存在,你也可以不使用任何持久化方式. 你也可以同时开启两种持久化方式, 在这种情况下, 当redis重启的时候会优先载入AOF文件来恢复原始的数据,因为在通常情况下AOF文件保存的数据集要比RDB文件保存的数据集要完整.

02

【NLP论文速递&&源码】Bert模型优化、自回归预训练、键值记忆网络、大规模问答系统训练

本次论文分享内容主要包括以下内容：鲁棒优化Bert模型（RoBERTa）、自回归预训练模型（XLNet）、无监督多任务学习语言模型、生成预训练语言理解、深层上下文单词表示、键值记忆网络、大规模问答系统训练等。

01

Nat. Biotechnol. | 通过迁移学习将单细胞数据映射到参考图谱

本文介绍由德国慕尼黑工业大学的Fabian J. Theis等人发表于Nature Biotechnology 的研究成果：研究人员报道了一种深度学习策略scArches (single-cell architectural surgery)，把查询数据集映射到参考图谱上。scArches不需要原始数据，仅在现有参考图谱上应用迁移学习和参数优化高效分析新数据。利用小鼠大脑、胰腺、免疫和整个有机体图谱例子，作者表明scArches能在去除批次效应的同时保留了生物状态信息。最后，使用scArches把新冠疾病映射到健康图谱上，其保留了COVID-19的疾病变异，从而能够发现疾病特定细胞状态。scArches将通过迭代构建、更新、共享和有效使用参考图谱来促进合作项目。

02

国外大神制作的超棒 Pandas 可视化教程

如果读者们计划学习数据分析、机器学习、或者用 Python 做数据科学的研究，你会经常接触到 Pandas 库。Pandas 是一个开源、能用于数据操作和分析的 Python 库。

02

最新！恶劣天气条件下激光雷达感知研究综述

自动驾驶汽车依靠各种传感器来收集周围环境的信息。车辆的行为是根据环境感知进行规划的，因此出于安全考虑，其可靠性至关重要。有源激光雷达传感器能够创建场景的精确3D表示，使其成为自动驾驶汽车环境感知的宝贵补充。由于光散射和遮挡，激光雷达的性能在雾、雪或雨等恶劣天气条件下会发生变化。这种限制最近促进了大量关于缓解感知性能下降的方法的研究。本文收集、分析并讨论了基于激光雷达的环境感知中应对不利天气条件的不同方面。并讨论了适当数据的可用性、原始点云处理和去噪、鲁棒感知算法和传感器融合等主题，以缓解不利天气造成的缺陷。此外论文进一步确定了当前文献中最紧迫的差距，并确定了有希望的研究方向。

04

pandas.DataFrame()入门

在数据分析和数据科学领域，pandas是一个非常强大和流行的Python库。它提供了高性能、易于使用的数据结构和数据分析工具，其中最重要的是DataFrame类。DataFrame是pandas中最常用的数据结构之一，它类似于电子表格或SQL中的表格。本文将介绍pandas.DataFrame()函数的基本用法，以帮助您入门使用pandas进行数据分析和处理。

01

快速提升效率的6个pandas使用小技巧

文章来源：towardsdatascience 作者：B.Chen 翻译\编辑：Python大数据分析

01

CDP平台上的A-Z数据冒险

在此博客中，我们将带您进行基于角色的数据冒险，并附带简短的演示，以向您展示A-Z数据工作人员的工作流程，该工作流程通过自助服务、无缝集成和云原生技术得到了加速和简化。您将学习CDP平台的所有内容，它们将共同加速您日常的数据工作人员任务。这个以演示为导向的博客旨在激发人们的好奇心和学习，并激发富有成果的互动对话-如果有任何特别的部分引起您的兴趣，我们欢迎您与我们联系。

02

监督学习和非监督学习

人工智能这个行业在现在是非常火爆的，我相信大家都有所了解。我对这个行业的认识是薪资高，门槛高，大部分要求是研究生以上学历。作为普通二本院校的我有点感到绝望~但是学还是要学的，因为我觉得学习本身是为了提升自己的能力和提高自己的生活质量，工作只是提高生活质量的一种手段。所以这几天去接触了一点机器学习方面的知识，了解到了“ 监督学习 ”和 “ 非监督学习 ” 两个基本概念，今天我就来简单分享一下

03

密恐警告：超2000万张，全球最大的人眼图像数据集开源了

在当今世界，基于图像的眼动追踪（eye tracking）变得越来越重要，这是因为人眼运动有可能变革我们与周围计算机系统交互的方式。此外，眼动的方式可以识别甚至在某种程度上预测我们的行动和意图，所以眼动分析可以赋能新的应用，特别是与 VR 或 AR 等现代显示技术结合时。例如，人眼注视（gaze）信号连同人机交互的可能性，使得残疾人能够借助专门为其疾症设计的特殊设备来与环境进行交互。在手术显微镜的应用场景中，外科医生必须进行多种控制行为，这时视觉信号可以用于自动对焦。人眼注视行为还可用于诊断精神分裂症、自闭症、阿尔茨海默症、青光眼等多种疾病。在 VR 或 AR 游戏中，人眼注视信号可用于减少渲染资源的计算。

02

每日学术速递8.22

1.Towards Open-Vocabulary Video Instance Segmentation

03

NAACL2016年度论文：无监督神经网络理解虚构人物关系

【新智元导读】非监督式学习如何确定小说中动态的人物角色关系？本论文提出了一种新的神经网络架构的RMN，通过结合词典学习来对关系描述符进行学习，是深度循环自编码器的一种新的变体。与马尔可夫（HTMM）模型相比，RMN能够学习多种人际关系状态。论文作者包括马里兰大学计算机科学系和高级计算机研究所Mohit Iyyer，Anupam Guha，SnigdhaChaturvedi，Hal Daume III；科纳罗拉大学计算机科学系Jordan Boyd-Graber。摘要理解两个角色之间不断变化的虚构关

08

深入理解Redis持久化Redis 持久化

本文翻译自官方文档 http://redis.io/topics/persistence 。

03

研究表明，有影响力的数据集正在垄断机器学习研究

加州大学和谷歌研究院联合发表的一篇新论文称，少数来自高影响力的西方机构所发表的“基准”计算机数据集逐渐开始主导人工智能研究领域，而这些机构中不乏政府组织。

01

6个提升效率的pandas小技巧

文章来源：towardsdatascience 作者：B.Chen 翻译\编辑：Python大数据分析

02

可自动构造机器学习特征的Python库

机器学习越来越多地从人工设计模型转向使用 H20、TPOT 和 auto-sklearn 等工具自动优化的工具。这些库以及随机搜索（参见《Random Search for Hyper-Parameter Optimization》）等方法旨在通过寻找匹配数据集的最优模型来简化模型选择和机器学习调优过程，而几乎不需要任何人工干预。然而，特征工程作为机器学习流程中可能最有价值的一个方面，几乎完全是人工的。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭