如何从现有数据集创建新的数据文件以加载到Rattle中？_如何从列表中查找数据框中的子字符串以创建新列？_如何从现有数据帧中某一列的前10位创建新的pandas数据帧 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

干货 | 19款最好用的免费数据挖掘工具大汇总

Power Query 真经 - 第 1 章 - 基础知识

Power Query 的设计目的就是在业务分析师使用数据之前将数据加载到目标区域的表中。收集数据并将其重塑为所需的格式，Power Query 处理数据的基本流程，如图 1-1 所示。

干货 | 19款最好用的免费数据挖掘工具大汇总

Hudi：Apache Hadoop上的增量处理框架

随着ApacheParquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。

0870-CDP公有云发布Iceberg技术预览版

在过去的十年中，我们的客户成功部署的大规模数据集群已成为推动需求的大数据飞轮，它可以引入更多的数据，应用更复杂的分析，并成就了从业务分析师到数据科学家的许多新数据从业者。这种前所未有的大数据工作负载并非没有挑战。数据架构层就是这样一个领域，不断增长的数据集已经突破了可扩展性和性能的极限。数据爆炸必须用新的解决方案来应对，这就是为什么我们很高兴在Cloudera Data Platform (CDP)引入专为大规模数据集设计的下一代表格式(table format) - Apache Iceberg。今天，我

干货：用Python加载数据的5种不同方式，收藏！

数据是数据科学家的基础，因此了解许多加载数据进行分析的方法至关重要。在这里，我们将介绍五种Python数据输入技术，并提供代码示例供您参考。

如何在Kaggle上受到万人敬仰？

编译 | 姗姗出品 | 人工智能头条（公众号ID：AI_Thinker）【人工智能头条导读】Kaggle，对于很多学习并从事数据科学和机器学习的同学们来说应该一点也不陌生。除了每年举办一次的 Kaggle 竞赛被大家广泛关注着，相信老司机们更是经常使用 Kaggle 的数据集并在上面进行实践练习。李飞飞也对 Kaggle 评论道：“Kaggle 是搜寻、分析公共数据集，开发机器学习模型，和提高数据科学专业水平的最佳场所。” 去年 Google 收购 Kaggle ，并提出 “推动 AI 技术的分享和推广

130 万条深圳通刷卡数据分析

这是一份来自深圳市政府数据开放平台的深圳通刷卡数据，时间区间为 2018-08-31 到 2018-09-01，总计 1,337,000 条记录，大小为 335 M，包含 11 个字段。

Apache Hudi | 统一批和近实时分析的增量处理框架

随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。

印尼医疗龙头企业Halodoc的数据平台转型之路：基于Apache Hudi的数据平台V2.0

数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们，它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥着重要作用。作为印度尼西亚最大的在线医疗保健公司的数据工程师，我们面临的主要挑战之一是在整个组织内实现数据民主化。Halodoc 的数据工程 (DE) 团队自成立以来一直使用现有的工具和服务来维护和处理大量且多样的数据，但随着业务的增长，我们的数据量也呈指数级增长，需要更多的处理资源。由于现代数据平台从不同的、多样化的系统中收集数据，很容易出现重复记录、错过更新等数据收集问题。为了解决这些问题，我们对数据平台进行了重新评估，并意识到架构债务随着时间的推移积累会导致大多数数据问题。我们数据平台的所有主要功能——提取、转换和存储都存在问题，导致整个数据平台存在质量问题。现有数据平台印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0 在过去几年中为我们提供了很好的服务，但它的扩展性满足不了不断增长的业务需求。

MongoDB大量集合启动加载优化原理

启动数据加载时间对于很多数据库来说是一个不容忽视的因素，启动加载慢直接导致数据库恢复正常服务的RTO时间变长，影响服务可用性。比如Redis，启动时要加载RDB和AOF文件，把所有数据加载到内存中，根据节点内存数据量的不同，加载时间可能达到几十分钟甚至更长。

redis RDB持久化方式的工作原理是怎样的_杜兰特挽留纳什

我们已经知道对于一个企业级的redis架构来说，持久化是不可减少的，持久化主要是做灾难恢复，数据恢复，也可以归类到高可用的一个环节里面，比如你redis整个挂了，然后redis就不可用了，你要做的事情是让redis变得可用，尽快变得可用，重启redis，尽快让它对外提供服务。

Power Query 真经 - 第 8 章 - 纵向追加数据

数据专业人员经常做的工作之一是将多个数据集追加到一起。无论这些数据集是包含在一个 Excel 工作簿中，还是分布在多个文件中，问题是它们需要被纵向【追加】到一个表中。

大数据架构模式

大数据架构的目的是处理传统数据库系统无法处理的过大或复杂的数据的摄取、处理和分析。

技术分享 | Spark RDD详解

1、RDD是什么 RDD：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。为什么会产生RDD？（1）传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法（2）RDD的具体描述RDD（弹性数据集）是Spark提供的最重要的抽象

Buffer Pool缓存页不够时，如何淘汰缓存？

执行CRUD都会将磁盘数据页加载到缓存页，那在加载数据到缓存页时，必然是要加载到空闲缓存页，所以必须要从free中找个空闲缓存页，然后把磁盘数据页加载到该空闲缓存页

Google Colab中运行谷歌云盘中的文件

Colab在使用过程中，对于本地训练集，每次连接都要重新上传，很麻烦。

用R语言实现神经网络预测股票实例

因此，我们使用神经网络来解决分类问题。通过分类，我们指的是按类别对数据进行分类的分类。例如，水果可分为苹果，香蕉，橙等。

TensorFlow学习笔记--CIFAR-10 图像识别

是用于普通物体识别的小型数据集，一共包含 10个类别的 RGB彩色图片（包含：（飞机、汽车、鸟类、猫、鹿、狗、蛙、马、船、卡车）。图片大小均为 3232像素*，数据集中一共有 50000 张训练图片和 1000 张测试图片。部分代码来自于tensorflow官方，以下表格列出了所需的官方代码。

SPSS中的等级线性模型Multilevel linear models研究整容手术数据

我们将使用整容手术数据说明两种中心化类型。将此文件加载到SPSS中。假设我们要中心化的变量BDI。

面试官：你说你精通Redis，你看过持久化的配置吗？

前边我们已经介绍了Redis五种数据类型的命令与配置文件的基本配置，今天让我们从理论和配置两个层面来揭开Redis持久化的神秘面纱。

【Python 数据科学】Dask.array：并行计算的利器

Dask是一个用于并行计算的强大工具，它旨在处理大规模数据集，将数据拆分成小块，并使用多核或分布式系统并行计算。Dask提供了两种主要的数据结构：Dask.array和Dask.dataframe。在本文中，我们将重点介绍Dask.array，它是Dask中用于处理多维数组数据的部分。

CDP上使用Iceberg 的 5 个理由

Apache Iceberg是一种高性能的开放表格式，诞生于云中，可扩展到 PB 级，独立于底层存储层和访问引擎层。

教你几招，Pandas 轻松处理超大规模数据

处理大规模数据集时常是棘手的事情，尤其在内存无法完全加载数据的情况下。在资源受限的情况下，可以使用 Python Pandas 提供的一些功能，降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。

深度特征合成与遗传特征生成，两种自动特征生成策略的比较

特征工程是从现有特征创建新特征的过程，通过特征工程可以捕获原始特征不具有的与目标列的额外关系。这个过程对于提高机器学习算法的性能非常重要。尽管当数据科学家将特定的领域知识应用特定的转换时，特征工程效果最好，但有一些方法可以以自动化的方式完成，而无需先验领域知识。

Python开发物联网数据分析平台---介绍

将数据以序列化对象直接存储，相比通常的Excel,Csv格式文件大小减少了三分之一。

Apache Hudi和Presto的前世今生

一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。

Power Query 真经 - 第 7 章 - 常用数据转换

分析师面临的普遍问题是，无论从哪里获得数据，大部分情况都是一种不能立即使用的状态。因此，不仅需要时间把数据加载到文件中，还得花更多的时间来清洗它，改变它的结构，以便后续做分析的时候能更好的使用这个数据。

使用 Spark | 手把手带你十步轻松拿下 Spark SQL 使用操作

在《20张图详解 Spark SQL 运行原理及数据抽象》的第 5 节“SparkSession”中，我们知道了 Spark SQL 就是基于 SparkSession 作为入口实现的。

Apache Hudi重磅RFC解读之记录级别全局索引

Hudi表允许多种类型操作，包括非常常用的upsert，当然为支持upsert，Hudi依赖索引机制来定位记录在哪些文件中。

关于Redis的几件小事 | 持久化/缓存雪崩与穿透

redis持久化的意义，在于故障恢复。如果没有对数据进行持久化，那么如果redis遇到灾难性的故障，就会丢失所有的数据。如果通过redis的持久化机制将数据持久化到硬盘上面去，然后在定期将磁盘上的文件备份到一起其他的服务器上面(比如:云服务器),这样就可以保证即使redis遇到了灾难事故，也可以使用提前备份的文件对数据进行回复，之后丢失最近的一部分数据，而不会全部丢失数据。

R语言从入门到精通：Day15（聚类分析）

聚类分析是一种数据归约技术，旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干个类。

SQLServer性能调优-分组聚合

聚合实际上对数据做分组统计，SQL Server使用两种操作符来实现聚合，流聚合（Stream Aggregation）和哈希聚合（Hash aggration）。流聚合是非阻塞性的，具有流的特性，流聚合操作符；边处理数据，边输出聚合的结果。而哈希聚合是阻塞性的，只要处理完所有的数据，才会输出聚合的结果。

初识 Spark | 带你理解 Spark 中的核心抽象概念：RDD

RDD（Resilient Distributed Dataset, 弹性分布式数据集）是 Spark 中相当重要的一个核心抽象概念，要学习 Spark 就必须对 RDD 有一个清晰的认识。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐