根据日期范围对df进行分类，具有多个因素级别 - 腾讯云开发者社区

解决的一个常见问题是有一定数量的用户和产品，您想推荐哪些产品最有可能对哪些用户有用。存在许多变体：例如，推荐电影（如 Netflix 上），确定在主页上为用户突出显示什么，决定在社交媒体动态中显示什么故事等。解决这个问题的一般方法称为协同过滤，工作原理如下：查看当前用户使用或喜欢的产品，找到其他使用或喜欢类似产品的用户，然后推荐那些用户使用或喜欢的其他产品。

一个企业级数据挖掘实战项目｜客户细分模型（上）

客户细分模型是将整体会员划分为不同的细分群体或类别，然后基于细分群体做管理、营销和关怀。客户细分模型常用于整体会员的宏观性分析以及探索性分析，通过细分建立初步认知，为下一步的分析和应用提供基本认知。

您找到你想要的搜索结果了吗？

是的

没有找到

kaggle示例1—研究生录取判断问题

基于树模型的时间序列预测实战

现在，我们将了解一个与经典ARIMA时间序列建模不同的新领域。在监督学习模型中，仅仅使用单变量时间序列似乎信息有限，预测也比较困难。因此，为了生成足够的特征，我们需要采取一些方法，例如创建大量的滞后变量。此外，关于预测目标值，我们需要用过去的项来预测未来的项，而且需要决定是一步领先还是多步领先。

从多个数据源中提取数据进行ETL处理并导入数据仓库

ETL（Extract, Transform, Load）是一种广泛应用于数据处理和数据仓库建设的方法论，它主要用于从各种不同的数据源中提取数据，经过一系列的处理和转换，最终将数据导入到目标系统中。本文将介绍如何使用Python进行ETL数据处理的实战案例，包括从多个数据源中提取数据、进行数据转换和数据加载的完整流程。

因果推断（一）合成控制法（SCM）

在互联网时代，产品迭代速度越来越快，营销活动也越来越多。分析师因此需要快速的量化每次迭代或每次营销的效果，探索改变与结果之间的因果关系，并将优秀的改变用以引导迭代方向，指导业务朝正确方向行走。

经典时间序列模型 DeepAR 预测股票趋势

在时间序列预测领域，根据历史数据预测未来值的能力至关重要。因此，先进的机器学习算法已变得不可或缺。DeepAR 是一种功能强大的算法，它在处理复杂的时间模式和生成准确预测方面备受关注。特别适用于需要同时预测多个相关时间序列的场景，使其成为金融、电子商务和供应链管理等各个领域的重要工具。本文将讨论 DeepAR 预测算法，并将其用于时间序列预测。

数仓建模系列：关于事实表设计，多业务过程要不要合并，依据啥？

在构建数据仓库总线矩阵完成后，可着手事实表和维度表的设计。数仓总线矩阵里每个业务过程都会生成至少一张事实表（识别业务过程的本质就是识别要构建的事实表），因为有可能一个原子事件涉及多张表的情况。同时，因上游业务系统老旧，表设计水平、使用场景等因素，或并不是都是标准3NF范式设计，将多个业务过程事件发生存储在一张表的情况，对于此种情况做事实表设计时，根据使用场景可能会进行表拆分考虑，这里不再展开。这里重点讲述尽量可能将分散在各个业务系统中相同或相似的业务过程进行整合的情况。

数据代码分享|R语言用CHAID决策树分析花卉栽培影响因素数据可视化、误差分析

在植物学和农业科学领域，理解影响植物生长和花朵产生的因素对于提高生产效率和优化栽培方法具有重要意义。因此，对于一个包含多个变量的数据集进行全面的分析和可视化是非常有帮助的。

基于PySpark的流媒体用户流失预测

对于音乐流媒体业务来说，确定可能流失的用户（即有可能从付费降级到取消服务的用户）是关键。

fast.ai 机器学习笔记（四）

这个想法是我们有一些数据（x），然后我们对这些数据做一些操作，例如，我们用一个权重矩阵乘以它（f(x)）。然后我们对这个结果做一些操作，例如，我们通过 softmax 或 sigmoid 函数处理它（g(f(x))）。然后我们对这个结果做一些操作，比如计算交叉熵损失或均方根误差损失（h(g(f(x)))）。这将给我们一些标量。这里没有隐藏层。这有一个线性层，一个非线性激活函数是 softmax，一个损失函数是均方根误差或交叉熵。然后我们有我们的输入数据。

时间序列预测（一）基于Prophet的销售额预测

传统的时间序列算法很多，例如AR、MA、ARIMA等，对于非专业人员来说显得很难上手。而Prophet相对来说就友好多了，而且预测效果又很不错，所以用它来预测时间序列数据再适合不过了。本文主要参考基于facebook的时间序列预测框架prophet的实战应用[1]。

统计学方差分析_python编写计算方差的函数

从以上资料可以看出，24个患者与健康人的血磷值各不相同，如果用离均差平方和（SS）描述其围绕总均值的变异情况，则总变异有以下两个来源：

SAP信用管理

1.一个集团下不同公司能够承受的信用额度各不相同，可以定义多个信贷控制范围把对应的公司分配到不同的信贷控制范围之下，在每个公司对应的信贷控制范围设定信贷限额；

Python让Excel飞起来—批量进行数据分析

corr()函数默认计算的是两个变量之间的皮尔逊相关系数。该系数用于描述两个变量间线性相关性的强弱，取值范围为[-1,1]。系数为正值表示存在正相关性，为负值表示存在负相关性，为0表示不存在线性相关性。系数的绝对值越大，说明相关性越强。- 上表中第1行第2列的数值0.982321，表示的就是年销售额与年广告费投入额的皮尔逊相关系数，其余单元格中数值的含义依此类推。需要说明的是，上表中从左上角至右下角的对角线上的数值都为1，这个1其实没有什么实际意义，因为它表示的是变量自身与自身的皮尔逊相关系数,自然是1。- 从上表可以看到，年销售额与年广告费投入额、成本费用之间的皮尔逊相关系数均接近1，而与管理费用之间的皮尔逊相关系数接近0，说明年销售额与年广告费投入额、成本费用之间均存在较强的线性正相关性，而与管理费用之间基本不存在线性相关性。前面通过直接观察法得出的结论是比较准确的。- 第2行代码中的read_excel()是pandas模块中的函数，用于读取工作簿数据。3.5.2节曾简单介绍过这个函数，这里再详细介绍一下它的语法格式和常用参数的含义。- read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None)

Julia中的数据分析入门

Julia的入门非常简单，尤其是当您熟悉Python时。在本篇文章中，我们将使用约翰霍普金斯大学系统科学与工程中心在其GitHub存储库中提供的Covid-19数据（https://github.com/CSSEGISandData/）。

为什么独热编码会引起维度诅咒以及避免他的几个办法

特征工程是数据科学模型开发的重要组成部分之一。数据科学家把大部分时间花在数据处理和特征工程上，以便训练一个鲁棒模型。数据集由各种类型的特征组成，包括类别、数字、文本、日期时间等。

用 Pandas 做 ETL，不要太快

ETL 的全称是 extract, transform, load，意思就是：提取、转换、加载。ETL 是数据分析中的基础工作，获取非结构化或难以使用的数据，把它变为干净、结构化的数据，比如导出 csv 文件，为后续的分析提供数据基础。

Pandas 2.2 中文官方教程和指南（十四）

pandas 提供了用于操作Series和DataFrame的方法，以改变数据的表示形式，以便进行进一步的数据处理或数据汇总。

数据挖掘从入门到放弃（一）：线性回归和逻辑回归

“ 数据挖掘算法基于线性代数、概率论、信息论推导，深入进去还是很有意思的，能够理解数学家、统计学家、计算机学家的智慧，这个专栏从比较简单的常用算法入手，后续研究基于TensorFlow的高级算法，最好能够参与到人脸识别和NLP的实际项目中，做出来一定的效果。”

数据挖掘从入门到放弃：线性回归和逻辑回归

统计系列（四）利用Python进行假设检验

核心：一个多分类自变量与另一个多分类因变量。如检验学历（低、中、高）在收入等级（低、中、高）上的差异

一个企业级数据挖掘实战项目｜客户细分模型（下）

本次实战项目共分为上下两部分，上篇《一个企业级数据挖掘实战项目｜客户细分模型（上）》包括数据探索性数据分析，缺失值等处理，各个关键变量的分析。最后通过聚类方法，将产品进行聚类分类，并通过词云图和主成分分析各个类别聚类分离效果。

周志华团队开源深度森林DF21, 超参少、训练效率高，快来亲自上手！

在人工智能的发展历史上，神经网络这一“物种”可谓是经历了起起伏伏，不过时至今日，神经网络总算是修得一段“正果”，而在中国近几年的AI发展中，也有那么几个研究总是时不时撩人心弦，今天要介绍的于2017年被南京大学周志华和其博士生冯霁等人提出的深度森林框架gcForest就是其中之一。

3 个不常见但非常实用的Pandas 使用技巧

我们创建有一个 3 列 100 行的 DataFrame。date 列包含 100 个连续日期，class 列包含 4 个以对象数据类型存储的不同值，amount 列包含 10 到 100 之间的随机整数。

3 个不常见但非常实用的Pandas 使用技巧

来源：DeepHub IMBA本文共1000字，建议阅读5分钟本文为你演示一些不常见，但是却非常有用的 Pandas 函数。创建一个示例 DataFrame 。 import numpy as npimport pandas as pddf = pd.DataFrame({ "date": pd.date_range(start="2021-11-20", periods=100, freq="D"), "class": ["A","B","C","D"] * 25, "amount": np.

完整数据分析流程：Python中的Pandas如何解决业务问题

作为万金油式的胶水语言，Python几乎无所不能，在数据科学领域的作用更是不可取代。数据分析硬实力中，Python是一个非常值得投入学习的工具。

Pandas 2.2 中文官方教程和指南（十·二）

将多级索引的 DataFrames 存储为表与存储/选择同质索引的 DataFrames 非常相似。

《数据仓库工具箱》- 第三章零售业务中的知识点汇总

维度定义的是谁，什么时候，在哪的问题，作为聚合查询中的查询条件，分组条件，排序条件

玩转Pandas透视表

在python中我们可以通过pandas.pivot_table函数来实现数据透视表的功能。本篇文章介绍了pandas.pivot_table具体的使用方法，在最后还准备了一个备忘单，希望能够帮助你记住如何使用pandas的pivot_table。

Snorkel 学习笔记简介与入门 LF TF SF Labeling Functions Transformation Function Slicing Function 示例

弱监督（Weak Supervision）可以让我们低成本的利用领域专家的知识来程序化的标注上百万级别的数据样本，从而帮助我们解决人工智能时代的数据瓶颈问题。更确切地说，这是一个帮助将领域专家的知识编码到AI系统中的框架，专家知识注入的方式可以采用手写的推理规则或者远程监督。

使用Plotly创建带有回归趋势线的时间序列可视化图表

为了说明这是如何工作的，让我们假设我们有一个简单的数据集，它有一个datetime列和几个其他分类列。您感兴趣的是某一列(“类型”)在一段时间内(“日期”)的汇总计数。列可以是数字、类别或布尔值，但是这没关系。

手把手教你实现共享单车数据分析及需求预测

作者：曼纽尔·阿米纳特吉（Manuel Amunategui）、迈赫迪·洛佩伊（Mehdi Roopaei）

TIANCHI-全球城市计算挑战赛-完整方案及关键代码分享（季军）

首先很幸运能和杰少、林有夕成为队友，与你们一起比赛真是件无比轻松的事情。同时希望我的分享与总结能给大家带来些许帮助，并且一起交流学习。

如何消除多重共线性

机器学习是一种解决不能明确编码的问题的方法，例如，分类问题。机器学习模型将从数据中学习一种模式，因此我们可以使用它来确定数据属于哪个类。

TIANCHI-全球城市计算挑战赛-完整方案及关键代码分享（季军）

8个数据清洗Python代码，复制可用，最长11行 | 资源

最近，大数据工程师Kin Lim Lee在Medium上发表了一篇文章，介绍了8个用于数据清洗的Python代码。

你需要学会100个使用R语言进行的统计检验例子吗

所以，我让chatGPT帮我罗列了最常见的10个使用R语言进行的统计检验例子，如下所示，以供参考：

代码工具 | 数据清洗，试试这 8套Python代码

数据清洗，是进行数据分析和使用数据训练模型的必经之路，也是最耗费数据科学家/程序员精力的地方。

8个数据清洗Python代码，复制可用，最长11行

原作 Kin Lim Lee 乾明编译整理量子位出品 | 公众号 QbitAI

8个数据清洗Python代码，复制可用，最长11行 | 资源

最近，大数据工程师Kin Lim Lee在Medium上发表了一篇文章，介绍了8个用于数据清洗的Python代码。

8个用于数据清洗的Python代码

数据清洗，是进行数据分析和使用数据训练模型的必经之路，也是最耗费数据科学家/程序员精力的地方。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐