距离上次更新已经过去了一个半月之久,通过与各位读者朋友交流,发现有不少地理和gis的朋友关注我的公众号,可能是之前写的文章多与gis有关
大量研究表明,A股行业有明显的轮动现象,并且与A股相反,行业指数通常呈现动量特征,即前期涨幅高的行业,会延续上涨的趋势,比前期涨幅低的行业有明显超额收益,这一现象之前的文章中也探究过,具体可以参考《研报复制(六):行业轮动的黄金律》。
对于因子的评估,之前的文章中总结了单因子测试的回归法、分层法以及多因子评估的Fama-MacBeth回归(链接见底部)。本文给出因子分析中的双重排序法(double sorting or bivariate sorting) 的原理及代码实现。
本次分享一个交通行业实战项目,这个项目是对出租车GPS数据进行分析,具体内容包括了数据理解、业务场景、数据处理、可视化等。
原题 | 10 Python Pandas tricks that make your work more efficient
又到周末了,东哥赠送5本机器学习的书《机器学习线性代数基础 Python语言描述》,内容非常赞,推荐入手。老样子,免费包邮送出去5本,参与方式见文末~
-------------------------------------------------------
原文是对申万一级行业做的,这里对申万、中信都测了一下, 频率上原文是月频,这里分别测了月频和周频,时间区间同研报
这道题最简单的解法,相信大部分用过pandas的朋友都会,林胖也马上发出了自己的答案:
Fama Macbeth是一种通过回归方法做因子检验,并且可以剔除残差截面上自相关性的回归方法,同时为了剔除因子时序上的自相关性,可以通过Newey West调整对回归的协方差进行调整。
在一个python交流学习群里看到的一个问题, 这里之所以单独拿出来写一下是因为:我一开始也犯过这个错,而且很多人都犯过
可以根据历史数据预测股票价格吗?最直接的回答可能是:“不能”。这是因为股市价格波动很大,并且取决于很多因素。量化所有这些因素几乎是不可能的,因此预测股价仍然是一门没人能掌握的艺术。撇开所有的负面因素不谈,有没有什么方法可以尽可能接近股价?有很多方法可以回答这个问题,但是在这里我们将看到机器学习是如何处理这个问题的。
其中关于动量效应和行业动量纵向切割的部分,已经在上一篇中复制过,本文复制报告关于行业动量的横向切割部分。
导读:本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几个部分:
前几天在Python最强王者交流群【Chloe】问了一道Pandas处理的问题,如下图所示。
pandas中最常用的数据结构是DataFrame,而DataFrame相较于嵌套list或者二维numpy数组更好用的原因之一在于其提供了行索引和列名。本文主要介绍行索引的几种变换方式,包括rename与reindex、index.map、set_index与reset_index、stack与unstack等。
对代码不感兴趣的可以直接跳过第一部分。此外,鉴于经常有读者问到代码,所以这一次除了后台回复“游戏”可以获取代码和数据文件外,也把全部用到的代码汇总到文章末尾,供参考。
数据工程构成了数据科学过程的很大一部分。在 CRISP-DM 中,这个过程阶段称为“数据准备”。它包括数据摄取、数据转换和数据质量保证等任务。在本文[1]章中,我们使用 ChatGPT 和 Python 解决了典型的数据工程任务。通过这样做,我们探索了数据工程与提示工程新学科之间的联系。
Fama-French三因子回归是量化中最经典的模型之一,最早提出是在论文《Common risk factors in the returns on stocks and bonds》中,FAMA三因子回归模型可表示如下
众所周知,我们生活在一个信息时代,数据在其中发挥着关键作用。可以毫不夸张地说,如果你拥有数据,你就拥有一切。
需求:低版本excel对于使用透视表后,索引方向会出现合并,需要将其恢复为“台账”样式。
我相信大家已经阅读了不少有关“机器学习”、“数据科学家”、“数据可视化”等话题的文章。有些人将数据科学称为 21 世纪最性感的工作。 Anaconda 的《2020 年数据科学状况报告》指出,21% 的时间用于数据可视化。使用工具或库来帮助我们完成讲故事的流程很重要。
我是R语言的忠实粉丝,并且靠它吃饭。特别提一下Tidyverse,它是一个功能强大、简洁易懂且文档齐全的数据科学平台。我在此向每一位初学者强烈推荐免费的在线电子书R for Data Science。
前几天在Python最强王者群【wen】问了一个pandas数据合并处理的问题,一起来看看吧。他的原始数据如下所示:
合并数据集,是数据科学中常见的操作。对于有共同标识符的两个数据集,可以使用Pandas中提供的常规方法合并,但是,如果两个数据集没有共同的唯一标识符,怎么合并?这就是本文所要阐述的问题。对此,有两个术语会经常用到:记录连接和模糊匹配,例如,尝试把基于人名把不同数据文件连接在一起,或合并只有组织名称和地址的数据等,都是利用“记录链接”和“模糊匹配”完成的。
Python在数据分析领域有三个必须需要熟悉的库,分别是pandas,numpy和matplotlib,如果排个优先级的话,我推荐先学pandas。
该数据集来源Kaggle,囊括了截至2017/2月份全球星巴克门店的基础信息,其中包括品牌名称、门牌地址、所在国家、经纬度等一系列详细的信息。
前几天在帮助粉丝解决问题的时候,遇到一个简单的小需求,这里拿出来跟大家一起分享,后面再次遇到的时候,可以从这里得到灵感。
对于分类模型,在建立好模型后,我们想对模型进行评价,常见的指标有混淆矩阵、F1值、KS曲线、ROC曲线、AUC面积等。
为了说明这是如何工作的,让我们假设我们有一个简单的数据集,它有一个datetime列和几个其他分类列。您感兴趣的是某一列(“类型”)在一段时间内(“日期”)的汇总计数。列可以是数字、类别或布尔值,但是这没关系。
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes
预测的话就直接输入x代入方程,这是deme仅供参考,更多的可以采用机器学习的一些算法进行求解。
第01章 Pandas基础 第02章 DataFrame运算 第03章 数据分析入门 第04章 选取数据子集 第05章 布尔索引 第06章 索引对齐 第07章 分组聚合、过滤、转换 第08章 数据清理 第09章 合并Pandas对象 第10章 时间序列分析 第11章 用Matplotlib、Pandas、Seaborn进行可视化
计算经纬度的代码网上一搜一大把,通常是单点距离的计算,无法实现批量计算,本文将利用pandas实现亿级经纬度距离代码的实现。 最短距离计算建议参考下文,mapinfo能够很好的实现。 MAPINFO 最小站间距统计
前几天在Python最强王者交流群【东哥】问了一个Python自动化办公的问题。问题如下所示:大佬们,请教一个Python自动化办公问题,我有7个这样的民主评议表格,现在想通过Python批量的计算每个人最后的平均总分,应该怎么处理呢?
从描述统计信息中发现price字段的最小值是0,判定位异常;我们选择price大于0的信息:
泊松和类泊松回归模型常用于基于计数的数据集,即包含整数计数的数据。例如,每小时走进医院急诊室的人数就是一个这样的数据集。
我们正在应对一场空前规模的流行病。全世界的研究人员都在疯狂地试图开发一种疫苗或COVID-19的治疗方法,而医生们正试图阻止这种流行病席卷整个世界。
糖尿病是全球最常见的慢性非传染性疾病之一。流行病学调查显示,我国约11%的成年人患有糖尿病,而在住院患者中这一比例更高。
上一篇文章,我用了4000字这样比较长的篇幅,介绍了一些金融和量化交易相关的基本知识,还大概说了下人工智能在金融方面使用的优劣。这篇文章我们将用一个具体代码来进行一波股票价格预测的实战。
2018 年,谷歌发表了一篇题为《Pre-training of deep bidirectional Transformers for Language Understanding》的论文。
系统:Windows 10 编辑器:JetBrains PyCharm Community Edition 2018.2.2 x64 pandas:1.1.5
这篇推文还是python-matplotlib 散点图的绘制过程,涉及到的内容主要包括matplotlib ax.scatter()、hlines()、vlines()、text()、添加小图片和定制化散点图图例样式等。前期的数据处理部分还是pandas、numpy库的灵活 应用(这里主要涉及可视化的设置,数据处理、分析部分后期会专门开设专辑进行教程讲解。当然大家有不理解地方可以后台和我交流)
先按Mt列进行分组,然后对分组之后的数据框使用idxmax函数取出Count最大值所在的列,再用iloc位置索引将行取出。有重复值的情况
本期的主题是关于python的一个数据分析工具pandas的,归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。文章很短,不用收藏就能Get~
窗口函数是数据库查询中的一个经典场景,在解决某些特定问题时甚至是必须的。个人认为,在单纯的数据库查询语句层面【即不考虑DML、SQL调优、索引等进阶】,窗口函数可看作是考察求职者SQL功底的一个重要方面。
领取专属 10元无门槛券
手把手带您无忧上云