首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

机器学习基础与实践(一)——数据清洗

想写这个系列很久了,最近刚好项目结束了闲下来有点时间,于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的书,每本书都各有侧重点,机器学习实战和集体智慧编程更偏向与实战,侧重于对每个算法的实际操作过程,但是没有对整个数据挖掘项目做介绍,李航老师的统计学习方法和周志华老师的机器学习这两本书侧重对原理的讲解和公式的推导,但是实战方面可能会少一点。 我结合之前看过的书,以及自己的一些项目经验做了一些总结,一是回顾自己还有哪些遗漏,二是希望给新入门的同学一个参考。至于编程语言,主要用python,也会有少部

07

机器学习基础与实践(一)----数据清洗

本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!   想写这个系列很久了,最近刚好项目结束了闲下来有点时间,于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的书,每本书都各有侧重点,机器学习实战和集体智慧编程更偏向与实战,侧重于对每个算法的实际操作过程,但是没有对整个数据挖掘项目做介绍,李航老师的统计学习方法和周志华老师的机器学习这两本书侧重对原理的讲解和公式的推导,但是实战方面可能会少一点。我结合之前看过的书,以及自己的一些项目经验做了一些总结

06

卡方检验spss步骤_数据分析–学统计&SPSS操作

我是一个在教育留学行业8年的老兵,受疫情的影响留学行业受挫严重,让我也不得不积极寻找新的职业出路。虽然我本身是留学行业,但对数据分析一直有浓厚的兴趣,日常工作中也会做一些数据的复盘分析项目。加上我在留学行业对于各专业的通透了解,自2016年起,在各国新兴的专业–商业分析、数据科学都是基于大数据分析的专业,受到留学生的火爆欢迎,可见各行各业对于数据分析的人才缺口比较大,所以数据分析被我作为跨领域/转岗的首选。对于已到而立之年的我,这是一个重要的转折点,所以我要反复对比课程内容选择最好的,在7月中旬接触刚拉勾教育的小静老师后,她给我详细介绍了数据分析实战训练营训练营的情况,但我并没有在一开始就直接作出决定。除了拉勾教育之外,我还同时对比了另外几个同期要开设的数据分析训练营的课程,但对比完之后,基于以下几点,我最终付费报名了拉勾教育的数据分析实战训练营:

01

R语言用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模

随机波动率(SV)模型是常用于股票价格建模的一系列模型。在所有的SV模型中,波动率都被看作是一个随机的时间序列。然而,从基本原理和参数布局的角度来看,SV模型之间仍有很大的不同。因此,为一组给定的股票价格数据选择最合适的SV模型对于对股票市场的未来预测非常重要。为了实现这一目标,可以使用留一交叉验证(LOOCV)方法。然而,LOOCV方法的计算成本很高,因此它在实践中的应用非常有限。在对SV模型的研究中,我们提出了两种新的模型选择方法,即综合广泛适用信息准则(iWAIC)和综合重要性抽样信息准则(iIS-IC),作为近似LOOCV结果的替代品。在iWAIC和iIS-IC方法中,我们首先计算每个观测值的期望似然,作为相对于相应的潜变量(当前的对数波动参数)的积分。由于观测值与相应的潜变量高度相关,每个第 t 个观测值(y obs t)的综合似然值期望接近于以 y obs t 为保持数据的模型所计算的 y obs t 的期望似然值。其次,在计算信息标准时,综合期望似然被用作期望似然的替代。由于相对于潜变量的整合在很大程度上减少了模型对相应观测值的偏差,因此整合后的信息标准有望接近LOOCV结果。为了评估iWAIC和iIS-IC的性能,我们首先使用模拟数据集进行了实证研究。该研究结果表明,iIS-IC方法比传统的IS-IC有更好的性能,但iWAIC的性能并不优于非综合WAIC方法。随后,利用股票市场收益数据进行了进一步的实证研究。根据模型的选择结果,对于给定的数据,最好的模型是具有两个独立自回归过程的SV模型,或者是具有非零预期收益的SV模型。

06

用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模

随机波动率(SV)模型是常用于股票价格建模的一系列模型。在所有的SV模型中,波动率都被看作是一个随机的时间序列。然而,从基本原理和参数布局的角度来看,SV模型之间仍有很大的不同。因此,为一组给定的股票价格数据选择最合适的SV模型对于对股票市场的未来预测非常重要。为了实现这一目标,可以使用留一交叉验证(LOOCV)方法。然而,LOOCV方法的计算成本很高,因此它在实践中的应用非常有限。在对SV模型的研究中,我们提出了两种新的模型选择方法,即综合广泛适用信息准则(iWAIC)和综合重要性抽样信息准则(iIS-IC),作为近似LOOCV结果的替代品。在iWAIC和iIS-IC方法中,我们首先计算每个观测值的期望似然,作为相对于相应的潜变量(当前的对数波动参数)的积分。由于观测值与相应的潜变量高度相关,每个第 t 个观测值(y obs t)的综合似然值期望接近于以 y obs t 为保持数据的模型所计算的 y obs t 的期望似然值。其次,在计算信息标准时,综合期望似然被用作期望似然的替代。由于相对于潜变量的整合在很大程度上减少了模型对相应观测值的偏差,因此整合后的信息标准有望接近LOOCV结果。为了评估iWAIC和iIS-IC的性能,我们首先使用模拟数据集进行了实证研究。该研究结果表明,iIS-IC方法比传统的IS-IC有更好的性能,但iWAIC的性能并不优于非综合WAIC方法。随后,利用股票市场收益数据进行了进一步的实证研究。根据模型的选择结果,对于给定的数据,最好的模型是具有两个独立自回归过程的SV模型,或者是具有非零预期收益的SV模型。

02
领券