首页
学习
活动
专区
工具
TVP
发布

机器学习养成记

专栏作者
151
文章
203943
阅读量
43
订阅数
LeetCode刷题DAY 30:删除与获得点数
给定一个整数数组 nums ,每次操作中,选择任意一个 nums[i] ,删除它并获得 nums[i] 的点数,同步删除每个等于 nums[i] - 1 或 nums[i] + 1 的元素。初始点数为0,返回可获得的最大点数。如:nums=[3,4,2],返回6。(首先选择4,积累4点数,同时删除3,再选择2,再积累2点数,总共为6。其他方式积累的点数均小于6)
三猫
2020-06-19
3770
随机森林(R语言)
随机森林可处理大量输入变量,并且可以得到变量重要性排序,在实际中,有广泛应用。本文简要展示R语言实现随机森林的示例代码,并通过F值判断模型效果。
三猫
2018-10-24
1.8K0
最小二乘法来源(翻译)
翻译了一篇博文,原文pdf可后台回复“最小二乘”下载。 当面试时问到最小二乘损失函数的基础数学知识时,你会怎么回答? Q: 为什么在回归中将误差求平方? A:因为可以把所有误差转化为正数。 Q:为什么
三猫
2018-10-24
1.5K0
WOE与IV值
计算WOE和IV是评分卡模型的一个重要环节,之前没有仔细研究过,但总觉得他们既然可以放在评分卡模型中去解决相应的问题,那应该也可以放在其他模型中解决相似的问题,所以还是很值得研究一下。下文是自己对这两个指标的理解整理。
三猫
2018-10-08
2.4K2
one-hot编码
以Type变量为例,进行one-hot编码。为了观察结果方便,把顺序打乱,观察编码后结果。
三猫
2018-07-23
1.2K0
关联分析(2):Apriori产生频繁项集
在关联分析(1):概念及应用中,我们介绍了关联分析的应用场景、基本概念和规则产生思路。在本次的文章中,我们将介绍Apriori算法频繁项集产生的原理。文章中会涉及专有名词,不清楚概念的可在上一篇文章中查看。
三猫
2018-07-23
9910
关联分析(1):概念及应用
关联分析应用在项不多的情况下,从整体数据中挖掘潜在关联。具体应用场景可分为如下几个:
三猫
2018-07-23
1.4K0
Twitter情感分析CNN+word2vec(翻译)
Rickest Ricky 对Twitter内容做了一系列的文本分析处理,并把内容整理成博文发布到:https://medium.com/@rickykim78。本文是对他此项目第11部分的部分内容翻译,主要是通过CNN和word2vec进行文本分析,完整内容及代码可以在github上找到:https://github.com/tthustla/twitter_sentiment_analysis_part11/blob/ master/Capstone_part11.ipynb
三猫
2018-07-23
1.5K0
特征工程(一):前向逐步回归(R语言)
“ 建模过程中,选择合适的特征集合,可以帮助控制模型复杂度,防止过拟合等问题。为了选取最佳的特征集合,可以遍历所有的列组合,找出效果最佳的集合,但这样需要大量的计算。本文介绍的前向逐步回归法是针对最小二乘法的修改。相对于要将所有组合情况遍历一遍,前向逐步回归可以大大节省计算量,选择最优的特征集合,从而解决过拟合问题。” 前向逐步回归 前向逐步回归的过程是:遍历属性的一列子集,选择使模型效果最好的那一列属性。接着寻找与其组合效果最好的第二列属性,而不是遍历所有的两列子集。以此类推,每次遍历时,子集都包含上一次
三猫
2018-04-10
1.3K0
用机器学习更快了解用户(翻译)
“ 英文博文的部分翻译。英文原文链接:https://erikbern.com/2017/12/12/learning-from-users-faster-using-machine-learning.html” ---- 几周前我产生了一个非常有意思的想法。通过假设一个例子来解释就是:你正在经营一个电子商务网站,你想优化购买的数量。并且假设,我们希望通过A/B测试或者基本的数据切片分割方法,来尽可能多的从用户本身得到相应经验,预测用户的转化情况,但有一个一直存在的问题就是有太多的不确定性因素。 我们
三猫
2018-04-10
5730
Bagging算法(R语言)
Bagging算法(bootstrap aggregation)由Leo Breiman提出。是一种在每个自助样本集上建立基分类器,通过投票指派得到测试样本最终类别的方法。 Bagging算法 从数据集有放回的随机抽取样本,生成多个自助样本集,每个自助样本集大小与原数据集一致,因此一些样本可能在同一个自助样本集中出现多次。对每个自助样本集训练一个基学习器,常用的基学习器为二元决策树,因为对于有复杂决策边界的问题,二元决策树性能不稳定,这种不稳定可以通过组合多个决策树模型来客服。最终,对于回归问题,结果
三猫
2018-04-10
1.6K0
数据分析小案例(一):商业街抽奖(python)
最近有很多以小说的方式讲解数据分析的书,比如在看的这本《菜鸟侦探挑战数据分析》。里面的程序以R语言实现,案例都很简单,正巧最近在学习python,就尝试把里面的案例用python实现一下。 案件回顾 商业街抽奖 宣传说“平均每100人就能有1人抽中一等奖” 中奖率由店家调整——1% 每天的客人超过100人——一周总共有超过700人参与抽奖 1周内开出一等奖次数——5次(问题:1周之内每天都有超过100人抽奖,但是没有产生7个一等奖,只产生了5个,是不是有猫腻?) 模拟实验与分析 对于出现的问题,首先通过p
三猫
2018-04-10
1.5K0
小案例(四):销售额下滑(python)
案件回顾 饭团销售额下滑 酒馆的热销菜品之一饭团,近几个月销量比去年同期少了约2成 酒馆给出了47种菜品,三个月内每天的销售数据(问题:什么原因导致了饭团销量的下降?) 菜品销量变化分析 将数据存储为csv格式,导入python。为了直观的看看饭团销售额的时间序列,画出饭团3个月内的销售额时间序列图。 menus.日期 = pd.to_datetime(menus.日期) import matplotlib.pyplot as plt import pylab menus.index = menus.i
三猫
2018-04-10
9100
小案例(五):销量预测(python)
案件回顾 饭团销售额下滑 现有冰激凌店一年的历史销售数据 数据包括单日的销售量、气温、周几(问题:如何用这些数据预测冰激凌的销量?) 模拟实验与分析 将数据存储为csv格式,导入python。并画出散点图,观察气温和销售量的关系。 import pandas as pd icecream = pd.read_csv("icecream.csv") import matplotlib.pyplot as plt import pylab plt.rcParams['font.sans-serif'] = [
三猫
2018-04-10
3.3K1
AdaBoost算法(R语言)
Boost算法是根据Valiant提出的PAC学习模型衍生得到,是一种可以自适应的改变训练样本的分布,从而使得基分类器聚焦在特殊样本的迭代方法。从基本的Boost算法原理,发展了很多不同的提升算法,如AdaBoost,Gradient Boosting等,本文着重介绍AdaBoost算法。 AdaBoost算法 与Bagging算法(R语言)不同的是,AdaBoost给每一个训练样本赋予一个权值,并且可以在每次提升后,自动调整权值。在从原始数据集抽取自助样本集时,权值可以影响抽样分布。并且此算法对每个
三猫
2018-04-10
2K0
ggplot2:正负区分条形图及美化
在数据分析报告中,条形图是很常见的一种表现形式,可以的反应各项之间的比较情况。在实际的应用中,为了更加直接、美观,对图表的展现形式也有了越来越高的要求。通过强大的ggplot2包,也可以画出有特色的条
三猫
2018-04-10
6.4K1
ggplot2:结合ggmap绘制地图
ggmap包整合了四种地图资源,分别是Google、OpenStreetMaps、Stamen和Cloudmade。可以方便的与ggplot进行涂层叠加,实现在R中的地图绘制需求。 ggmap简介 1,get_map( ):ggmap包中最基本函数,用来下载地图。注意,要访问外国网站后才能下载地图。 2,geocode( ):用来返回某地的经纬度,比如要查询北京的经纬度。 📷 结果为在谷歌地图上,北京的经纬度查询信息。设置参数,可以得到更详细的地址信息。 📷 3,ggmap( ):
三猫
2018-04-10
2.6K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档