首页
学习
活动
专区
工具
TVP
发布

机器学习之旅

专栏作者
74
文章
65808
阅读量
17
订阅数
pandas数据读取的问题记录
最近发现pandas的一个问题,记录一下: 有一组数据(test.txt)如下:
sladesal
2018-11-09
1.2K0
GolVe向量化做文本分类向量化文本分类
第一种是常规方法的one-hot-encoding的方法,常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本:
sladesal
2018-10-08
1.7K0
Google团队在DNN的实际应用方式的整理
很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouTube Recommendations进行交流,梳理如下:
sladesal
2018-10-08
6921
Stanford Word Segmenter问题整理
最近在做一些nlp相关的项目,在涉及到Stanford CoreNLP工具包处理中文分词的时候,发现耗时问题很严重:
sladesal
2018-09-26
1K0
R开发:常用R语言包介绍
r与python差异比较大的一个地方就是,python的机器学习算法集中程度比较高,比如sklearn,就集成了很多的算法,而R语言更多时候需要一个包一个包去了解,比较费时费力,对于python转过来的朋友非常不友好,抽空整理了工作中常用的R包如下:
sladesal
2018-08-27
9640
理论:因子分析原理剖析
F1,F2,F3...为前m个因子包含数据总量(累计贡献率)不低于80%。可取前m各因子来反映原评价
sladesal
2018-08-27
2K0
理论:聚类算法思路总结
常见的为欧式距离(L1 norm)&&p=2,拓展的可以有闵可夫斯基距离(L2 norm)&&p=1:
sladesal
2018-08-27
4120
应用:推荐系统-威尔逊区间法
理论上讲,p越大应该越好,但是n的不同,导致p的可信性有差异。100个人投票,50个人投喜欢;10个人投票,6个人喜欢,我们不能说后者比前者要好。
sladesal
2018-08-27
4910
理论:随机森林-枝剪问题
剪枝的意义是:防止决策树生成过于庞大的子叶,避免实验预测结果过拟合,在实际生产中效果很差
sladesal
2018-08-27
1.2K0
R开发:协调过滤推荐
对于realRatingMatrix有六种方法:IBCF(基于物品的推荐)、UBCF(基于用户的推荐)、PCA(主成分分析)、RANDOM(随机推荐)、SVD(矩阵因子化)、POPULAR(基于流行度的推荐)
sladesal
2018-08-27
3750
理论:正则化-Lasso规约
图中,红色的线存在明显的过拟合,绿色的线才是合理的拟合曲线,为了避免过拟合,我们可以引入正则化。
sladesal
2018-08-27
1.2K0
理论:Logistic使用前提
工程效果经验,坏样本个数至少要是你的特征变量个数的10倍以上;总样本个数要是你的特征变量个数的20-30倍以上。比如假设你会采用10变量,理论上,你例子中的高血压患病者应该为100名,你的总样本数应该至少在200以上。
sladesal
2018-08-27
2580
应用:交叉销售算法
最近做了一个交叉销售的项目,梳理了一些关键点,分享如下,希望对大家有所启发 核心目标:在有限资源下,尽可能的提供高转化率的用户群,辅助业务增长 初步效果:商家ROI值为50以上,用户日转化率提升10倍以上,用户日最低转化效果5pp以上 以下为正文: 数据准备: 1.商品相关性 存在商品A,B,C...,商品之间用户会存在行为信息的关联度,这边可以参考协调过滤算法中的Item-based,这边拓展为用户在不同商品之间的操作行为的差异性。
sladesal
2018-08-27
9580
Python:SMOTE算法
17.11.28更新一下:最近把这个算法集成到了数据预处理的python工程代码中了,不想看原理想直接用的,有简易版的python开发:特征工程代码模版 ,进入页面后ctrl+F搜smote就行,请自取
sladesal
2018-08-27
1.6K0
Python:数据抽样平衡方法重写
之前在R里面可以通过调用Rose这个package调用数据平衡函数,这边用python改写了一下,也算是自我学习了。
sladesal
2018-08-27
1.3K0
应用:用户生命周期
用户生命周期是指用户从加入平台开始,熟悉平台,参与平台,最终流失的整个过程。用户的生命周期相对于自身而言,是一种参与度的变化,参与度也可以称之为活跃度。
sladesal
2018-08-27
9310
应用:如何校验用户画像的准确性?
省略掉预处理设计的过程,画像校验的步骤主要集中在画像开发,画像上线,画像更新中,并且三个阶段中,每个阶段的校验方式完全不同
sladesal
2018-08-27
1K0
理论:T级数据量下的划分聚类方法CLARANS+
定义是这样的,把一个数据对象,划分成子集的过程,使得子集内相似度大,子集外相似度小。这样的一个过程叫做聚类。
sladesal
2018-08-27
9980
基于Tensorflow的神经网络解决用户流失概率问题
注意,已经很多很多人和我说最后的loss不变,大家的数据都不一样,如果发现loss不变请降低learning_rate = 1e-6,就可以解决,还有问题的话,公众号里面联系我,帮助大家搞定。
sladesal
2018-08-27
4560
理论:SVM理论解析及python实现
关于常见的分类算法在不同数据集上的分类效果,在《Do we Need Hundreds of Classifiers to Solve Real World Classification Proble
sladesal
2018-08-27
5080
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档