腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器学习之旅

专栏作者

74

文章

65808

阅读量

17

订阅数

pandas数据读取的问题记录

最近发现pandas的一个问题，记录一下：有一组数据（test.txt）如下：

2018-11-09

1.2K0

GolVe向量化做文本分类向量化文本分类

第一种是常规方法的one-hot-encoding的方法，常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本：

2018-10-08

1.7K0

Google团队在DNN的实际应用方式的整理

很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouTube Recommendations进行交流，梳理如下：

2018-10-08

6921

Stanford Word Segmenter问题整理

最近在做一些nlp相关的项目，在涉及到Stanford CoreNLP工具包处理中文分词的时候，发现耗时问题很严重：

2018-09-26

1K0

R开发：常用R语言包介绍

r与python差异比较大的一个地方就是，python的机器学习算法集中程度比较高，比如sklearn，就集成了很多的算法，而R语言更多时候需要一个包一个包去了解，比较费时费力，对于python转过来的朋友非常不友好，抽空整理了工作中常用的R包如下：

2018-08-27

9640

理论：因子分析原理剖析

F1,F2,F3...为前m个因子包含数据总量（累计贡献率）不低于80%。可取前m各因子来反映原评价

2018-08-27

2K0

理论：聚类算法思路总结

常见的为欧式距离（L1 norm）&&p=2，拓展的可以有闵可夫斯基距离（L2 norm）&&p=1：

2018-08-27

4120

应用：推荐系统-威尔逊区间法

理论上讲，p越大应该越好，但是n的不同，导致p的可信性有差异。100个人投票，50个人投喜欢；10个人投票，6个人喜欢，我们不能说后者比前者要好。

2018-08-27

4910

理论：随机森林-枝剪问题

剪枝的意义是：防止决策树生成过于庞大的子叶，避免实验预测结果过拟合，在实际生产中效果很差

2018-08-27

1.2K0

R开发：协调过滤推荐

对于realRatingMatrix有六种方法：IBCF(基于物品的推荐)、UBCF（基于用户的推荐）、PCA（主成分分析）、RANDOM（随机推荐）、SVD（矩阵因子化）、POPULAR（基于流行度的推荐）

2018-08-27

3750

理论：正则化-Lasso规约

图中，红色的线存在明显的过拟合，绿色的线才是合理的拟合曲线，为了避免过拟合，我们可以引入正则化。

2018-08-27

1.2K0

理论：Logistic使用前提

工程效果经验，坏样本个数至少要是你的特征变量个数的10倍以上；总样本个数要是你的特征变量个数的20-30倍以上。比如假设你会采用10变量，理论上，你例子中的高血压患病者应该为100名，你的总样本数应该至少在200以上。

2018-08-27

2580

应用：交叉销售算法

最近做了一个交叉销售的项目，梳理了一些关键点，分享如下，希望对大家有所启发核心目标：在有限资源下，尽可能的提供高转化率的用户群，辅助业务增长初步效果：商家ROI值为50以上，用户日转化率提升10倍以上，用户日最低转化效果5pp以上以下为正文：数据准备： 1.商品相关性存在商品A,B,C...，商品之间用户会存在行为信息的关联度，这边可以参考协调过滤算法中的Item-based，这边拓展为用户在不同商品之间的操作行为的差异性。

2018-08-27

9580

Python：SMOTE算法

17.11.28更新一下：最近把这个算法集成到了数据预处理的python工程代码中了，不想看原理想直接用的，有简易版的python开发：特征工程代码模版，进入页面后ctrl+F搜smote就行，请自取

2018-08-27

1.6K0

Python:数据抽样平衡方法重写

之前在R里面可以通过调用Rose这个package调用数据平衡函数，这边用python改写了一下，也算是自我学习了。

2018-08-27

1.3K0

应用：用户生命周期

用户生命周期是指用户从加入平台开始，熟悉平台，参与平台，最终流失的整个过程。用户的生命周期相对于自身而言，是一种参与度的变化，参与度也可以称之为活跃度。

2018-08-27

9310

应用：如何校验用户画像的准确性？

省略掉预处理设计的过程，画像校验的步骤主要集中在画像开发，画像上线，画像更新中，并且三个阶段中，每个阶段的校验方式完全不同

2018-08-27

1K0

理论：T级数据量下的划分聚类方法CLARANS+

定义是这样的，把一个数据对象，划分成子集的过程，使得子集内相似度大，子集外相似度小。这样的一个过程叫做聚类。

2018-08-27

9980

基于Tensorflow的神经网络解决用户流失概率问题

注意，已经很多很多人和我说最后的loss不变，大家的数据都不一样，如果发现loss不变请降低learning_rate = 1e-6，就可以解决，还有问题的话，公众号里面联系我，帮助大家搞定。

2018-08-27

4560

理论：SVM理论解析及python实现

关于常见的分类算法在不同数据集上的分类效果，在《Do we Need Hundreds of Classifiers to Solve Real World Classification Proble

2018-08-27

5080

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态