机器学习之旅

67 篇文章
14 人订阅

全部文章

sladesal

Python自用工具包PyTls

做这件事的初衷是发生了一个星期要用python同时开发3个项目的情况,我发现了两个现象:1.有很多定制化的需求是极度高频反复重写的;2.有很多功能之前写过,可能...

551
sladesal

语音转译文本后的意图识别(YMMNlpUtils)

现在由于业务需求,又新增了一个语音对话过程中是否存在手机号交换行为意图的识别,所以更新了一个版本YMMNlpUtils==0.1.1。实际拿来用的数据比想象中的...

1222
sladesal

Python踩坑指南(第二季)

本期围绕jieba讲一个我遇到的实际问题,在同一个服务里,存在两个不同接口A和B,都用到了jieba分词,区别在于两者需要调用不同的词库,巧合中,存在以下情况:

1192
sladesal

Python踩坑指南(第一季)

最近在python开发的过程中,发现了一些比较有意思的问题,确实让自己在开发过程中被恶心了一把,所以开了这个连续的更新博文,之后会持续的按第一第二第三这种版本下...

803
sladesal

中文语境下的手机号识别

最近在做一个关于中文大段文本中的手机号码识别,由于属于对抗性的一个文本,发现传统的手机号码识别方法,比如正则匹配并不是很适用。

983
sladesal

PKUseg在货运领域的评测

给大家的建议就是,如果大家赶时间求稳定适应范围需要非常广的时候,目前来说jieba是非常好的选择,如果说在面临一些精细化领域的特殊需求的时候,可以用PKUseg...

881
sladesal

pandas数据读取的问题记录

最近发现pandas的一个问题,记录一下: 有一组数据(test.txt)如下:

2752
sladesal

YoutubeNet的数据答疑

实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。

2082
sladesal

GolVe向量化做文本分类向量化文本分类

第一种是常规方法的one-hot-encoding的方法,常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本:

3954
sladesal

Google团队在DNN的实际应用方式的整理

很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouTube Recommendations进行交流...

1282
sladesal

Stanford Word Segmenter问题整理

最近在做一些nlp相关的项目,在涉及到Stanford CoreNLP工具包处理中文分词的时候,发现耗时问题很严重:

1793
sladesal

理论:决策树及衍射指标

特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差

794
sladesal

总结:为什么要选择机器学习

场景1:如果在电商平台中入驻的商家想要卖出更多的东西就需要电商平台帮住通过push、短信甚至邮件的方式引流,提醒存在潜在购买可能的用户“来来来这家店不错”,通过...

691
sladesal

R开发:常用R语言包介绍

r与python差异比较大的一个地方就是,python的机器学习算法集中程度比较高,比如sklearn,就集成了很多的算法,而R语言更多时候需要一个包一个包去了...

1125
sladesal

理论:因子分析原理剖析

F1,F2,F3...为前m个因子包含数据总量(累计贡献率)不低于80%。可取前m各因子来反映原评价

1983
sladesal

理论:聚类算法思路总结

常见的为欧式距离(L1 norm)&&p=2,拓展的可以有闵可夫斯基距离(L2 norm)&&p=1:

792
sladesal

应用:商品需求预估

假设现在有这么一个人,23岁,一线城市白领,常常出入城市CBD,之前没有任何的平台行为,刚刚注册app,那么他会买什么?

812
sladesal

应用:数据预处理-异常值处理

举个例子:以下一组用户用车月花费:100,110,90,80,200,120,115,月花费的均值在116左右,标准差在39左右,理论上用户的分布应该在116±...

1072
sladesal

应用:推荐系统-威尔逊区间法

理论上讲,p越大应该越好,但是n的不同,导致p的可信性有差异。100个人投票,50个人投喜欢;10个人投票,6个人喜欢,我们不能说后者比前者要好。

1164
sladesal

理论:随机森林-枝剪问题

剪枝的意义是:防止决策树生成过于庞大的子叶,避免实验预测结果过拟合,在实际生产中效果很差

1042

扫码关注云+社区

领取腾讯云代金券