首页
学习
活动
专区
工具
TVP
发布

机器学习之旅

专栏作者
74
文章
65253
阅读量
17
订阅数
文本相似性的总结
说到文本相似性可以有很多种划分的方式,从文章的长短可以分别处理,从计算的方式可以分为深度学习和机器学习方式,从实现目的上可以分为去重和匹配...
sladesal
2020-09-08
9850
快速上手关键词抽取的算法
在自然语言处理领域,我们有一种类型的问题是如何在一堆文本中提取出核心词/句子。而无论是对于长文本还是短文本,往往几个关键词就可以代表整个文本的主题思想。同时,在很多推荐系统中,由于无法直接就整体文本进行利用,往往会现对文本进行汇总,常用的方法就是embedding或者关键词抽取,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。让我们看下有哪些快速上手可用的方法。
sladesal
2020-01-15
1.3K0
Auto Machine Learning初探
最近在看AutoML,业界在 automl 上的进展还是很不错的,个人比较看好这个方向,所以做了一些了解:
sladesal
2019-12-12
8310
语音转译文本后的意图识别(YMMNlpUtils)
现在由于业务需求,又新增了一个语音对话过程中是否存在手机号交换行为意图的识别,所以更新了一个版本YMMNlpUtils==0.1.1。实际拿来用的数据比想象中的要更加混乱,主要是由于我们的用户方言很重且经过了一轮语音转文本的信息转译,所以不少信息丢失,比如:
sladesal
2019-07-01
1.9K0
Python踩坑指南(第一季)
最近在python开发的过程中,发现了一些比较有意思的问题,确实让自己在开发过程中被恶心了一把,所以开了这个连续的更新博文,之后会持续的按第一第二第三这种版本下去,更新一些比较有意思的python代码问题。
sladesal
2019-05-17
5210
理论:决策树及衍射指标
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差
sladesal
2018-08-27
2900
应用:数据预处理-异常值处理
举个例子:以下一组用户用车月花费:100,110,90,80,200,120,115,月花费的均值在116左右,标准差在39左右,理论上用户的分布应该在116±2x39,所以200是离群点
sladesal
2018-08-27
2620
应用:数据预处理-缺失值填充
2.直接根据没有缺失的数据线性回归填充,这样填充的好会共线性,填充的不好就没价值,很矛盾
sladesal
2018-08-27
1K0
总结:如何找到一份机器学习的工作
我选择了公司的校招中比较严格的(top5%)一个jd要求,我们看下如何拿下这个offer。
sladesal
2018-08-27
3140
Python:需求预估
之前写了一篇以基于elastic的需求预估的文章,只不过用的是R语言开发的,最近在学python,就仿照逻辑写了一篇python的,主要修改点如下:
sladesal
2018-08-27
4880
理论:SVD及扩展的矩阵分解方法
svd是现在比较常见的算法之一,也是数据挖掘工程师、算法工程师必备的技能之一,这边就来看一下svd的思想,svd的重写,svd的应用。 这边着重的看一下推荐算法中的使用,其实在图片压缩,特征压缩的工程中,svd也有着非常不凡的作用。
sladesal
2018-08-27
1.5K0
应用:能够快速实现的协同推荐
对于中小型的公司,用户的数据量及公司产品的个数都是较小规模的,需要提供给用户的推荐系统实现的重心也从人性化变成了实现成本,协同推荐就是非常常见、有效且可以快速实现的方法,也是本文想介绍的。
sladesal
2018-08-27
2920
应用:基于自然语言识别下的流失用户预警
update: 17.12.20 : 关于IDF处描述,经@余海跃同学提醒,细化了解释内容,感谢! 更新内容参见:基于自然语言识别下的流失用户预警
sladesal
2018-08-27
5160
应用:深度学习下的电商商品推荐1.常见算法套路2.item2vec的工程引入3.python代码实现
电商行业中,对于用户的商品推荐一直是一个非常热门而且重要的话题,有很多比较成熟的方法,但是也各有利弊,大致如下:
sladesal
2018-08-27
2.9K1
python开发:特征工程代码模版(一)
作为一个算法工程师,我们接的业务需求不会比数据分析挖掘工程师少,作为一个爱偷懒的人,总机械重复的完成一样的预处理工作,我是不能忍的,所以在最近几天,我正在完善一些常规的、通用的预处理的code,方便我们以后在每次分析之前直接import快速搞定,省的每次都要去做一样的事情。
sladesal
2018-08-27
7210
应用:多算法识别撞库刷券等异常用户
在运营业务中,绝大多数公司会面临恶意注册,恶意刷接口,恶意刷券等流量问题,此类问题的常规解决方案都是拍定单位时间内的ip访问上限次数、qps上限次数等等,会存在误伤、频繁修改阀值等问题。
sladesal
2018-08-27
8170
提升有监督学习效果的实战解析
之前写过销售预估算法,但是被诸多大佬吐槽有监督学习部分毫无深度,其实我是想写给一些刚入门的朋友看的,这边我boss最近也想让我总结一些相对"上档次"的一点的东西,我做了一些稍微深入一点的总结,希望能够给新人朋友有稍微深入的方法介绍。
sladesal
2018-08-27
3050
写给想转行机器学习深度学习的同学
update 1:很多同学还是私信我,让我推荐或者提供一些电子书给他们,我这边也打包了一些我认为比较重要的,如果有需要的同学可以「邮箱」联系我。申明,我所发送的书个人均已购买正版实体书,建议大家也支持正版,谢谢。
sladesal
2018-08-27
1.3K0
热传导/物质扩散算法应用于推荐
没有大量的数据,没有大量的人力就不能做好推荐么?当然不是,热传导/物质扩散推荐算法就是作为冷启动及小规模团队非常实用的推荐召回部分的算法。
sladesal
2018-08-27
7470
基于Tensorflow实现DeepFM前言网络结构代码部分
DeepFM,Ctr预估中的大杀器,哈工大与华为诺亚方舟实验室荣耀出品,算法工程师面试高频考题,有效的结合了神经网络与因子分解机在特征学习中的优点:同时提取到低阶组合特征与高阶组合特征,这样的称号我可以写几十条出来,这也说明了DeepFM确实是一个非常值得手动撸一边的算法。
sladesal
2018-08-27
1.3K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档