首页
学习
活动
专区
工具
TVP
发布

机器学习之旅

专栏作者
74
文章
65266
阅读量
17
订阅数
文本相似性的总结
说到文本相似性可以有很多种划分的方式,从文章的长短可以分别处理,从计算的方式可以分为深度学习和机器学习方式,从实现目的上可以分为去重和匹配...
sladesal
2020-09-08
9850
快速上手关键词抽取的算法
在自然语言处理领域,我们有一种类型的问题是如何在一堆文本中提取出核心词/句子。而无论是对于长文本还是短文本,往往几个关键词就可以代表整个文本的主题思想。同时,在很多推荐系统中,由于无法直接就整体文本进行利用,往往会现对文本进行汇总,常用的方法就是embedding或者关键词抽取,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。让我们看下有哪些快速上手可用的方法。
sladesal
2020-01-15
1.3K0
Bert需要理解的一些内容
mask+attention,mask的word结合全部其他encoder word的信息
sladesal
2019-12-24
1.7K0
xDeepFM架构理解及实现
本文主要是为了讲解xDeepFM的框架,及如何用tensorflow去实现主干部分,如果需要直接拆箱可用,可以参考:xDeepFM,我的部分代码也来自于其中,这边主要是和大家一起对比着看下,xDeepFM到底做了哪些事情?我的工程实现代码等待我司项目上线稳定后开源。
sladesal
2019-12-19
1K0
集成学习需要理解的一些内容
本系列为深入篇,尽可能完善专题知识,并不会所有的都会出现在面试中,更多内容,详见:Reflection_Summary,欢迎交流。
sladesal
2019-12-13
7460
LR需要理解的一些内容
本系列为深入篇,尽可能完善专题知识,并不会所有的都会出现在面试中,更多内容,详见:Reflection_Summary,欢迎交流。
sladesal
2019-12-13
1K0
Auto Machine Learning初探
最近在看AutoML,业界在 automl 上的进展还是很不错的,个人比较看好这个方向,所以做了一些了解:
sladesal
2019-12-12
8310
Python自用工具包PyTls
做这件事的初衷是发生了一个星期要用python同时开发3个项目的情况,我发现了两个现象:1.有很多定制化的需求是极度高频反复重写的;2.有很多功能之前写过,可能因为稍许复杂又忘了,再用的时候又要去Google。所以,拉着同组的一个实习生,一起维护了PyTls的这个项目,为的就是那句"life is short, we need python"。
sladesal
2019-07-31
7370
语音转译文本后的意图识别(YMMNlpUtils)
现在由于业务需求,又新增了一个语音对话过程中是否存在手机号交换行为意图的识别,所以更新了一个版本YMMNlpUtils==0.1.1。实际拿来用的数据比想象中的要更加混乱,主要是由于我们的用户方言很重且经过了一轮语音转文本的信息转译,所以不少信息丢失,比如:
sladesal
2019-07-01
1.9K0
Python踩坑指南(第二季)
本期围绕jieba讲一个我遇到的实际问题,在同一个服务里,存在两个不同接口A和B,都用到了jieba分词,区别在于两者需要调用不同的词库,巧合中,存在以下情况:
sladesal
2019-05-29
1.4K0
Python踩坑指南(第一季)
最近在python开发的过程中,发现了一些比较有意思的问题,确实让自己在开发过程中被恶心了一把,所以开了这个连续的更新博文,之后会持续的按第一第二第三这种版本下去,更新一些比较有意思的python代码问题。
sladesal
2019-05-17
5210
中文语境下的手机号识别
最近在做一个关于中文大段文本中的手机号码识别,由于属于对抗性的一个文本,发现传统的手机号码识别方法,比如正则匹配并不是很适用。
sladesal
2019-05-14
9740
PKUseg在货运领域的评测
给大家的建议就是,如果大家赶时间求稳定适应范围需要非常广的时候,目前来说jieba是非常好的选择,如果说在面临一些精细化领域的特殊需求的时候,可以用PKUseg进行一波尝试,有意外惊喜。
sladesal
2019-02-22
4590
pandas数据读取的问题记录
最近发现pandas的一个问题,记录一下: 有一组数据(test.txt)如下:
sladesal
2018-11-09
1.2K0
YoutubeNet的数据答疑
实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。
sladesal
2018-10-22
7300
GolVe向量化做文本分类向量化文本分类
第一种是常规方法的one-hot-encoding的方法,常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本:
sladesal
2018-10-08
1.6K0
Google团队在DNN的实际应用方式的整理
很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouTube Recommendations进行交流,梳理如下:
sladesal
2018-10-08
6791
Stanford Word Segmenter问题整理
最近在做一些nlp相关的项目,在涉及到Stanford CoreNLP工具包处理中文分词的时候,发现耗时问题很严重:
sladesal
2018-09-26
1K0
理论:决策树及衍射指标
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差
sladesal
2018-08-27
2900
总结:为什么要选择机器学习
场景1:如果在电商平台中入驻的商家想要卖出更多的东西就需要电商平台帮住通过push、短信甚至邮件的方式引流,提醒存在潜在购买可能的用户“来来来这家店不错”,通过这种方式的收费其实是空手套白狼,投入产出比巨高那如何寻找到合适的用户推荐给合适的商家呢?
sladesal
2018-08-27
9590
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档