大数据技术与机器学习

LV0
发表了文章

机器学习 - 模型离线评估

模型上线之前可以利用测试数据集进行离线评估,主要指标可以根据具体的问题类型可以有以下的方案。

大数据技术与机器学习
发表了文章

基于依存句法分析的关键短语抽取算法实战

由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据;所以想到采用无监督的关键短语抽取算法折中去抽取一些实体,于是...

大数据技术与机器学习
发表了文章

基于IBM Model 1的词对齐与短语抽取Python实现

基于词的翻译模型起源于上世纪IBM关于统计机器翻译的原创性工作,教材主要介绍的是IBM Model 1模型。该模型能够从大量句对齐的语料中自动实现词对齐。

大数据技术与机器学习
发表了文章

直觉理解LSTM和GRU

网上有很多对于LSTM以及GRU的介绍,主要从构造方面进行了进行了介绍。但是由于构造相对较复杂,而且涉及到的变量较多,往往不那么容易记住。下面我们从直觉的角度...

大数据技术与机器学习
发表了文章

Python实现图片中英文信息识别

4)测试两张图片,denggao.jpg(中文信息)、test.jpg(英文信息)

大数据技术与机器学习
发表了文章

NLP之keras中文文本分类系列算法封装,简单易用(超详细教程)

中文长文本分类、短句子分类、多标签分类、两句子相似度(Chinese Text Classification of Keras NLP, multi-label...

大数据技术与机器学习
发表了文章

darknet图像定位+tornado实现票据识别API,识别率达到95%以上

此项目用于对中国购车发票进行内容识别,目前完成的是身份证,vin,发动机号,价格的识别提供了展示的demo页,以及提供了传入文件,路径,base64码的多种方式...

大数据技术与机器学习
Python费用中心HTTPJSON网站
发表了文章

BERT中文实战:文本相似度计算与文本分类

谷歌提供了以下几个版本的BERT模型,每个模型的参数都做了简单的说明,中文的预训练模型在11月3日的时候提供了,这里我们只需要用到中文的版本

大数据技术与机器学习
Python自然语言处理
发表了文章

Attention注意力机制

在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状...

大数据技术与机器学习
机器翻译编程算法
发表了文章

seq2seq模型

在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的英语⽂本序列,输出可以是⼀段不定⻓的法语⽂本序列,例如:

大数据技术与机器学习
数字货币区块链机器翻译
发表了文章

textRNN/textCNN文本分类

textRNN指的是利用RNN循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本(句子、文档等)的标签或标签集合。

大数据技术与机器学习
机器学习神经网络深度学习AI 人工智能
发表了文章

训练GloVe词向量模型

正如GloVe论文的标题而言,**GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(co...

大数据技术与机器学习
深度学习
发表了文章

fastText文本分类模型,n-gram词表示

英语单词通常有其内部结构和形成⽅式。例如,我们可以从“dog”“dogs”和“dogcatcher”的字⾯上推测它们的关系。这些词都有同⼀个词根“dog”,但使...

大数据技术与机器学习
机器学习神经网络深度学习AI 人工智能编程算法
发表了文章

逻辑回归(LR),损失函数

逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+b,y的取值范围是[-∞, +∞],有这么多取值,怎么进行分类呢?不用担心,伟大的数学家已经...

大数据技术与机器学习
发表了文章

LightGBM原理与实现

不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天之内GitHub上被star了10...

大数据技术与机器学习
发表了文章

随机森林(RF),Bagging思想

Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,...

大数据技术与机器学习
决策树机器学习神经网络深度学习AI 人工智能
发表了文章

SVM原理与实现

支持向量机(Support Vector Machine,SVM)是众多监督学习方法中十分出色的一种,几乎所有讲述经典机器学习方法的教材都会介绍。关于SVM,流...

大数据技术与机器学习
编程算法机器学习神经网络深度学习AI 人工智能
发表了文章

GBDT算法原理与实现,Boosting思想

GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是Boosting的思想。

大数据技术与机器学习
决策树神经网络机器学习深度学习AI 人工智能
发表了文章

XGBoost原理与实现

XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛...

大数据技术与机器学习
编程算法正则表达式机器学习神经网络深度学习
发表了文章

LDA主题模型:一眼看穿希拉里的邮件

关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dir...

大数据技术与机器学习
神经网络机器学习深度学习AI 人工智能推荐系统

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券