首页
学习
活动
专区
工具
TVP
发布

大鹅专栏:大数据到机器学习

从大数据计算到机器学习,你需要了解这些。专注于Hadoop生态 Spark 机器学习 深度学习
专栏作者
127
文章
265212
阅读量
46
订阅数
NLP任务之中文拼写 语法纠错 介绍与综述
在很多中文NLP相关的落地场景都会涉及到文本纠错的相关技术,例如跟各种形式机器人的语音或者文字对话,或者用手机扫描相关的PDF或者图片,或者跟人聊天时用输入法打字等等,无论是通过ASR识别的语音信息,通过OCR识别得到的图片信息,还是用户真实通过输入法的文字,都有可能出现错误。这些错误会影响文本的可读性,不利于人和机器的理解,如果这些错误不加处理,会传播到后续的环节,影响后续任务的效果。常见的中文错误类型包括以下几种:
大鹅
2022-07-20
3.6K1
GNN系列 GCN简述 推导理解 及 DGL 源码解析
深度学习一直都是被几大经典模型给统治着,如CNN、RNN等等,它们无论再CV还是NLP领域都取得了优异的效果,那这个GCN是怎么跑出来的?是因为我们发现了很多CNN、RNN无法解决或者效果不好的问题——图结构的数据。
大鹅
2022-07-17
1.9K0
腾讯云GPU最佳实践-使用jupyter pycharm远程开发训练
作为炼丹工程师,GPU毫无疑问会给我们训练模型带来极高的效率提升,但是一般实际开发都是本地编写然后复制代码到GPU机器上面运行,这样效率就会有一定的折损,而且同时维护两套环境可能还会偶尔会有报错。那么为什么我们不直接远程到GPU机器上直接进行开发呢?
大鹅
2022-04-23
2.8K0
标签平滑 Label Smoothing 详解及 pytorch tensorflow实现
标签平滑(Label smoothing),像L1、L2和dropout一样,是机器学习领域的一种正则化方法,通常用于分类问题,目的是防止模型在训练时过于自信地预测标签,改善泛化能力差的问题。
大鹅
2022-01-27
2K3
XGBoost 实现文本分类与sklearn NLP库TfidfVectorizer
在文本分类任务中经常使用XGBoost快速建立baseline,在处理文本数据时需要引入TFIDF将文本转换成基于词频的向量才能输入到XGBoost进行分类。这篇博客将简单阐述XGB进行文本分类的实现与部分原理。
大鹅
2021-12-23
2.4K1
句法依存分析背景 基本概念 及常用方法
句法结构分析又称短语结构分析(phrase structure parsing),也叫成分句法分析(constituent syntactic parsing),用于获取整个句子的句法结构;
大鹅
2021-12-21
1.8K0
ESIM 短文本匹配 模型解读分析
ESIM是一个综合应用了BiLSTM和注意力机制的模型,在文本匹配中效果十分强大.
大鹅
2021-11-12
1.8K0
深度学习中的文本分类方法汇总相关代码及调优trick
Fasttext是Facebook推出的一个便捷的工具,包含文本分类和词向量训练两个功能。
大鹅
2021-11-06
1.5K0
NLP任务汇总简介与理解
序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。
大鹅
2021-10-06
3.3K0
GPT/GPT2/DialoGPT 详解对比与应用-文本生成与对话
GPT 的全名:Generative Pre-Training,其论文标题是 Improving Language Understanding by Generative Pre-Training。
大鹅
2021-09-15
8.2K0
机器学习 深度学习中激活函数sigmoid relu tanh gelu等汇总整理
这篇博客主要总结一下常用的激活函数公式及优劣势,包括sigmoid relu tanh gelu
大鹅
2021-09-12
1.8K0
wide & deep 模型与优化器理解 代码实战
wide & deep模型是Google在2016年发布的一类用于分类和回归的模型。该模型应用到了Google Play的应用推荐中,有效的增加了Google Play的软件安装量。目前wide & deep模型已经开源,并且在TensorFlow上提供了高级API。
大鹅
2021-09-12
2.2K2
深度学习NLP从RNN LSTM GRU seq2seq到Attention分类及解析
上一篇博客讲了Transformers里面的self-attention,在NLP领域中其实attentionseq2seq的时候就有广泛应用了。这篇文章主要总结一下从从RNN LSTM GRU seq2seq 到attention的种类及应用,方便大家理解整体发展与attention机制。
大鹅
2021-08-31
1.4K0
Transformer (Attention is all you need) 详解
在之前的博客中有简单讲到Transformer,这篇博客将会专门详细的一起看看内部的计算与实现。
大鹅
2021-08-26
2.3K1
NLP BERT GPT等模型中 tokenizer 类别说明详解
在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize具体目标与粒度是什么呢?tokenize也有许多类别及优缺点,这篇文章总结一下各个方法及实际案例。
大鹅
2021-08-20
15.3K0
BERT系列RoBERTa ALBERT ERINE详解与使用学习笔记
继上一篇博客,这篇主要讲一下BERT以及BERT衍生的模型,如RoBERTa ALBERT ERINE等模型的改进与优化效果。
大鹅
2021-08-19
4.4K4
使用transformer BERT预训练模型进行文本分类 及Fine-tuning
Bert 全称为 Bidirectional Encoder Representations from Transformers(Bert)。和 ELMo 不同,BERT 通过在所有层联合调节左右两个上下文来预训练深层双向表示,此外还通过组装长句作为输入增强了对长程语义的理解。Bert 可以被微调以广泛用于各类任务,仅需额外添加一个输出层,无需进行针对任务的模型结构调整,就在文本分类,语义理解等一些任务上取得了 state-of-the-art 的成绩。
大鹅
2021-07-30
3.5K0
使用transformer BERT预训练模型进行文本分类 及Fine-tuning
Bert 全称为 Bidirectional Encoder Representations from Transformers(Bert)。和 ELMo 不同,BERT 通过在所有层联合调节左右两个上下文来预训练深层双向表示,此外还通过组装长句作为输入增强了对长程语义的理解。Bert 可以被微调以广泛用于各类任务,仅需额外添加一个输出层,无需进行针对任务的模型结构调整,就在文本分类,语义理解等一些任务上取得了 state-of-the-art 的成绩。
大鹅
2021-07-30
8.5K0
Tlinux/CentOS7安装NVIDIA显卡驱动和CUDA10.1 cuDNN
此篇博客记录一下TLinux系统安装显卡NVIDIA驱动与CUDA10/11的艰难过程。
大鹅
2021-06-16
1.6K0
Python3 使用fastText进行文本分类 新闻分类
这篇论文的模型非常之简单,之前了解过word2vec的同学可以发现这跟CBOW的模型框架非常相似。
大鹅
2021-06-15
2.7K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档