大鹅专栏:大数据到机器学习

从大数据计算到机器学习,你需要了解这些。专注于Hadoop生态 Spark 机器学习 深度学习
118 篇文章
36.7K 次阅读
34 人订阅

全部文章

大鹅

腾讯 · 后台开发 (已认证)

【技术种草】CKafka调优笔记 消费堆积 服务CPU未跑满应该如何解决?

Proxy服务负责消费CKafka消息并解析,并分发消息至不同的CKafka topic。近期发现Proxy服务消费CKafka有消息堆积,且服务所在CVM C...

227142
大鹅

腾讯 · 后台开发 (已认证)

ESIM 短文本匹配 模型解读分析

ESIM是一个综合应用了BiLSTM和注意力机制的模型,在文本匹配中效果十分强大.

27652
大鹅

腾讯 · 后台开发 (已认证)

深度学习中的文本分类方法汇总相关代码及调优trick

Fasttext是Facebook推出的一个便捷的工具,包含文本分类和词向量训练两个功能。

14582
大鹅

腾讯 · 后台开发 (已认证)

NLP任务汇总简介与理解

序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,...

25052
大鹅

腾讯 · 后台开发 (已认证)

GPT/GPT2/DialoGPT 详解对比与应用-文本生成与对话

GPT 的全名:Generative Pre-Training,其论文标题是 Improving Language Understanding by Gener...

479122
大鹅

腾讯 · 后台开发 (已认证)

基于GPT2制作一个chatbot

想必大家都有经历,处于多种原因有个很好的朋友不再跟你聊天了,那么可不可以用他的微信聊天记录来大致还原一下这个人的聊天习惯语气甚至是喜欢发的表情包等等呢?

24662
大鹅

腾讯 · 后台开发 (已认证)

机器学习 深度学习中激活函数sigmoid relu tanh gelu等汇总整理

这篇博客主要总结一下常用的激活函数公式及优劣势,包括sigmoid relu tanh gelu

17521
大鹅

腾讯 · 后台开发 (已认证)

wide & deep 模型与优化器理解 代码实战

wide & deep模型是Google在2016年发布的一类用于分类和回归的模型。该模型应用到了Google Play的应用推荐中,有效的增加了Google ...

313103
大鹅

腾讯 · 后台开发 (已认证)

深度学习常用优化器汇总整理

为机器学习项目选择好的优化器不是一项容易的任务。流行的深度学习库(如 PyTorch 或 TensorFLow)提供了多种优化器选择,它们各有优缺点。并且,选择...

18331
大鹅

腾讯 · 后台开发 (已认证)

NLP烤面筋

https://l1nwatch.gitbook.io/interview_exercise/stackoverflow-about-python/python...

410104
大鹅

腾讯 · 后台开发 (已认证)

深度学习NLP从RNN LSTM GRU seq2seq到Attention分类及解析

上一篇博客讲了Transformers里面的self-attention,在NLP领域中其实attentionseq2seq的时候就有广泛应用了。这篇文章主要总...

328123
大鹅

腾讯 · 后台开发 (已认证)

Transformer (Attention is all you need) 详解

在之前的博客中有简单讲到Transformer,这篇博客将会专门详细的一起看看内部的计算与实现。

41881
大鹅

腾讯 · 后台开发 (已认证)

NLP BERT GPT等模型中 tokenizer 类别说明详解

在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize具体目标与粒度是什么呢?tokenize也有许多类别及优缺点,这篇文章总结一下...

78982
大鹅

腾讯 · 后台开发 (已认证)

BERT系列RoBERTa ALBERT ERINE详解与使用学习笔记

继上一篇博客,这篇主要讲一下BERT以及BERT衍生的模型,如RoBERTa ALBERT ERINE等模型的改进与优化效果。

50563
大鹅

腾讯 · 后台开发 (已认证)

数仓数据处理DB基本概念解析与理解 OLAP OLTP HATP 异同 MPP架构

学习数仓的时候,可能一开始总是被一些英文缩写名字迷惑,OLAP MPP架构 KAPPA架构 ODS等等,这篇文章就来梳理一下这些基本概念。

38532
大鹅

腾讯 · 后台开发 (已认证)

高吞吐实时事务数仓方案调研 flink kudu+impala hbase等

腾讯云数据仓库PostgreSql TDSQL,PingCAP的TiDB,阿里的OceanBase,华为云DWS,都是HTAP的业内常用数仓,可以一站式解决需求...

43562
大鹅

腾讯 · 后台开发 (已认证)

使用transformer BERT预训练模型进行文本分类 及Fine-tuning

Bert 全称为 Bidirectional Encoder Representations from Transformers(Bert)。和 ELMo 不同...

46441
大鹅

腾讯 · 后台开发 (已认证)

使用transformer BERT预训练模型进行文本分类 及Fine-tuning

Bert 全称为 Bidirectional Encoder Representations from Transformers(Bert)。和 ELMo 不同...

94720
大鹅

腾讯 · 后台开发 (已认证)

代码安全常见漏洞简介概述笔记

文件上传漏洞是指用户上传了一个可执行的脚本文件,并通过此脚本文件获得了执行服务器端命令的能力。常见场景是web服务器允许用户上传图片或者普通文本文件保存,而用户...

13431
大鹅

腾讯 · 后台开发 (已认证)

Tlinux/CentOS7安装NVIDIA显卡驱动和CUDA10.1 cuDNN

此篇博客记录一下TLinux系统安装显卡NVIDIA驱动与CUDA10/11的艰难过程。

10430

扫码关注云+社区

领取腾讯云代金券