专栏首页机器学习入门与实战NLP之keras中文文本分类系列算法封装,简单易用(超详细教程)

NLP之keras中文文本分类系列算法封装,简单易用(超详细教程)

中文长文本分类、短句子分类、多标签分类、两句子相似度(Chinese Text Classification of Keras NLP, multi-label classify, or sentence classify, long or short),字词句向量嵌入层(embeddings)和网络层(graph)构建基类,FastText,TextCNN,CharCNN,TextRNN, RCNN, DCNN, DPCNN, VDCNN, CRNN, Bert, Xlnet, Albert, Attention, DeepMoji, HAN, 胶囊网络-CapsuleNet, Transformer-encode, Seq2seq, SWEM

01

keras_textclassification

02

项目说明

  1. 构建了base基类(网络(graph)、向量嵌入(词、字、句子embedding)),后边的具体模型继承它们,代码简单
  2. keras_layers存放一些常用的layer, conf存放项目数据、模型的地址, data存放数据和语料, data_preprocess为数据预处理模块,

03

模型与论文paper题与地址

  • FastText: Bag of Tricks for Efficient Text Classification
  • TextCNN:Convolutional Neural Networks for Sentence Classification
  • charCNN-kim:Character-Aware Neural Language Models
  • charCNN-zhang: Character-level Convolutional Networks for Text Classification
  • TextRNN:Recurrent Neural Network for Text Classification with Multi-Task Learning
  • RCNN:Recurrent Convolutional Neural Networks for Text Classification
  • DCNN: A Convolutional Neural Network for Modelling Sentences
  • DPCNN: Deep Pyramid Convolutional Neural Networks for Text Categorization
  • VDCNN: Very Deep Convolutional Networks
  • CRNN: A C-LSTM Neural Network for Text Classification
  • DeepMoji: Using millions of emojio ccurrences to learn any-domain represent ations for detecting sentiment, emotion and sarcasm
  • SelfAttention: Attention Is All You Need
  • HAN: Hierarchical Attention Networks for Document Classification
  • CapsuleNet: Dynamic Routing Between Capsules
  • Transformer(encode or decode): Attention Is All You Need
  • Bert: BERT: Pre-trainingofDeepBidirectionalTransformersfor LanguageUnderstanding
  • Xlnet: XLNet: Generalized Autoregressive Pretraining for Language Understanding
  • Albert: ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

04

参考/感谢

  • 文本分类项目: https://github.com/mosu027/TextClassification
  • 文本分类看山杯: https://github.com/brightmart/text_classification
  • Kashgari项目: https://github.com/BrikerMan/Kashgari
  • 文本分类Ipty : https://github.com/lpty/classifier
  • keras文本分类: https://github.com/ShawnyXiao/TextClassification-Keras
  • keras文本分类: https://github.com/AlexYangLi/TextClassification
  • CapsuleNet模型: https://github.com/bojone/Capsule
  • transformer模型: https://github.com/CyberZHG/keras-transformer
  • keras_albert_model: https://github.com/TinkerMob/keras_albert_model

05

训练简单调用:

06

Train&Usage(调用)

07

Predict&Usage(调用)

本文分享自微信公众号 - 机器学习入门与实战(datanlp)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Keras 模型中使用预训练的 gensim 词向量和可视化

    在这篇 [在Keras模型中使用预训练的词向量](https://keras-cn.readthedocs.io/en/latest/blog/ word_em...

    大数据技术与机器学习
  • 聚类算法,k-means,高斯混合模型(GMM)

    什么是聚类算法?聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具...

    大数据技术与机器学习
  • 词嵌入Word2Vec

    ⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是⽤来表⽰词的向量,也可被认为是词的特征向量或表征。**把词映射为实数域...

    大数据技术与机器学习
  • 干货|PyTorch实用代码段集锦

    Facebook公司开源的深度学习框架PyTorch越来越火,PyTorch易于上手。本文节选github中PyTorch的常用实用代码片段,供大...

    fishexpert
  • CVPR 2019 论文大盘点—文本图像相关篇

    其中研究文本检测的最多,共 7 篇,包括已经非常知名的PSENet,还有最近异常火爆的CRAFT。

    CV君
  • 我的数据分析/数据挖掘/机器学习必读书目

    总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门--->进阶分块写。下...

    CDA数据分析师
  • Hacking with iOS: SwiftUI Edition - Word Scramble 项目——List 介绍

    这个项目将是另一个游戏,尽管实际上这只是我偷偷摸摸地介绍更多Swift和SwiftUI知识的方法!游戏将向玩家显示一个随机的八个字母的单词,并要求他们用单词来制...

    韦弦zhy
  • mall学习所需知识点

    《IntelliJ-IDEA-Tutorial》:https://github.com/judasn/IntelliJ-IDEA-Tutorial

    macrozheng
  • MySQL隔离级别

    (1)打开一个客户端A,并设置当前事务模式为read uncommitted(未提交读),查询表account的初始值:

    林老师带你学编程
  • CentOS 7.4 发布 安全稳定的 Linux 发行版

    CentOS 7.4 发布了。CentOS 是 RHEL(Red Hat Enterprise Linux)源代码再编译的产物,而且在 RHEL 的基础上修正了...

    Debian中国

扫码关注云+社区

领取腾讯云代金券

,,