Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >[TextMatch框架] train model

[TextMatch框架] train model

作者头像
MachineLP
发布于 2020-10-29 02:18:32
发布于 2020-10-29 02:18:32
56900
代码可运行
举报
文章被收录于专栏:小鹏的专栏小鹏的专栏
运行总次数:0
代码可运行

TextMatch

TextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.

TextMatch/train_model模块包含 :

(1)train_bow.py : bow模型训练

样例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import sys
from textmatch.models.text_embedding.bow_sklearn import Bow
from textmatch.config.constant import Constant as const



if __name__ == '__main__':
    # 训练集
    words_list = ["我去玉龙雪山并且喜欢玉龙雪山玉龙雪山","我在玉龙雪山并且喜欢玉龙雪山","我在九寨沟"]
    # doc
    words_list1 = ["我去玉龙雪山并且喜欢玉龙雪山玉龙雪山","我在玉龙雪山并且喜欢玉龙雪山","我在九寨沟", "哈哈哈哈"]

    # 训练
    bow = Bow(dic_path=const.BOW_DIC_PATH, bow_index_path=const.BOW_INDEX_PARH, )
    bow.fit(words_list)

    # query
    bow = Bow(dic_path=const.BOW_DIC_PATH, bow_index_path=const.BOW_INDEX_PARH, )
    bow.init(words_list1, update=False)
    testword = "我在九寨沟,很喜欢"
    #for word in jieba.cut(testword):
    #    print ('>>>>', word)
    pre = bow.predict(testword)
    print ('pre>>>>>', pre) 

    pre = bow._predict(testword)[0]
    print ('pre>>>>>', pre) 

(2)train_tfidf.py: tfidf模型训练

(3)train_ngram_tfidf.py:ngram_tfidf模型训练

(4)train_w2v.py:word2vector模型训练

(5)train_bert.py:bert模型训练

(6)train_albert.py:albert模型训练

(7)train_dssm.py:dssm模型训练

(8)train_dnn.py:dnn模型训练

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/06/12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
[TextMatch框架] 简介
TextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.
MachineLP
2020/10/29
7440
[TextMatch框架] tests
TextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.
MachineLP
2020/10/29
3880
[TextMatch框架] 基于召回和排序的文本搜索
git clone https://github.com/MachineLP/TextMatch cd TextMatch export PYTHONPATH=${PYTHONPATH}:../TextMatch python tests/core_test/text_search_test.py tests/core_test/text_search_test.py import sys from textmatch.core.text_match import TextMatch from textma
MachineLP
2020/10/29
8770
[TextMatch框架] server
TextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.
MachineLP
2020/10/29
5810
[TextMatch框架] QA Match (QA匹配)
run examples git clone https://github.com/MachineLP/TextMatch cd TextMatch export PYTHONPATH=${PYTHONPATH}:../TextMatch python tests/core_test/qa_match_test.py qa match import sys from textmatch.core.qa_match import QMatch, AMatch, SemanticMatch test_dict
MachineLP
2020/10/29
8740
文本分类实战: 机器学习vs深度学习算法对比(附代码)
这几周因为在做竞赛所以没怎么看论文刷题写博客,今天抽时间把竞赛用到的东西总结一下。先试水了一个很小众的比赛–文因互联,由AI100举办,参赛队不足20个,赛题类型是文本分类。选择参赛的主要原因是其不像阿里们举办的竞赛那样,分分钟就干一件事就是特征工程和调参,然后数据又多又乱,不适合入门。其次一个原因就是目前我的研究方向就是NLP,之前也做过一个文本分类的东西,所以就参赛了。这里将主要介绍我在比赛中用到的几个模型,从理论到代码实现进行总结。 1,数据集 大家可以到竞赛官网查看赛题并下载数据集,数据集中主要包
机器学习AI算法工程
2018/03/15
2.6K0
文本分类实战:  机器学习vs深度学习算法对比(附代码)
[TextMatch框架] 生成词云
TextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.
MachineLP
2020/10/29
1.9K0
[TextMatch框架] 生成词云
手把手教你在Python中实现文本分类(附代码、数据集)
文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个或多个已定义好的类别中。文本分类的一些例子如下:
数据派THU
2018/07/30
12.7K2
手把手教你在Python中实现文本分类(附代码、数据集)
R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/53260117
悟乙己
2019/05/26
1.7K0
【结构化语义模型】深度结构化语义模型
导语 PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式构建起千变万化的深度学习模型来解决不同的应用问题。这里,我们针对常见的机器学习任务,提供了不同的神经网络模型供大家学习和使用。本周推文目录如下: 周一:【点击率预估】 Wide&deep 点击率预估模型 周二:【文本分类】 基于DNN/CNN的情感分类 周三:【文本分类】 基于双层序列的文本分类模型 周四:【排序学习】 基于Pairwise和Listwise的排序学习 周五:【结构化语义模型】 深度结构化语义模型 深度结构化语义模型
用户1386409
2018/03/15
2.3K0
【结构化语义模型】深度结构化语义模型
基于深度学习和经典方法的文本分类
本文研究了一种使用CNN和LSTM进行文本分类的方法,通过实验和对比,发现CNN在新闻分类任务上表现较好,LSTM在短文本分类任务上表现较好。同时,本文还探讨了预训练词向量在文本分类中的作用,并提出了改进的预训练词向量方法。
段石石
2017/06/27
9.7K0
基于深度学习和经典方法的文本分类
python文本相似度计算
两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言肯定无法完成,所有要把文本转化为向量。两个向量计算相似度就很简单了,欧式距离、余弦相似度等等各种方法,只需要中学水平的数学知识。
周小董
2019/03/25
5.1K0
python文本相似度计算
词义类比与全局词共现信息不可兼得?基于飞桨实现的GloVe说可以
通过飞桨核心框架复现的GloVe模型具有良好的性能表现。针对论文给出的训练文本,处理后文本总词量为17M,模型的训练时间在1000s左右,达到了快速训练词向量的要求,可以用来训练大规模的文本数据。模型的详细情况和编程可以参考链接:
用户1386409
2020/08/11
5980
词义类比与全局词共现信息不可兼得?基于飞桨实现的GloVe说可以
文本数据处理的终极指南-[NLP入门]
简介 实现任何程度或者级别的人工智能所必需的最大突破之一就是拥有可以处理文本数据的机器。值得庆幸的是,全世界文本数据的数量在最近几年已经实现指数级增长。这也迫切需要人们从文本数据中挖掘新知识、新观点。
用户1332428
2018/03/30
1.4K0
文本数据处理的终极指南-[NLP入门]
机器学习做中文邮件内容分类,准确识别垃圾邮件,真香!
作者 | Yunlord     出品 | CSDN博客前言 随着微信的迅速发展,工作和生活中的交流也更多依赖于此,但是由于邮件的正式性和规范性,其仍然不可被取代。但是不管是企业内部工作邮箱,还是个人邮箱,总是收到各种各样的垃圾邮件,包括商家的广告、打折促销信息、澳门博彩邮件、理财推广信息等等,不管如何进行垃圾邮件分类,总有漏网之鱼。最重要的是,不同用户对于垃圾邮件的定义并不一致。而且大部分用户网络安全意识比较一般,万一误点垃圾邮件上钩,或者因为垃圾邮件淹没了工作中的关键信件,则会给个人或者企业造成损失。垃
用户1737318
2022/03/03
1.7K0
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
NLP(Nature Language Processing,自然语言处理)是计算机及人工智能领域的一个重要的子项目,它研究计算机如何处理、理解及应用人类语言。是人类在漫长的进化过程中形成的计算机语言复杂的符号等系统(类似C/Java的符号等系统)。以下是关于自然处理的常见定义:
苏州程序大白
2022/04/14
1.7K0
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
精通 Transformers(一)
在过去的 20 年间,我们在自然语言处理(NLP)领域已经见证了巨大的变化。在此期间,我们经历了不同的范式,最终进入了由神奇的Transformers架构主宰的新时代。这种深度学习架构是通过继承多种方法而形成的。诸如上下文词嵌入、多头自注意力、位置编码、可并行化的架构、模型压缩、迁移学习和跨语言模型等方法都在其中。从各种基于神经网络的自然语言处理方法开始,Transformers架构逐渐演变成为一个基于注意力的编码器-解码器架构,并持续至今。现在,我们在文献中看到了这种架构的新成功变体。有些出色的模型只使用了其编码器部分,比如 BERT,或者只使用了其解码器部分,比如 GPT。
ApacheCN_飞龙
2024/05/24
3700
精通 Transformers(一)
全新Gensim4.0代码实战(01)-安装与快速上手
本节代码地址:https://www.kesci.com/mw/project/600ade02e455800015b7e609
致Great
2021/01/29
8040
Keras-TextClassification 文本分类工具包
https://github.com/yongzhuo/Keras-TextClassification
致Great
2020/12/14
9820
【NLP基础】NLP关键字提取技术之LDA算法原理与实践
人们是如何从大量文本资料中便捷得浏览和获取信息?答案你肯定会说通过关键字。仔细想想,我们人类是怎么提取关键词?我们从小就接触语言,语法,当听到或者看到一句话时,我们大脑自动会对这句话按规则分词(小学是不是做过断句的训练),还记得语文老师讲过,一句话中主语(名词),谓语(动词),宾语(名词)通常就是重点,这样我们大脑从小就会根据词性和语法对句中词进行打标签,训练分类器,随着我们接触到的语料越来越多,分类器也越来越准确(如果你是从事语言学的,那你的分类器就更准)。仅仅通过词性和语法,会在长文本中出现一个问题,因为一篇文章中会出现很多主语,谓语,宾语,不可能所有的这些词都是关键词,这样我们大脑是怎么处理的,如果我们对一篇文章的背景和主题很熟悉的话,我们会很准确得从一篇文章中提取关键词,但当我们接触一篇比较陌生的文章,我们往往很难准确提取关键词。
zenRRan
2019/07/25
3.8K1
相关推荐
[TextMatch框架] 简介
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验