在训练模型上预测新文本输入的标签_如何在新输入上使用经过训练的模型？_训练期间的准确率为10%，但是在训练数据上使用相同模型的预测仅提供3.5%的准确率 - 腾讯云开发者社区

论文题目：Text Level Graph Neural Network for Text Classification 论文地址：https://arxiv.org/pdf/1910.02356.pdf 论文代码：https://github.com/yenhao/text-level-gnn 发表时间：2019

基于Spark Mllib的文本分类

基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题，其主要目标是通过对已有语料库文本数据训练得到分类模型，进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景，如新闻网站的新闻自动分类，垃圾邮件检测，非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类，进而检测其是否为垃圾消息，基本步骤是：首先将文本句子转化成单词数组，进而使用 Word2Vec 工具将单词数组转化成一个 K 维向量，最后通过训练 K 维向量样本数据得到一个前馈神经网络模型，以此来实现文本

您找到你想要的搜索结果了吗？

是的

没有找到

解密Prompt系列2. 冻结Prompt微调LM： T5 & PET & LM-BFF

这一章我们介绍固定prompt微调LM的相关模型，他们的特点都是针对不同的下游任务设计不同的prompt模板，在微调过程中固定模板对预训练模型进行微调。以下按时间顺序介绍，支持任意NLP任务的T5，针对文本分类的两篇PET和LM-BFF。

一文读懂“生成式 AI”

本文基于谷歌的：《Introduction to Generative AI》并且借助 ChatGPT 整理而成，帮助大家理解生成式 AI 这个概念。

解密Prompt系列2. 冻结Prompt微调LM： T5 & PET & LM-BFF

几千条文本库也能做机器学习！NLP小数据集训练指南

学习ChatGPT，AI绘画引入人类反馈会怎样？

机器之心报道编辑：杜伟、陈萍 NLP 领域使用的技术不断地向其他领域扩展，如 CV 和多模态，鸿沟正在被打破。本文中谷歌研究院和加州伯克利的研究人员在文本到图像模型中引入人类反馈，微调后的模型生成见过和未见过对象的效果得到了显著提升。最近，深度生成模型在根据文本 prompt 生成高质量图像方面取得了显著成功，部分原因在于深度生成模型扩展到了大规模网络数据集（如 LAION）。但是，一些重大挑战依然存在，因而大规模文本到图像模型无法生成与文本 prompt 完全对齐的图像。举例而言，当前的文本到图像模

教程 | 用数据玩点花样！如何构建skim-gram模型来训练和可视化词向量

选自Medium 作者：Priya Dwivedi 机器之心编译参与：柯一雄、路雪、蒋思源本文介绍了如何在 TensorFlow 中实现 skim-gram 模型，并用 TensorBoard 进行可视化。 GitHub 地址：https://github.com/priya-dwivedi/Deep-Learning/blob/master/word2vec_skipgram/Skip-Grams-Solution.ipynb 本教程将展示如何在 TensorFlow 中实现 skim-gram 模

【干货指南】机器学习必须需要大量数据？小数据集也能有大价值！

用文本分类模型轻松搞定复杂语义分析；NLP管道模型可以退下了

本文是《NLP 可以很好玩》系列教程的第二篇，由作者 Adam Geitgey 授权在人工智能头条翻译发表。

深度学习文本分类实战报告：CNN, RNN & HAN

本文为 AI 研习社编译的技术博客，原标题： Report on Text Classification using CNN, RNN & HAN 翻译 | 小猪咪、莫尔•约瑟夫、M.Y. Li

如何在 Keras 中从零开始开发一个神经机器翻译系统？

机器翻译是一项具有挑战性的任务，包含一些使用高度复杂的语言知识开发的大型统计模型。神经机器翻译的工作原理是——利用深层神经网络来解决机器翻译问题。在本教程中，你将了解如何开发一个神经机器翻译系统，

012

一文教你实现skip-gram模型，训练并可视化词向量

在本教程中，我将展示如何在Tensorflow中实现一个Word2Vec（Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理中）的skip-gram模型，为你正在使用的任何文本生成词向量，然后使用Tensorboard将它们可视化。我在text8数据集上训练了一个skip-gram模型。然后，我用Tensorboard来设想这些Embedding，Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个

【论文笔记】文本版的Mixup数据增强算法：SSMix

论文标题：SSMix: Saliency-Based Span Mixup for Text Classification

采用通用语言模型的最新文本分类介绍

这篇文章向零基础同学介绍我们最新的论文，和以前的方法相比，该论文展示了如何采用更高的精度和更少的数据自动地进行文档分类。我们将使用简单的方式解释几种方法：自然语言处理；文本分类；迁移学习；语言模型以及如何将这些方法有机结合。如果你已经对自然语言处理和深度学习很熟悉，那么你可以直接跳转到自然语言分类网页获取更多的技术链接。

Flair实战文本分类

Flair是一个基于PyTorch构建的NLP开发包，它在解决命名实体识别（NER）、语句标注（POS）、文本分类等NLP问题时达到了当前的顶尖水准。本文将介绍如何使用Flair构建定制的文本分类器。

EMNLP 2022 | 复杂标签空间下的Prompt调优（将关系分类转换成填充问题）

目前，利用提示（Prompt）对预训练模型进行微调，并将其应用到下游任务中是非常常用的方法。（对Prompt不了解的小伙伴可以读一下我之前的文章：一文了解预训练模型 Prompt 调优）但是当应用于复杂标签的关系分类时，由于严格的提示限制，一般的Prompt Tuning方法难以处理具有任意长度的标签表达。受预训练生成模型的文本填充任务的启发，「本文提出了一种新的生成提示调整方法，即将关系分类重新表述为填充问题，从而摆脱了当前基于提示的方法的限制，完全利用了实体和关系类型的丰富语义」。实验证明了本文模型在完全监督和低资源设置下的有效性。

doc2vec和word2vec(zigbee简介及应用)

在本文中，你将学习什么是doc2vec，它是如何构建的，它与word2vec有什么关系，你能用它做什么，并且没有复杂的数学公式。

ICLR 2023 | 大规模文本图训练框架GLEM

文本图是近期NLP领域非常重要的研究方向之一，通过将文本角度的语言模型和结构角度的图神经网络相结合的方式，在很多NLP任务上取得优异效果。

一文了解prompt learning在计算机视觉领域进展

本文是对prompt Learning在CV领域的文献总结，读者阅读完全文会对prompt learning在CV的各种用法有所了解，希望能对大家未来研究工作有所启发。

GPT-2生成《神奇宝贝》动漫台词

Ludicolo was a salsa master, he would teach Ash how to move like a god. He would make fun of Ash for being unable to move so quickly, and would even attack him for being weak.

【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制

论文地址：https://aclanthology.org/2022.acl-short.75.pdf

LaserTagger: 文本生成任务的序列标注解决方案

今天要和大家分享的是2019年Google Research的一篇关于文本生成的论文[1]，已开源[2]。

做语义分割不用任何像素标签，UCSD、英伟达在ViT中加入分组模块，入选CVPR2022

机器之心报道机器之心编辑部生成效果的确很惊艳。视觉场景是由有语义意义的像素组构成。在深度学习的概念出现之前，业界就已经使用经典的视觉理解方法对像素分组和识别进行深入研究。自下而上分组的思想是：首先将像素组织成候选组，然后用识别算法模块处理每个分组。这种思路已经成功应用于超像素图像分割、以及目标检测和语义分割的区域构建。除了自下而上的推理，识别过程中自上而下的反馈信号，能够更好地完成视觉分组。随着深度学习时代的到来，显式分组和识别的思想，在端到端的训练系统中已经不再那么泾渭分明，而是更紧密地耦合在一起

比seq2seq模型快90倍！Google推出全新文本编辑模型FELIX

序列到序列(seq2seq)模型已经成为处理自然语言生成任务的有效方法，其应用范围从机器翻译到单语言生成任务，如摘要、句子融合、文本简化和机器翻译的译后编辑。

深度学习 + OpenCV，Python实现实时目标检测

使用 OpenCV 和 Python 上对实时视频流进行深度学习目标检测是非常简单的，我们只需要组合一些合适的代码，接入实时视频，随后加入原有的目标检测功能。本文分两个部分。在第一部分中，我们将学习如何扩展原有的目标检测项目，使用深度学习和 OpenCV 将应用范围扩展到实时视频流和视频文件中。这个任务会通过 VideoStream 类来完成。深度学习目标检测教程：http://www.pyimagesearch.com/2017/09/11/object-detection-with-deep-

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

选自PyimageSearch 机器之心编译参与：路雪、李泽南使用 OpenCV 和 Python 对实时视频流进行深度学习目标检测是非常简单的，我们只需要组合一些合适的代码，接入实时视频，随后加入原有的目标检测功能。在本文中我们将学习如何扩展原有的目标检测项目，使用深度学习和 OpenCV 将应用范围扩展到实时视频流和视频文件中。这个任务会通过 VideoStream 类来完成。深度学习目标检测教程：http://www.pyimagesearch.com/2017/09/11/object-de

GPT调教指南：让你的语言模型性能时时SOTA，资源已公开

在这一过程中，会用到某种形式的「序列到序列」这一王者模型，如语言模型——应用语言模型根据前面的句子预测接下来的单词。

BERT适应业务遇难题？这是小米NLP的实战探索

近年来，预训练模型在自然语言处理（Natural Language Processing, NLP）领域大放异彩，其中最重要的工作之一就是 Google 于 2018 年发布的 BERT 预训练模型 [1]。自被发布以来，BERT 预训练模型就在多项自然语言理解任务上取得了优异的效果，并开启了预训练-微调的 NLP 范式时代，启发了 NLP 领域后续一系列的预训练模型工作。与此同时，BERT 模型在 NLP 相关工业领域也得到了广泛应用，并取得了良好的效果。但由于工业领域相关业务的数据格式的复杂性，以及工业应用对推理性能的要求，BERT 模型往往不能简单直接地被应用于 NLP 业务之中，需要根据具体场景和数据对 BERT 模型加以调整和改造，以适应业务的现实需求。

NLP中的少样本困境问题探究

在医疗、金融、法律等领域，高质量的标注数据十分稀缺、昂贵，我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发，谈一谈如何解决少样本困境。

文本增强、半监督学习，谁才是 NLP 少样本困境问题更优的解决方案？

关于BERT，面试官们都怎么问

BERT 来自 Google 的论文Pre-training of Deep Bidirectional Transformers for Language Understanding[1]，BERT 是“Bidirectional Encoder Representations from Transformers”的首字母缩写，整体是一个自编码语言模型（Autoencoder LM），并且其设计了两个任务来预训练该模型。

BERT适应业务遇难题？这是小米NLP的实战探索

Align and Prompt：Salesforce&ANU提出ALPRO，进行细粒度的视频文本对齐！代码已开源！

本文分享论文『Align and Prompt: Video-and-Language Pre-training with Entity Prompts』，由 Salesforce&ANU 提出ALPRO，进行细粒度的视频文本对齐！代码已开源！

基于CLIP，浙大提出：ActionCLIP，用检索的思想做视频动作识别！性能SOTA！代码已开源！

本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』，假设视频动作识别不是分类问题，而是检索问题？并基于 CLIP，浙大提出 ActionCLIP，用检索的思想做视频动作识别！性能 SOTA！代码已开源！

深度学习目标检测指南：如何过滤不感兴趣的分类及添加新分类？

AI 科技大本营按：本文编译自 Adrian Rosebrock 发表在 PyImageSearch 上的一篇博文。该博文缘起于一位网友向原作者请教的两个关于目标检测的问题：

广告行业中那些趣事系列2：BERT实战NLP文本分类任务(附github源码)

摘要：上一篇广告中那些趣事系列1：广告统一兴趣建模流程，我们了解了如何为广告主圈人群以及如何刻画用户的兴趣度。要想给用户打标签，我们需要构建数据源和标签的关联，也就是item-tag。针对数量较少的app数据源我们可以使用人工打标的方式来识别，但是对于news、用户query等数量较多的数据源则需要通过机器学习模型来进行打标。实际项目中我们使用NLP中鼎鼎大名的BERT模型来进行文本分类。

美团获得小样本学习榜单FewCLUE第一！Prompt Learning+自训练实战

总第515篇 2022年第032篇近日，美团搜索与NLP部NLP中心语义理解团队的小样本学习模型FSL++在中文小样本语言理解权威评测基准FewCLUE榜单登顶，在自然语言推理（OCNLI）单任务中取得第一，并在极少数样本（一个类别仅100余个）的条件下，在新闻分类(TNEWS)、科学文献学科分类（CSLDCP）任务上超过了人类识别精确度。 1 概述 2 方法介绍 2.1 增强预训练 2.2 模型结构 2.3 数据增强 2.4 集成学习&自训练 3 实验结果 3.1 数据集介绍 3.2 实验对比 4

太强！AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍，效果不减

YOLO系列检测器已将自己确立为高效实用的工具。然而，它们依赖于预定义和训练的物体类别，这在开放场景中限制了它们的适用性。针对这一限制，作者引入了YOLO-World，这是一种创新的方法，通过视觉语言建模和在大型数据集上的预训练，将YOLO与开集检测能力相结合。具体来说，作者提出了一种新的可重参化的视觉语言路径聚合网络（RepVL-PAN）和区域文本对比损失，以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色，且效率高。在具有挑战性的LVIS数据集上，YOLO-World在V100上实现了35.4 AP和52.0 FPS，在准确性和速度上都超过了许多最先进的方法。此外，经过微调的YOLO-World在包括目标检测和开集实例分割在内的几个下游任务上取得了显著性能。

深度召回模型在QQ看点推荐中的应用实践

导语：最近几年来，深度学习在推荐系统领域中取得了不少成果，相比传统的推荐方法，深度学习有着自己独到的优势。我们团队在QQ看点的图文推荐中也尝试了一些深度学习方法，积累了一些经验。本文主要介绍了一种用于推荐系统召回模块的深度学习方法，其出处是Google在2016年发表于RecSys的一篇用于YouTube视频推荐的论文。我们在该论文的基础上做了一些修改，并做了线上AB测试，与传统的协同召回做对比，点击率等指标提升明显。

深度学习目标检测指南：如何过滤不感兴趣的分类及添加新分类？

编译 | 庞佳责编 | Leo 出品 | 人工智能头条（公众号ID：AI_Thinker）【AI 科技大本营按】本文编译自 Adrian Rosebrock 发表在 PyImageSearch 上的一篇博文。该博文缘起于一位网友向原作者请教的两个关于目标检测的问题：如何过滤或忽略我不感兴趣的类？如何在目标检测模型中添加新的类？这是否可行？ Adrian Rosebrock 认为这两个问题是学习目标检测的同学经常问到的问题，于是创作了本篇文章统一回答。以下为博文摘录，AI 科技大本营编译：具体来

学界 | 吴恩达盛赞的Deep Voice详解教程，教你快速理解百度的语音合成原理（下）

AI科技评论按：百度前段时间推出了语音合成应用 Deep Voice，AI科技评论也于近日回顾了百度在语音识别及语音合成的研究历程《从SwiftScribe说起，回顾百度在语音技术的七年积累》，但对于不了解TTS的同学们来说，要理解 Deep Voice 同样困难。而前百度首席科学家吴恩达在 Twitter 上转发了MIT Dhruv Parthasarathy 的一篇medium 文章，其详细阐述了Baidu Deep Voice 的具体原理及操作方法。吴恩达表示，“如果你是语音合成的新手，那么这篇

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐