腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习自然语言处理

专栏作者

1009

文章

1172124

阅读量

160

订阅数

每日论文速递 | Embedding间的余弦相似度真的能反映相似性吗？

论文模型数据深度学习 embedding

摘要：余弦相似度是两个向量之间角度的余弦值，或者说是两个向量归一化之间的点积。一种流行的应用是通过将余弦相似度应用于学习到的低维特征嵌入来量化高维对象之间的语义相似性。在实践中，这可能比嵌入向量之间的非归一化点积效果更好，但有时也会更糟。为了深入了解这一经验观察结果，我们研究了由正则化线性模型推导出的嵌入，其中的闭式解法有助于分析。我们通过分析推导出余弦相似性如何产生任意的、因此毫无意义的 "相似性"。对于某些线性模型，相似性甚至不是唯一的，而对于其他模型，相似性则受正则化的隐性控制。我们讨论了线性模型之外的影响：在学习深度模型时，我们采用了不同的正则化组合；在计算所得到的嵌入的余弦相似度时，这些正则化组合会产生隐含的、意想不到的影响，使结果变得不透明，甚至可能是任意的。基于这些见解，我们提醒大家不要盲目使用余弦相似度，并概述了替代方法。

2024-03-25

1960

北大王选实验室 | 摘要已死？

深度学习程序模型数据系统

最新一篇研究里探索了大型语言模型（LLMs）在文本摘要这一领域的表现。他们设计了新的数据集，通过一系列人类评估实验评估LLMs在不同摘要任务中的表现。

2023-09-21

2280

深入理解Pytorch中的分布式训练

https 网络安全深度学习 mapreduce 批量计算

作者：台运鹏 (正在寻找internship...) 主页：https://yunpengtai.top

2023-01-12

9720

统计机器学习方法 for NLP：基于CRF的词性标注

NLP 服务编程算法学习方法机器学习深度学习

知乎: nghuyong 链接: https://zhuanlan.zhihu.com/p/523164712

2023-01-10

8460

统计机器学习方法 for NLP：基于HMM的词性标注

NLP 服务编程算法学习方法机器学习深度学习

知乎: nghuyong 链接: https://zhuanlan.zhihu.com/p/533678582

2023-01-10

8620

介绍一个被称为十一边形战士的强大模型

人工智能神经网络深度学习 https 网络安全

文档智能（DI, Document Intelligence）主要指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息，通过人工智能技术进行理解、分类、提取以及信息归纳的过程。文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业，常见的应用场景包括财务报销单、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等多模态文档的关键信息抽取、文档解析、文档比对等。随着企业数字化、信息化进程不断加速，这类需求越来越强烈，工业界急需前沿技术与易用工具来解决这些问题。百度开源的文心ERNIE-Layout以及自然语言处理开发工具PaddleNLP来得很及时，强烈安利！

2023-01-10

8130

分享5篇自动驾驶分割领域论文（附pdf下载）

自动驾驶无人驾驶机器学习神经网络深度学习

自动驾驶近些年非常火爆，相关的论文也层出不穷。我整理了5篇自动驾驶分割领域的论文，分享给大家，后面附有pdf下载。另外还给大家准备了《自动驾驶分割顶会写作方法》扫码加我，回复“自动驾驶”领取《自动驾驶分割论文.pdf》《自动驾驶分割顶会写作方法》以下是论文写作干货详细大纲《自动驾驶分割顶会写作方法》顶会审稿人主讲| 论文写作入门第1课科学研究的基本流程 1. 科学研究的定义 2. 人工智能与机器学习 3. 机器学习研究的基本流程第2课科学的寻找和总结文献 1. 文献的定义 2.

2022-10-10

4220

NLP实战 | BERT文本分类及其魔改(附代码)

机器学习神经网络深度学习人工智能 https

每天给你送来NLP技术干货！ ---- 写在前面本文主要介绍了两种文本分类模型：BERT文本分类基础模型，及基于Bert和TextCNN的魔改模型。在作者实际的有关文本分类的工作中取得了F1值超越Bert基础模型近4%的效果。 1. Baseline：Bert文本分类器 Bert模型是Google在2018年10月发布的语言模型，一经问世就横扫NLP领域11项任务的最优结果，可谓风头一时无二。有关于Bert中transformer的模型细节，我们在此就不赘述了。感兴趣的朋友，可以看看《The Illus

2022-10-10

3.8K0

NeurIPS 2022 | 如何实现表格数据上的迁移学习和零样本学习？

linux NLP 服务机器学习深度学习神经网络

每天给你送来NLP技术干货！ ---- ©作者 | 王子丰单位 | 伊利诺伊大学香槟分校研究方向 | AI for healthcare 排版 | PaperWeekly 今年的 NeurIPS 评分7/7/7 有惊无险中了一篇文章，做的是在表格数据上的pretraining, transfer learning，和 zero-shot learning。论文标题： TransTab: Learning Transferable Tabular Transformers Across Tables

2022-10-08

1.2K0

推荐一个论文写作神器

机器学习神经网络深度学习人工智能

朋友们，开学啦，你的论文开始写了嘛~ 论文通俗来说是本科和硕士的升学助力，也是学术界的硬通货，更是未来工作的加分项和敲门砖。论文的写作对很多学生来说，是一种挑战。有些学生不知该如何对论文做选题，更多的学生则是对毕业论文写作到底有什么要求不清楚，不知从何下手，常常为毕业论文发愁。我跟几位CVPR、ECCV等顶会审稿人聊了聊，总结输出如下文，希望对大家有启发。扫码0.1元领取《顶会审稿人论文写作干货》论文写作的分为四个顺序：阅读论文→确定创新点→Coding／实验→论文写作。 01 阅读论文发表论

2022-09-27

4180

清华大学周伯文老师课题组招聘助理教授/博士后/工程师/短期访问学生

机器学习神经网络人工智能编程算法深度学习

清华大学协同交互智能课题组位于清华大学电子工程系罗姆楼，负责人为周伯文教授。该课题组致力于研究面向人工智能可信理论突破为基座的多模态交互数智化赋能关键技术，研究目标为：构建可解释、可交互、可信赖、能推理、能决策、有知识、自适应的新一代AI模型和理论，让AI系统更好地与人协同完成复杂任务，并更好地自适应产业数智化中多应用场景。课题组简介课题组主要研究方向包括：多模态表征与交互研究多模态信息的理解、生成、交互与知识图谱的融合推理，提升人机协同场景下的认知、创新与决策能力，建立数据驱动的机器学习与知识驱动

2022-09-27

6010

综述 | 机器学习中的模型评价、模型选择与算法选择！

编程算法腾讯云测试服务机器学习神经网络深度学习

每天给你送来NLP技术干货！ ---- 选自 Sebastian Raschka，来源：机器之心本论文回顾了用于解决模型评估、模型选择和算法选择三项任务的不同技术，并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而，给出建议以促进机器学习研究与应用方面的最佳实践。论文链接：https://sebastianraschka.com/pdf/manuscripts/model-eval.pdf 摘要：模型评估、模型选择和算法选择技术的正确使用在学术性机器学习研究和诸多产业环境中异常关键。本文回顾了

2022-09-22

4300

NLP基础任务 - 句法分析简介

NLP 服务深度学习

作者：nlp初学者小吴 (清华大学) 已获授权链接：https://zhuanlan.zhihu.com/p/565282216 编辑：深度学习自然语言处理公众号句法（Syntactic）分析是NLP的经典任务 Syntactic tasks: Word level Word level的句法分析任务有：形态分析、分词、序列标注形态分析：Morphological analysis，指将一个词的词根（stem）和词缀（prefix & suffix）提取出来的任务分词：Word segmentat

2022-09-22

4300

基于深度主动学习的命名实体识别的代码实现及实验

NLP 服务深度学习腾讯云开发者社区 https 网络安全

每天给你送来NLP技术干货！ ---- 写在前面在很多问题中，获取标注准确的大量数据需要很高的成本，这也往往限制了深度学习的应用。主动学习通过对未标注的数据进行筛选，可以利用少量的标注数据取得较高的学习准确度。本文将提供代码实现，展示实验效果及一些思考。代码地址: https://github.com/hgliyuhao/ActiveLearing4NER 参考论文: 《Deep Active Learning for Named Entity Recognition》 2018 《Subsequen

2022-09-22

5030

整理了20场kaggle比赛baseline

微信 NLP 服务机器学习神经网络深度学习

我整理了20场+kaggle比赛baseline，包括CV/NLP/多模态/机器学习等方向。 01 CV方向比赛 CV方向选出了10场比赛，涵盖图像分类、图像分割、目标检测、视频分类等CV经典任务，覆盖农业、医疗、体育等应用领域。扫码加我微信，回复“比赛” 领取baseline代码 02 NLP方向比赛 NLP方向选出了6场比赛，涵盖文本分类、AES等NLP任务，覆盖医疗、教育等应用领域。扫码加我微信，回复“比赛” 领取baseline代码 03 多模态方向比赛多模态方向有2场比赛，

2022-09-20

5130

资源受限如何提高模型效率？一文梳理NLP高效方法

NLP 服务深度学习开源

每天给你送来NLP技术干货！ ---- 转载自 | 机器之心来源 | arXiv 训练越来越大的深度学习模型已经成为过去十年的一个新兴趋势。如下图所示，模型参数量的不断增加让神经网络的性能越来越好，也产生了一些新的研究方向，但模型的问题也越来越多。首先，这类模型往往有访问限制，没有开源，或者即使开源，仍然需要大量的计算资源来运行。第二，这些网络模型的参数是不能通用的，因此需要大量的资源来进行训练和推导。第三，模型不能无限扩大，因为参数的规模受到硬件的限制。为了解决这些问题，专注于提高效率的方法正在形

2022-09-20

4210

PaddleNLP通用信息抽取技术产业应用实例

神经网络深度学习人工智能 NLP 服务 https

每天给你送来NLP技术干货！ ---- 写在前面我们在《大一统信息抽取技术，PaddleNLP绝了》中介绍了 PaddleNLP安装及安装过程中的问题解决，也小试了一把 PaddleNLP，当时就惊叹了 PaddleNLP 的能力。今天我们就一起来通过这篇更详尽的文章继续了解强大的 PaddleNLP 。 0. PaddleNLP 一键预测能力 Taskflow API之三大特性功能全面全场景支持：覆盖NLU和NLG领域十一大经典任务。文档级输入：支持文档级输入，解决预训练模型对输入文本的长度限

2022-09-20

9130

NAACL'22 | 华为提出中文NER领域最新SOTA

区块链机器学习神经网络深度学习

每天给你送来NLP技术干货！ ---- 来自：克鲁斯卡 Delving Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition Accepted at NAACL 2022 Findings 4月7日，NAACL 2022公布论文入选名单，由华为云语音语义创新Lab多名研究者撰写的论文被NAACL 2022 Findings接收，趁热和大家一起学习一下文章大纲 Abstract

2022-09-14

1.5K0

长文详解YOLOv7的网络结构

神经网络深度学习人工智能图像识别 .net

作者：Kissrabbit (知乎同名) 方向：目标检测与人体动作行为分析哈尔滨工业大学在读博士最近，Scaled-YOLOv4的作者（也是后来的YOLOR的作者）和YOLOv4的作者AB大佬再次联手推出了YOLOv7，目前来看，这一版的YOLOv7是一个比较正统的YOLO续作，毕竟有AB大佬在，得到了过YOLO原作的认可。网上已经有了很多文章去从各个方面来测试YOLOv7，但关于YOLOv7到底长什么样，似乎还没有多少人做出介绍。由于YOLOv7再一次平衡好了参数量、计算量和性能之间的矛盾，所以，笔

2022-09-14

6.2K2

长文实践 | 详述文文本生成任务之营销文本生成

apache 机器学习神经网络深度学习人工智能

每天给你送来NLP技术干货！ ---- 编辑：AI算法小喵写在前面在《一文详解生成式文本摘要经典论文Pointer-Generator》中，我们已经详细地介绍过长文本摘要模型 PGN+Coverage。这个工作小喵20年初的时候不仅研读了，同时也做了相关的复现与优化尝试，没记错的话当时用的是TF框架。碍于年代久远，当时也没有做笔记的习惯，所以没法跟大家分享相关的实践内容。不过，小喵最近发现了一篇与之相关实践类博文，作者将 PGN+Coverage 用在营销文本生成任务上。整个实验与代码实现写的非常详细

2022-09-13

6740

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态