Soul Joy Hub

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

💡 社交互动怎样突破实时音视频卡顿与高流量消耗瓶颈？

🚀 短剧制作效率低下，AI如何辅助实现智能提效？

参阅：https://www.shenmezhidedu.com/jinri/haowen/gongju/7255.html
 替代方案：https://poe.com/

【大模型AIGC系列课程 1-1】ChatGPT与OpenAI API的应用

https://arxiv.org/pdf/2103.10360.pdf
 GLM是General Language Model的缩写，是一种通用的语言模型预训练框架。它的主要目标是通过自回归的空白填充来进行预训练，以解决现有预训练框架在自然语言理解（NLU）、无条件生成和有条件生成等任务中表现不佳的问题。
 具体来说，GLM通过随机遮盖文本中连续的标记，并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系，并且能够处理可变长度的空白。通过添加二维位置编码和允许任意顺序预测空白，GLM改进了空白填充预训练的性能。
 

【大模型AIGC系列课程 3-2】国产开源大模型：ChatGLM

生物系统和生物过程非常复杂，包含大量的相互作用和调控机制，理解和解析这些复杂性是一项巨大的挑战。
 举例来说，单单一个人类，体内的生物信息就非常复杂：

达尔文——生物医疗科学领域大模型

github：https://github.com/Stability-AI/stablediffusion

【stability.ai】SDXL：改进高分辨率图像合成的潜在扩散模型

本文介绍了一种新颖的方法，旨在解决使用大型语言模型（LLM）时面临的成本和性能挑战。随着GPT-4和ChatGPT等LLM的日益流行，我们需要找到降低这些模型推理成本的策略。作者强调了LLM API的异构定价结构以及使用最大的LLM所带来的巨大财务、环境和能源影响。

【斯坦福】FrugalGPT: 如何使用大型语言模型，同时降低成本并提高性能

σ ′ (z_j^L )$,其他的元素均是 0。注意,这个矩阵通过一般的矩阵乘法作用在 

《neural network and deep learning》题解——ch02 反向传播

一个比较简化而合理的权重是，就选用二进制位置上的数值作为权重。假设正确输出为0，这输出层是输入为：
 （可以竖着看二进制的每一位）
 第一个神经元输入 = 

《neural network and deep learning》题解——ch01 神经网络

近年来，图像生成技术发展迅速，越来越多的人开始关注和探索各种图像生成模型。而 Diffusion Model 作为其中的一种，其在生成高质量图像方面具有重要意义。在本次分享中，我们将探讨 Diffusion Model 的原理和实现方式。希望本次分享能够帮助大家更深入地了解这一领域的技术和方法，以及启发您进一步探索和研究。

浅谈图像生成模型 Diffusion Model 原理

使用预训练语言模型的小样本学习（处理只有少量标签或没有标签的数据）已成为比较普遍的解决方案。
 SetFit：一种用于对 Sentence Transformers 进行少量微调的高效框架。SetFit 用很少的标记数据实现了高精度——例如，在客户评论 (CR) 情绪数据集上每个类只有 8 个标记样本，SetFit 在 3k 个样本的完整训练集上与微调 RoBERTa Large 相比，如图1-1所示，具有竞争力表现：
 

【简单、高效、性能好】SetFit：无需Prompts的高效小样本学习

论文：https://arxiv.org/abs/2107.07653
 代码：https://github.com/microsoft/Table-Pretraining

【微软】【ICLR 2022】TAPEX：通过学习神经 SQL 执行器进行表预训练

文本纠错任务是一项NLP基础任务，其输入是一个可能含有错误字词的句子，输出是一个正确的中文句子。ASR（语音识别）文本的错误类型很多，有多字、少字、错别字、同音近音字等等。

ASR文本纠错模型

http://blog.csdn.net/u011239443/article/details/75091283

《neural network and deep learning》题解——ch03 交叉熵代价函数

论文地址：https://aclanthology.org/2022.acl-short.75.pdf

【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制

最近，基于 Transformer 的架构被用于越来越多被应用于Table QA。在本文中，作者提出了两种新颖的方法，证明一种方法可以在不使用任何这些专门的预训练技术的情况下在 Table QA 任务上实现卓越的性能。

【NAACL 2021】RCI：在基于 Transformer 的表格问答中行和列语义捕获

自然语言处理和信息检索中的许多任务都涉及句子的成对比较——例如，句子相似性检测、释义识别、问答蕴涵和文本蕴涵。

【ICLR 2022】Trans-Encoder：通过自蒸馏和相互蒸馏的无监督句对建模

《文本匹配——【EMNLP 2021】TSDAE》中的自适应预训练的一大缺点是计算开销高，因为必须首先在语料库上运行预训练，然后在标记的训练数据集上进行监督学习。标记的训练数据集可能非常大。

【NAACL 2022】GPL：用于密集检索的无监督域自适应的生成伪标记

目前，最先进的 NLP 架构模型通常重用在 Wikipedia 和 Toronto Books Corpus 等大型文本语料库上预训练的 BERT 模型作为基线 。通过对深度预训练的 BERT 进行微调，发明了许多替代架构，例如 DeBERT、RetriBERT、RoBERTa ……它们对各种语言理解任务的基准进行了实质性改进。在 NLP 中的常见任务中，成对句子评分在信息检索、问答、重复问题检测或聚类等方面有广泛的应用。通常，提出了两种典型的方法：Bi-encoders 和 Cross-encoders。

【NAACL 2021】AugSBERT：用于改进成对句子评分任务的 Bi-encoder 数据增强方法

论文 BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models 中，作者提出了一种无需训练数据，即可学习（或适应）非对称语义搜索模型的方法。

搜索与问答——【NeurIPS 2021】BEIR：信息检索模型零样本评估的异构基准

论文《ConveRT: Efficient and Accurate Conversational Representations from Transformers》地址：https://arxiv.org/abs/1911.03688

【PolyAI】【EMNLP 2020 Findings】ConveRT：来自 Transformer 的高效准确的会话表示

TSDAE（Transformer-based Sequential Denoising Auto-Encoder）模型使用纯句子作为训练数据来无监督训练句子向量。在训练期间，TSDAE 将加了噪声的句子编码为固定大小的向量，并要求decoder从这个句子表征中重建原始句子。为了获得良好的重建质量，必须在encoder的句子向量中很好地捕获语义。在后续推理时，我们只使用encoder来创建句子向量。架构如下图所示：
 

搜索与问答——【EMNLP 2021】TSDAE：基于Transformer的顺序去噪自动编码器

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了Soul Joy Hub专栏，为你提供了Soul Joy Hub的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐