首页
学习
活动
专区
工具
TVP
发布

Soul Joy Hub

专栏作者
238
文章
196806
阅读量
40
订阅数
【大模型AIGC系列课程 1-1】ChatGPT与OpenAI API的应用
参阅:https://www.shenmezhidedu.com/jinri/haowen/gongju/7255.html 替代方案:https://poe.com/
小爷毛毛_卓寿杰
2023-09-09
1300
【大模型AIGC系列课程 3-2】国产开源大模型:ChatGLM
https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。它的主要目标是通过自回归的空白填充来进行预训练,以解决现有预训练框架在自然语言理解(NLU)、无条件生成和有条件生成等任务中表现不佳的问题。 具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。通过添加二维位置编码和允许任意顺序预测空白,GLM改进了空白填充预训练的性能。
小爷毛毛_卓寿杰
2023-08-28
3100
达尔文——生物医疗科学领域大模型
生物系统和生物过程非常复杂,包含大量的相互作用和调控机制,理解和解析这些复杂性是一项巨大的挑战。 举例来说,单单一个人类,体内的生物信息就非常复杂:
小爷毛毛_卓寿杰
2023-07-21
3820
【stability.ai】SDXL:改进高分辨率图像合成的潜在扩散模型
github:https://github.com/Stability-AI/stablediffusion
小爷毛毛_卓寿杰
2023-07-09
6880
【斯坦福】FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能
本文介绍了一种新颖的方法,旨在解决使用大型语言模型(LLM)时面临的成本和性能挑战。随着GPT-4和ChatGPT等LLM的日益流行,我们需要找到降低这些模型推理成本的策略。作者强调了LLM API的异构定价结构以及使用最大的LLM所带来的巨大财务、环境和能源影响。
小爷毛毛_卓寿杰
2023-07-09
2680
《neural network and deep learning》题解——ch02 反向传播
σ ′ (z_j^L )$,其他的元素均是 0。注意,这个矩阵通过一般的矩阵乘法作用在
小爷毛毛_卓寿杰
2023-05-24
3610
《neural network and deep learning》题解——ch01 神经网络
一个比较简化而合理的权重是,就选用二进制位置上的数值作为权重。假设正确输出为0,这输出层是输入为: (可以竖着看二进制的每一位) 第一个神经元输入 =
小爷毛毛_卓寿杰
2023-05-23
3350
浅谈图像生成模型 Diffusion Model 原理
近年来,图像生成技术发展迅速,越来越多的人开始关注和探索各种图像生成模型。而 Diffusion Model 作为其中的一种,其在生成高质量图像方面具有重要意义。在本次分享中,我们将探讨 Diffusion Model 的原理和实现方式。希望本次分享能够帮助大家更深入地了解这一领域的技术和方法,以及启发您进一步探索和研究。
小爷毛毛_卓寿杰
2023-04-28
3.1K0
【简单、高效、性能好】SetFit:无需Prompts的高效小样本学习
使用预训练语言模型的小样本学习(处理只有少量标签或没有标签的数据)已成为比较普遍的解决方案。 SetFit:一种用于对 Sentence Transformers 进行少量微调的高效框架。SetFit 用很少的标记数据实现了高精度——例如,在客户评论 (CR) 情绪数据集上每个类只有 8 个标记样本,SetFit 在 3k 个样本的完整训练集上与微调 RoBERTa Large 相比,如图1-1所示,具有竞争力表现:
小爷毛毛_卓寿杰
2022-12-02
5180
【微软】【ICLR 2022】TAPEX:通过学习神经 SQL 执行器进行表预训练
论文:https://arxiv.org/abs/2107.07653 代码:https://github.com/microsoft/Table-Pretraining
小爷毛毛_卓寿杰
2022-12-02
1.1K0
ASR文本纠错模型
文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。
小爷毛毛_卓寿杰
2022-11-30
2.1K0
《neural network and deep learning》题解——ch03 交叉熵代价函数
http://blog.csdn.net/u011239443/article/details/75091283
小爷毛毛_卓寿杰
2022-11-30
3160
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
论文地址:https://aclanthology.org/2022.acl-short.75.pdf
小爷毛毛_卓寿杰
2022-11-30
1.1K0
【NAACL 2021】RCI:在基于 Transformer 的表格问答中行和列语义捕获
最近,基于 Transformer 的架构被用于越来越多被应用于Table QA。在本文中,作者提出了两种新颖的方法,证明一种方法可以在不使用任何这些专门的预训练技术的情况下在 Table QA 任务上实现卓越的性能。
小爷毛毛_卓寿杰
2022-11-02
7260
【ICLR 2022】Trans-Encoder:通过自蒸馏和相互蒸馏的无监督句对建模
自然语言处理和信息检索中的许多任务都涉及句子的成对比较——例如,句子相似性检测、释义识别、问答蕴涵和文本蕴涵。
小爷毛毛_卓寿杰
2022-09-30
5470
【NAACL 2022】GPL:用于密集检索的无监督域自适应的生成伪标记
《文本匹配——【EMNLP 2021】TSDAE》中的自适应预训练的一大缺点是计算开销高,因为必须首先在语料库上运行预训练,然后在标记的训练数据集上进行监督学习。标记的训练数据集可能非常大。
小爷毛毛_卓寿杰
2022-09-30
4740
【NAACL 2021】AugSBERT:用于改进成对句子评分任务的 Bi-encoder 数据增强方法
目前,最先进的 NLP 架构模型通常重用在 Wikipedia 和 Toronto Books Corpus 等大型文本语料库上预训练的 BERT 模型作为基线 。通过对深度预训练的 BERT 进行微调,发明了许多替代架构,例如 DeBERT、RetriBERT、RoBERTa ……它们对各种语言理解任务的基准进行了实质性改进。在 NLP 中的常见任务中,成对句子评分在信息检索、问答、重复问题检测或聚类等方面有广泛的应用。通常,提出了两种典型的方法:Bi-encoders 和 Cross-encoders。
小爷毛毛_卓寿杰
2022-09-30
3670
搜索与问答——【NeurIPS 2021】BEIR:信息检索模型零样本评估的异构基准
论文 BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models 中,作者提出了一种无需训练数据,即可学习(或适应)非对称语义搜索模型的方法。
小爷毛毛_卓寿杰
2022-09-30
1.1K0
【PolyAI】【EMNLP 2020 Findings】ConveRT:来自 Transformer 的高效准确的会话表示
论文《ConveRT: Efficient and Accurate Conversational Representations from Transformers》地址:https://arxiv.org/abs/1911.03688
小爷毛毛_卓寿杰
2022-09-30
2750
搜索与问答——【EMNLP 2021】TSDAE:基于Transformer的顺序去噪自动编码器
TSDAE(Transformer-based Sequential Denoising Auto-Encoder)模型使用纯句子作为训练数据来无监督训练句子向量。在训练期间,TSDAE 将加了噪声的句子编码为固定大小的向量,并要求decoder从这个句子表征中重建原始句子。为了获得良好的重建质量,必须在encoder的句子向量中很好地捕获语义。在后续推理时,我们只使用encoder来创建句子向量。架构如下图所示:
小爷毛毛_卓寿杰
2022-09-30
7460
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档