腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SimpleAI

专栏作者

104

文章

138044

阅读量

36

订阅数

我们开发了第一款中英双语ChatGPT检测器，还有...

https 网络安全腾讯云测试服务

当晚我很晚才睡着，但是第二天一大早就醒了，兴冲冲得跟几个好友讨论了这个事儿，经过一番讨论，我们觉得这是个有价值的事儿，值得一做！接着我们在一个更大的群里（孤勇AI研究者群hhh），对这个话题展开了热烈讨论。当天晚上，我们便组建了一个由海内外6所高校或企业的博士生/工程师组成的8人团队，为了一个共同的目标：

2023-02-09

4970

首个人类－ChatGPT对比语料集开源！人工测评，语言学分析，检测器模型都在这里

https 网络安全腾讯云测试服务 github git

我们提出了首个「人类-ChatGPT 问答对比语料集」，也是最早开发ChatGPT检测器的团队，过去40天我们熬了很多夜，除了艰难的数据收集过程，还做了大量人工测评（图灵测试，有用性测试等）、语言学分析以及各种类型的检测器的开发。作为一个纯纯的中国学生团队，甚至多数人最初都素不相识，我们一开始是觉得难以完成最初的设想的，但经过40天的奋战，我们最初想做的基本都做到了，真心为我们团队感到自豪！感谢并肩作战的好兄弟们！❤️❤️ 请大家关注我们的论文： https://arxiv.org/pdf/2301.07597

2023-02-09

4390

好久不见，介绍一下，这位是GENIUS：一个基于“草稿”进行文本生成、数据增强的“小天才”模型

https 网络安全 NLP 服务

前言：朋友们好啊，好久不见。最近半年比较忙，因此好久没有更新了。今年3月份，我开始了在MSRA NLC组的研究实习，如今转眼已经过去了9个月。这也是我读博士以来目前压力最大的一段时光，中间也有很多故事，这里暂不赘述，等日后有闲心了再详细分享给大家。今天想跟大家简单介绍一下我这过去9个月“养”出的一个模型——GENIUS。非常感激MSRA的老师们和我们上财AI实验室的导师们在这期间给予的指导和鼓励，感谢老婆在封城期间操劳家里的一切柴米油盐让我全身心科研，当然还有很多同学给予的帮助，这里就不一一列举啦。

2022-12-01

5080

Mixture-of-Experts (MoE) 经典论文一览

https 网络安全

最近接触到 Mixture-of-Experts (MoE) 这个概念，才发现这是一个已经有30多年历史、至今依然在被广泛应用的技术，所以读了相关的几篇经典论文，在这里总结一下。

2022-12-01

1.3K0

Google的 Pathways（理想）与 PaLM（现实）

https 网络安全

2022年3月，Google发布了Pathways系统，用于更高效地训练大型模型：

2022-11-30

4590

数据地图---使用Training Dynamics来映射和诊断数据集

github https git 开源网络安全

最近看到一篇很有趣的文章，发表于EMNLP-20，作者团队主要来自AllenAI：

2022-11-30

4080

我如何用Annoy和ThreadPool把相似度计算加速360倍

https 网络安全编程算法

我最近的一个项目中需要大量查询一个词的相似词，而无论是英文的WordNet，还是中文的同义词词林，都覆盖面太窄，我决定借助训练好的Word2Vec模型，使用gensim库，调用它经典的.most_similar()函数来进行相似词查询。而由于程序中需要大量查询相似词，所以就需要大量调用.most_similar()函数，而这，就成为了整个程序的瓶颈，因为：

2022-03-28

5640

小样本学习与Triplet Loss，数据增强和课程学习

https 网络安全

这应该就是本文最主要的贡献了。作者使用文本增强时文本的改动幅度来衡量增强样本的难度，从而设计课程学习策略。

2022-03-28

9300

Huggingface🤗NLP笔记8：使用PyTorch来微调模型「初级教程完结撒花ヽ(°▽°)ノ」

pytorch 批量计算 https NLP 服务网络安全

在Huggingface官方教程里提到，在使用pytorch的dataloader之前，我们需要做一些事情：

2021-10-20

1.7K0

Huggingface🤗NLP笔记7：使用Trainer API来微调模型

NLP 服务 https 网络安全 css html

不得不说，这个Huggingface很贴心，这里的warning写的很清楚。这里我们使用的是带ForSequenceClassification这个Head的模型，但是我们的bert-baed-cased虽然它本身也有自身的Head，但跟我们这里的二分类任务不匹配，所以可以看到，它的Head被移除了，使用了一个随机初始化的ForSequenceClassificationHead。

2021-10-08

7.2K0

Huggingface🤗NLP笔记6：数据集预处理，使用dynamic padding构造batch

NLP 服务批量计算 https 网络安全 linux

从这一集，我们就正式开始使用Transformer来训练模型了。今天的部分是关于数据集预处理。

2021-10-08

4.3K2

Huggingface🤗NLP笔记5：attention_mask在处理多个序列时的作用

NLP 服务 https 网络安全

现在我们训练和预测基本都是批量化处理的，而前面展示的例子很多都是单条数据。单条数据跟多条数据有一些需要注意的地方。

2021-10-08

5.3K0

Huggingface🤗NLP笔记4：Models，Tokenizers，以及如何做Subword tokenization

https css 网络安全编程算法 NLP 服务

前面都是使用的AutoModel，这是一个智能的wrapper，可以根据你给定的checkpoint名字，自动去寻找对应的网络结构，故名Auto。

2021-10-08

1.9K0

Huggingface🤗NLP笔记3：Pipeline端到端的背后发生了什么

NLP 服务 https 网络安全 css html

「Huggingface🤗NLP笔记系列-第3集」最近跟着Huggingface上的NLP tutorial走了一遍，惊叹居然有如此好的讲解Transformers系列的NLP教程，于是决定记录一下学

2021-10-08

2K0

Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力

NLP 服务编程算法 https 网络安全

Transformer结构最初就是在大2017年名鼎鼎的《Attention Is All You Need》论文中提出的，最开始是用于机器翻译任务。

2021-10-08

3.4K0

Huggingface🤗NLP笔记1：直接使用pipeline，是个人就能玩NLP

https 网络安全 NLP 服务

Pipeline是Huggingface的一个基本工具，可以理解为一个端到端(end-to-end)的一键调用Transformer模型的工具。它具备了数据预处理、模型处理、模型输出后处理等步骤，可以直接输入原始数据，然后给出预测结果，十分方便。

2021-10-08

3.9K0

一种巧妙且简单的数据增强方法 - MixUp 小综述

https 网络安全 NLP 服务 serverless

Mixup 是⼀种简单且有效的数据增强⽅法，⾃2018年MIT和facebook提出之后，⽆论在业界还是在学术界都有了很强的地位，成为⼤家的⼀种标配。下⾯就从开⼭之作逐步简单的介绍下如何在NLP领域使⽤的吧。

2021-09-15

2.2K0

PyTorch简明笔记[1]-Tensor的初始化和基本操作

https pytorch numpy html

安装PyTorch应该不用我多说，他们的官网很人性化地给出了各种环境应该怎么安装，网址：https://pytorch.org/get-started/locally/

2019-01-09

8.2K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态