开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

从大型语料库生成n-gram

是一种文本处理技术，用于分析和理解自然语言文本。n-gram是指连续的n个词或字符的序列，通过统计这些序列在语料库中出现的频率，可以得到词语之间的关联性和概率分布。

这种技术在自然语言处理、机器学习和信息检索等领域有广泛的应用。它可以用于语言模型的训练和生成，文本分类和情感分析，机器翻译，拼写检查，自动文本摘要等任务。

在腾讯云的产品中，与文本处理相关的有腾讯云自然语言处理（NLP）服务。该服务提供了丰富的API接口，包括分词、词性标注、命名实体识别、情感分析等功能，可以帮助开发者快速实现文本处理的需求。具体产品介绍和文档可以参考腾讯云自然语言处理（NLP）服务官方文档：https://cloud.tencent.com/product/nlp

相关搜索:从字符串生成n-gram 如何使用R在语料库中搜索特定的n-gram 如何在Python中使用多处理生成大型语料库的tfdf？具有大型语料库的Python Gensim LDAMallet CalledProcessError (在小型语料库中运行良好)从大型pandas数据帧生成网络图在大型语料库中使用cast_dtm时出错从熊猫数据帧生成语料库时，For循环KeyError: 4675时在大型语料库中使用CoreNLP ColumnDataClassifier进行文档分类从多个txt文件创建语料库每年从语料库中删除单词在大型语料库中高效地计算词频，而不考虑文档边界从大型Json文件生成单独的文本文件为mysql数据库中存在的特定列生成n-gram 从nltk语料库中随机阅读句子从语料库中去除离群值文档生成大型随机平面图 vscode生成大型配置文件 TPCH用于生成大型数据集在大型语料库上实现tensorflow通用句子嵌入的快速方法是什么？关于Gensim从词典创建语料库的问题

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

DLM：微信大规模分布式n-gram语言模型系统

Wechat & NUS《A Distributed System for Large-scale n-gram Language Models at Tencent》分布式语言模型，支持大型n-gram LM解码的系统。本文是对原VLDB2019论文的简要翻译。

02

斯坦福NLP课程 | 第6讲 - 循环神经网络与语言模型

ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！

02

NLP基础：N-Gram模型

从计算上看，知道一个词出现的概率需要知道其前面所有词的出现概率，这种方法太过复杂，因此这里引入了马尔可夫模型，即当前词的出现概率仅与前面几个词有关。由此产生了N-Gram模型。

02

N-Gram

N-Gram（N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来评估一个句子是否合理。N-Gram的另外一个作用是用来评估两个字符串之间的差异程度，这是模糊匹配中常用的一种手段。本文将从此开始，进而向读者展示N-Gram在自然语言处理中的各种Powerful的应用

02

EMNLP2022 & 天津大学 | 基于Bert的无监督边界感知模型BABERT「中文序列标注」

边界信息是各种中文自然语言处理任务的关键，如分词、词性标注和命名实体识别。之前的研究往往使用高质量的外部词典提供显式的边界信息。然而为保证词典的质量，往往需要大量的人力。为此，在本文使用无监督的统计边界信息，并提出一种将信息直接编码到预训练语言模型中的架构，从而产生边界感知BERT(BABERT)，并将BABERT应用于中文序列标注任务的特征归纳。在十个中文序列标记基准上的实验结果表明，BABERT在所有数据集上都具有较好的结果。

02

「X」Embedding in NLP｜Token 和 N-Gram、Bag-of-Words 模型释义

ChatGPT（GPT-3.5）和其他大型语言模型（Pi、Claude、Bard 等）凭何火爆全球？这些语言模型的运作原理是什么？为什么它们在所训练的任务上表现如此出色？

01

特征工程(二) :文本数据的展开、过滤和分块

如果让你来设计一个算法来分析以下段落，你会怎么做？ Emma knocked on the door. No answer. She knocked again and waited. There was a large maple tree next to the house. Emma looked up the tree and saw a giant raven perched at the treetop. Under the afternoon sun, the raven gleamed ma

01

人工智能自然语言处理：N-gram和TF-IDF模型详解

N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作，形成了长度是 N 的字节片段序列。

00

资源 | Chinese Word Vectors：目前最全的中文预训练词向量集合

项目链接：https://github.com/Embedding/Chinese-Word-Vectors

06

练手扎实基本功必备：非结构文本特征提取方法

在本文中，我们将研究如何处理文本数据，这无疑是最丰富的非结构化数据来源之一。文本数据通常由文档组成，文档可以表示单词、句子甚至是文本的段落。文本数据固有的非结构化(没有格式整齐的数据列)和嘈杂的特性使得机器学习方法更难直接处理原始文本数据。因此，在本文中，我们将采用动手实践的方法，探索从文本数据中提取有意义的特征的一些最流行和有效的策略。这些特征可以很容易地用于构建机器学习或深度学习模型。

02

文本数据的特征提取都有哪些方法？

介绍了一些传统但是被验证是非常有用的，现在都还在用的策略，用来对非结构化的文本数据提取特征。

03

通俗理解n-gram语言模型

本文主要介绍n-gram语言模型，如果想要了解语言模型的相关知识可以看《带你理解语言模型》。

04

资源 | Chinese Word Vectors：目前最全的中文预训练词向量集合

作者：shenshen-hungry 机器之心编译参与：刘晓坤、思源对于国内自然语言处理的研究者而言，中文词向量语料库是需求很大的资源。近日，北京师范大学等机构的研究者开源了「中文词向量语料库」，试图为大家解决这一问题，该库包含经过数十种用各领域语料（百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等）训练的词向量，涵盖各领域，且包含多种训练设置。目前，该研究的论文《Analogical Reasoning on Chinese Morphological and Se

03

【深度学习】NLP自然语言处理

语言模型通俗的将就是判断一句话是不是正常人说出来的。统计语言模型是所有 NLP的基础，被广泛应用与语音识别、机器翻译、分词、词性标注和信息检索等任务。传统的统计语言模型是表示语言基本单位（一般为句子）的概率分布函数，这个概率分布也是该语言的生成模型。通俗的讲，如果一句话没有在语料库中出现，可以模拟句子的生成的方式，生成句子在语料库中的概率。一般语言模型可以使用各个词语条件概率的形式表示：

02

Word2vec理论基础——词向量

我们希望原始文本信息能够得到保留，例如国王和女王之间的关系和男人与女人之间的关系应是特别接近的，法国和巴黎之间关系与德国和巴黎的关系也是接近的。

02

LLM基础知识

💥通常，大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型)，这些参数是在大量文本数据上训练的，例如模型 GPT-3、ChatGPT、PaLM、BLOOM和 LLaMA等.

01

以实践的方式讨论：N-Gram原理与其应用

本文将以实践的方式讨论N-Gram原理与其应用，我对N-Gram的接触来源与一个文本分类的实验，发现在原有的分词基础上引入N-Gram会提升分类准确率，因此在此讨论什么是N-Gram？它有什么作用？

01

自然语言处理中的语言模型简介

语言模型常常与单词嵌入混淆。主要的区别在于，在语言模型中，单词顺序很重要，因为它试图捕捉单词之间的上下文，而在单词嵌入的情况下，只捕捉语义相似度(https://en.wikipedia.org/wiki/Semantic_similarity) ，因为它是通过预测窗口中的单词来训练的，而不管顺序如何。

02

自然语言处理|语言模型介绍

01 — 回顾昨天说到自然语言处理中如何将词语转化为词向量，主要用 Distributed Representation 思想，比如谷歌的word2vec就是其中思想下的实现方法之一，关于这篇总结，请参考：深度学习|自然语言处理之词To词向量下面，总结自然语言处理中的语言模型，那么何为语言模型？语言模型是用来判断某句话是不是按照某种语言的习惯正确表达出来的，比如，我已经吃过饭，是一句符合汉语习惯的话，那么，吃过饭我已经，就不是一句符合习惯的表达，那么如何让机器判断出，我已经吃过饭，吃过饭我已经，

06

N-gram的简单的介绍

N-gram是机器学习中NLP处理中的一个较为重要的语言模型，常用来做句子相似度比较，模糊查询，以及句子合理性，句子矫正等. 再系统的介绍N-gram前，我们先了解一下这几种概率.

02

自然语言处理：语言模型与评价方法

假设一门语言中所有可能的句子服从某一个概率分布，每个句子出现的概率加起来为1，那么“语言模型”的任务就是预测每个句子在语言中出现的概率。对于语言中常见的句子，一个好的语言模型应得出相对较高的概率；而对于不合语法的句子，计算出的概率则应接近于零。把句子看成单词的序列，语言模型可以表示为一个计算p(w1,w2,w3,…,wm)的模型。语言模型仅仅对句子出现的概率进行建模，并不尝试去“理解”句子的内容含义。比如说，语言模型能告诉我们什么样的句子是常用句子，但无法告诉我们两句话的意思是否相似或者相反。

01

使用 HanLP 统计二元语法中的频次

计算句子概率值的工具就是语言模型，但是随着句子长度的逐渐增大，语言模型会遇到下面两个问题：

01

自然语言处理语言模型介绍

01 — 回顾昨天说到自然语言处理中如何将词语转化为词向量，主要用Distributed Representation 思想，比如谷歌的word2vec就是其中思想下的实现方法之一，关于这篇总结，请参考：下面，总结自然语言处理中的语言模型，那么何为语言模型？语言模型是用来判断某句话是不是按照某种语言的习惯正确表达出来的，比如，我已经吃过饭，是一句符合汉语习惯的话，那么，吃过饭我已经，就不是一句符合习惯的表达，那么如何让机器判断出，我已经吃过饭，吃过饭我已经，哪个是更可能表达准确的句子呢？下面

07

NLP从词袋到Word2Vec的文本表示

在NLP(自然语言处理)领域，文本表示是第一步，也是很重要的一步，通俗来说就是把人类的语言符号转化为机器能够进行计算的数字，因为普通的文本语言机器是看不懂的，必须通过转化来表征对应文本。早期是基于规则的方法进行转化，而现代的方法是基于统计机器学习的方法。

01

NLP 点滴：文本相似度（下）

本文介绍了自然语言处理中的文本相似度计算方法和模型，包括余弦相似度、Jaccard相似度、编辑距离、基于词向量的方法、概率语言模型等。这些方法在文本分类、聚类、机器翻译等任务中都有广泛应用。

02

浅谈用Python计算文本BLEU分数

BLEU，全称为Bilingual Evaluation Understudy（双语评估替换），是一个比较候选文本翻译与其他一个或多个参考翻译的评价分数。

文本在计算机中的表示方法总结

本文为 AI 研习社社区用户 @Dendi 独家投稿内容，欢迎扫描底部社区名片访问 @Dendi 的主页，查看更多内容。

02

困惑度(perplexity)的基本概念及比较多种模型下的计算（N-gram, 主题模型/LDA, 神经网络/RNN）

发现网络上流传的关于困惑度(perplexity)大多数都是利用了N-gram或者主题模型的例子来阐述的。但是现在这个年代来学习这个指标的人多半都是想研究神经网络的，而两者的对困惑度的计算方法又很不同，这就不能不让人对“困惑度”感到“困惑”了。本人虽然才疏学浅，还是斗胆在这里尝试写一篇文章，试图用简洁的方式来梳理清楚其中的困惑。

02

LLM-AI大模型介绍

🍹大语言模型 (Large Language Model) 是一种人工智能模型, 它们通常包含数千亿甚至更多的参数，并在大规模数据集上进行训练。大语言模型可以处理多种自然语言任务，如文本分类、问答、翻译、对话等等。

01

有时抄个1000词，有时自己发挥，新研究揭示GPT到底是怎么写作文的

机器之心报道机器之心编辑部 GPT-2 这样的大规模语言模型也能学会「句法」、生成新词，然而事情真要这么简单就好了。深度学习到底能学多深？在过去的一段时间，我们大多会用生成文本的质量来评价 GPT 等语言生成模型的表现。但与此同时，我们忽略了一个问题：那些用生成模型做的「狗屁不通文章生成器」、「满分作文生成器」到底是鹦鹉学舌（简单地记住看过的例子，并以浅显的方式重新组合），还是真的学到了复杂的语言结构？在最近的一篇文章中，来自约翰霍普金斯大学、微软研究院等机构的研究者就提出了这样一个问题。神经网

01

NLP中关键字提取方法总结和概述

关键字提取是从文本文档中检索关键字或关键短语。这些关键词从文本文档的短语中选择出来的并且表征了文档的主题。在本文中，我总结了最常用的自动提取关键字的方法。

02

自然语言处理中的N-Gram模型详解

N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始，进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。

02

资源 | 你是合格的数据科学家吗？30道题测试你的NLP水平

选自Analyticsvidhya 作者：Shivam Bansal 机器之心编译参与：黄小天、李亚洲、Smith 近日，analyticsvidhya 上出现了一篇题为《30 Questions to test a data scientist on Natural Language Processing [Solution: Skilltest – NLP]》的文章，通过 30 道题的测试，帮助数据科学家了解其对自然语言处理的掌握水平。同时文章还附上了截至目前的分数排行榜，最高得分为 24（超过 25

08

机器翻译之BLEU值

BLEU（Bilingual Evaluation Understudy），相信大家对这个评价指标的概念已经很熟悉，随便百度谷歌就有相关介绍。原论文为BLEU: a Method for Automatic Evaluation of Machine Translation，IBM出品。

04

极简使用︱Gemsim-FastText 词向量训练以及OOV（out-of-word）问题有效解决

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/83041424

02

如何对非结构化文本数据进行特征工程操作？这里有妙招！

文本数据通常是由表示单词、句子，或者段落的文本流组成。由于文本数据非结构化（并不是整齐的格式化的数据表格）的特征和充满噪声的本质，很难直接将机器学习方法应用在原始文本数据中。在本文中，我们将通过实践的方法，探索从文本数据提取出有意义的特征的一些普遍且有效的策略，提取出的特征极易用来构建机器学习或深度学习模型。研究动机想要构建性能优良的机器学习模型，特征工程必不可少。有时候，可能只需要一个优秀的特征，你就能赢得 Kaggle 挑战赛的胜利！对于非结构化的文本数据来说，特征工程更加重要，因为我们需要将文

06

学界 | 5.5%语音识别词错率究竟如何炼成？IBM发布相关研究论文

选自arXiv 机器之心编译参与：晏奇、吴攀语音识别是人工智能领域所研究的核心问题之一，研究者一直以来都在竞相努力以期能首先达到比肩人类的里程碑。去年十月，微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了和专业速录员相当甚至更低的词错率（WER）——达到了 5.9%。而前两天，IBM 官方博客却发文宣称人类的水平实际上应该是 5.1%，同时该文章还表示 IBM 的系统的词错率已经超越了之前微软报告的最佳水平，达到了 5.5%，实现了新突破。详见机器之心报道《IBM 宣称人类语音

NLP教程(5) - 语言模型、RNN、GRU与LSTM

本系列为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》的全套学习笔记，对应的课程视频可以在这里查看。

02

从马尔可夫链到GPT，字节跳动AI Lab总监李航细说语言模型的前世今生

选自Communications of the ACM 作者：李航机器之心编译本文描述了语言模型的发展历史，指出未来可能的发展方向。近年来，自然语言处理 (NLP) 领域发生了革命性的变化。由于预训练语言模型的开发和应用，NLP 在许多应用领域取得了显著的成就。预训练语言模型有两个主要优点。一、它们可以显著提高许多自然语言处理任务的准确性。例如，可以利用 BERT 模型来实现比人类更高的语言理解性能。我们还可以利用 GPT-3 模型生成类似人类写的文章。预训练语言模型的第二个优点是它们是通用的语言处理

02

NLP 点滴：文本相似度（中）

02

词嵌入Word2Vec

⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是⽤来表⽰词的向量，也可被认为是词的特征向量或表征。**把词映射为实数域向量的技术也叫词嵌⼊（word embedding）。**近年来，词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。

01

技术干货丨fastText原理及实践

fastText是Facebook于2016年开源的一个词向量计算和文本分类工具，在学术上并没有太大创新。但是它的优点也非常明显，在文本分类任务中，fastText（浅层网络）往往能取得和深度网络相媲美的精度，却在训练时间上比深度网络快许多数量级。在标准的多核CPU上，能够训练10亿词级别语料库的词向量在10分钟之内，能够分类有着30万多类别的50多万句子在1分钟之内。本文首先会介绍一些预备知识，比如softmax、ngram等，然后简单介绍word2vec原理，之后来讲解fastText的原理，并

从 n-gram 到 RNN 做的那些优化改进

题图：jordan-steranka-645051-unsplash 语言模型是指已知 n 个连续单词预测第 n+1 个单词的模型，完成这项工作的系统称为语言系统。一个 n-gram 组是指 n 个连续的单词片断，常见的有： unigrams 是指一个单词为一组，'the', 'students', 'opened', 'their'；bigrams 是指两个单词为一组: 'the students', 'students opened', 'opened their'；trigrams 是指三个单词

04

词向量表示[通俗易懂]

语音中，用音频频谱序列向量所构成的矩阵作为模型的输入；在图像中，用图像的像素构成的矩阵数据作为模型的输入。这些都可以很好表示语音/图像数据。而语言高度抽象，很难刻画词语之间的联系，比如“麦克风”和“话筒”这样的同义词，从字面上也难以看出这两者意思相同，即“语义鸿沟”现象。

02

学界 | 词嵌入2017年进展全面梳理：趋势和未来方向

选自ruder 机器之心编译参与：Panda、蒋思源词嵌入（word embedding）在许多自然语言处理任务中都取得了前所未有的成功，因此它常被视为自然语言处理的万灵药。自然语言处理博士、AY

关于词向量

参考论文：Efficient Estimation of Word Representations in Vector Space

03

NLP第一课（我也是才开始学）

闲着无聊的时候，我就会问问自己，编程也有了五年经验了，除了增删改查，我还会什么，有一天我跳槽，去面试的时候，我能比那些年轻而且期望薪资待遇低的年轻毕业生，我有什么优势，而且我只是一个专科的机电系学生，居然来做软件编程，好戏剧的一切，渐渐的给自己洗脑，自己都忘记自己是培训机构出来的，说了这么多抱怨的话，没有说培训机构的不好，没有说我们专科生就一定比高学历人才的差，归根到底还是需要学习吧，自学了半年多python，现在报了一个假期培训班来学习NLP，英语是硬伤，自己表示很无奈。

07

深度学习基础 | Seq2seq+Attention

可以看出，整个seq2seq模型分为两大部分：Encoder RNN和Decoder RNN。

03

python人工智能学习笔记_[Python] 人工智能与自然语言处理学习笔记（1）[通俗易懂]

最近我参加了一个人工智能与自然语言处理的课程，这是第一周的学习笔记。这份笔记不涉及一般知识，全部都是与实践(我在这门课上的作业)有关的总结。

01

fastText文本分类模型,n-gram词表示

英语单词通常有其内部结构和形成⽅式。例如，我们可以从“dog”“dogs”和“dogcatcher”的字⾯上推测它们的关系。这些词都有同⼀个词根“dog”，但使⽤不同的后缀来改变词的含义。而且，这个关联可以推⼴⾄其他词汇。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭