开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

R文本挖掘n gram(二元语法)未返回结果。有没有人有同样的经历？

R文本挖掘中的n gram（二元语法）是一种常用的文本分析技术，用于提取文本中连续的n个词语的组合。通过分析这些组合的出现频率和搭配情况，可以揭示文本中的语言规律和语义关系。

在R语言中，可以使用一些包来实现n gram的文本挖掘，如tm、RWeka、quanteda等。具体的使用方法和示例可以参考相应的包的文档和教程。

如果在使用R进行文本挖掘时，n gram未返回结果，可能有以下几个可能的原因：

数据预处理问题：在进行n gram分析之前，需要对文本数据进行预处理，如去除停用词、标点符号、数字等。如果没有正确进行数据预处理，可能导致n gram未返回结果。
参数设置问题：在进行n gram分析时，需要设置合适的参数，如n的取值、最小出现频率等。如果参数设置不当，可能导致n gram未返回结果。
数据量问题：如果文本数据量较小，可能导致n gram未返回结果。建议增加文本数据量或调整参数设置。
程序错误：可能是代码中存在错误或逻辑问题，导致n gram未返回结果。建议检查代码并进行调试。

如果以上方法都无法解决问题，可以尝试在R社区或相关论坛上寻求帮助，或者咨询专业的文本挖掘领域的专家。

腾讯云提供了一系列的人工智能和大数据分析产品，可以用于文本挖掘和n gram分析，例如腾讯云自然语言处理（NLP）服务、腾讯云大数据分析平台等。具体产品介绍和文档可以参考腾讯云官方网站。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

探索NLP中的N-grams：理解，应用与优化

n-gram[1] 是文本文档中 n 个连续项目的集合，其中可能包括单词、数字、符号和标点符号。 N-gram 模型在许多与单词序列相关的文本分析应用中非常有用，例如情感分析、文本分类和文本生成。 N-gram 建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。 n-gram 的替代方法是词嵌入技术，例如 word2vec。N-grams 广泛用于文本挖掘和自然语言处理任务。

01

Elasticsearch能检索出来，但不能正确高亮怎么办？

实际需求：搜索1602，相关数据：160213.O、160218.OF都能召回，且仅高亮搜索字段1602。

02

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

在商业领域有很多文本分类的应用，比如新闻故事通常由主题来分类；内容或产品常常被打上标签；基于如何在线谈论产品或品牌，用户被分成支持者等等。

01

NLP系列学习:数据平滑

各位小伙伴们大家好,数据平滑这个地方我想使用宗成庆老师的书中的一个例子进行开始,从而引出这一篇文章的主题,我们为什么要需要数据平滑以及常用的数据平滑的模型,话不多说,开始行动:

NLP系列学习:数据平滑

各位小伙伴们大家好,数据平滑这个地方我想使用宗成庆老师的书中的一个例子进行开始,从而引出这一篇文章的主题,我们为什么要需要数据平滑以及常用的数据平滑的模型,话不多说,开始行动: 请看这个例子: 假设语

07

通俗理解n-gram语言模型

本文主要介绍n-gram语言模型，如果想要了解语言模型的相关知识可以看《带你理解语言模型》。

04

HanLP《自然语言处理入门》笔记--3.二元语法与中文分词

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP

02

不幸的人各有不幸吗?文本分析流浪汉乞讨标语牌后发现的套路(附代码)

大数据文摘作品，转载具体要求见文末编译团队 | Aileen 李子楠邱猛 Illustration | Jiin Choi 图 | Jiin Choi 流浪者惯用一张手写标语牌来表达自己，我们对数百名纽约街头流浪者手中的标语做了文本分析，想看看他们希望传达的声音。纽约的无家可归者普遍使用两种乞讨方式：一种是在十字路口的角落或地铁站与站之间的车厢里反复唠叨他们的困境，这种方式在要到一点小钱的同时也会招致周围游客的厌恶。另一种方式是举一个纸质标语牌，在上面写上他们要说的话。标语牌显然更具优势。因

06

NLP学习路线总结

自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言，以执行自动翻译、文本分类和情感分析等。自然语言处理是人工智能中最为困难的问题之一。

01

动手学深度学习(十) NLP 语言模型与数据集

语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为的词的序列，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：本节我们介绍基于统计的语言模型，主要是元语法（ -gr

02

触类旁通Elasticsearch：分析

分析（analysis）是在文档被发送并加入倒排索引之前，ES在其主体上进行的操作。在文档被加入索引之前，ES让每个被分析字段经过一系列的处理步骤。

03

11. HanLP实现朴素贝叶斯/SVM--文本分类

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP

01

用【机器学习】来研究【机器学习】：SVM为最热门研究主题，Python超越SAS和R

前几天BAT齐聚深圳，机器学习、人工智能成了热门话题。有人问我，机器学习这么逆天，怎么不用来学习学习“自己”（指机器学习本身）呢？别急，今天介绍两个研究，都是分析“自己”的：一个是对招聘网站上数据分析工具出现的数量进行统计分析，得出数据分析软件的热门排名；一个是对54000篇关于机器学习的论文的摘要进行文本分析，得出机器学习领域中排名前10 的研究主题 1. Python的热度已经远超R和SAS 《R for SAS and SPSS Users》的作者Bob Muenchun，近日在他的个人

08

独家 | 手把手教你从有限的数据样本中发掘价值（附代码）

[ 导读 ]本文是系列文章中的一篇，作者对滑铁卢地区的Freedom of Information Requests数据集进行探索分析，展示了在实践中拿到一批数据时（尤其像本文中的情况，数据很稀缺时），该如何一步步进行分析从而得到一些见解。作者的同事也对该数据集使用其他方法进行了分析，建议对NLP感兴趣的读者也一并阅读，将大有裨益。

04

自然语言处理（NLP）学习路线总结

NLP是自然语言处理（Natural Language Processing）的缩写，它是计算机科学领域中专注于研究如何使计算机理解、生成和处理人类语言的学科。NLP涉及的技术包括但不限于分词、词性标注、句法分析、语义分析、机器翻译、情感分析、信息抽取、文本生成等。通过NLP，计算机可以处理和分析大量的文本数据，帮助人们更好地理解和应用语言信息。

01

Deep learning with Python 学习笔记（5）

用于处理序列的两种基本的深度学习算法分别是循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。文本向量化（vectorize）是指将文本转换为数值张量的过程。它有多种实现方法

03

NLP 中评价文本输出都有哪些方法？为什么要小心使用 BLEU？

我经常被 NLP 领域的入门者问到的一个问题就是，当系统输出文本而不是对输入文本的一些分类时，该如何去评价这些系统。在模型中输入文本然后模型输出其它文本的这类问题，就是我们都知道的序列到序列（sequence to sequence）或者字符串转导（string transduction）问题。

04

NLP入门之N元语法模型

编辑文章在上边我们知道其实当今的自然语言处理的主流趋势是统计自然语言处理,而统计自然语言处理的基本目的就是结合语料库中的一些数据对于某些未知的数据进行处理,从而根据这些数据分布得到一些推论,大家想一

05

NLP入门之N元语法模型

在上边我们知道其实当今的自然语言处理的主流趋势是统计自然语言处理,而统计自然语言处理的基本目的就是结合语料库中的一些数据对于某些未知的数据进行处理,从而根据这些数据分布得到一些推论,大家想一想,我们在

04

使用 HanLP 统计二元语法中的频次

计算句子概率值的工具就是语言模型，但是随着句子长度的逐渐增大，语言模型会遇到下面两个问题：

01

Kaggle知识点：文本相似度计算方法

文本相似度是指衡量两个文本的相似程度，相似程度的评价有很多角度：单纯的字面相似度（例如：我和他 v.s. 我和她），语义的相似度（例如：爸爸 v.s. 父亲）和风格的相似度（例如：我喜欢你 v.s. 我好喜欢你耶）等等。

01

人工智能自然语言处理：N-gram和TF-IDF模型详解

N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作，形成了长度是 N 的字节片段序列。

00

学界 | 定量研究：当前机器学习领域十大研究主题

选自arXiv 作者：Patrick Glauner等机器之心编译参与：韩小西、李泽南机器学习的发展日新月异，目前最热门的研究方向是什么？近日，来自卢森堡大学等地的研究者们对近十年来各大热门期刊和会议上发表的论文进行了定量分析，通过机器学习找出了目前业内排名前十的研究主题。在这份新榜单中，支持向量机、神经网络和数据集排名前三，大幅领先于其他主题。读者可以点击「阅读原文」下载此论文。论文地址：https://arxiv.org/abs/1703.10121 机器学习研究中常探索哪些话题？这个问题曾于

03

干货 | 自然语言处理(1)之聊一聊分词原理

关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第一【Python】：排名第三【算法】：排名第四前言在做文本挖掘时，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但有时也需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都类似，本文就对文本挖掘时的分词原理做一个总结。分词的基本原理现代分词都是基于统计的分词，而统计的样本内容来自于一些标

04

使Twitter数据对百事可乐和可口可乐进行客户情感分析

可口可乐（Coca-Cola）和百事可乐（PepsiCo）是软饮料行业的知名品牌，两家公司均跻身《财富》500强。在竞争激烈的市场中拥有广泛产品线的公司彼此之间存在着激烈的竞争，并在随后的几乎所有垂直产品市场中不断争夺市场份额。

01

Facebook开源问答系统DrQA：基于单一信源回答开放域提问

问耕编译整理量子位出品 | 公众号 QbitAI 今天一大早，Yann LeCun就转发了一条消息：Facebook开源了DrQA的代码。 DrQA是一个开放域问答系统。关于DrQA，Facebook还发表了一篇论文《Reading Wikipedia to Answer Open-Domain Questions（阅读维基百科来回答开放域问题）》。这篇论文也入选了下周即将在温哥华召开的ACL 2017大会。论文的作者为来自斯坦福的Danqi Chen（陈丹琦，之前毕业于清华姚班），以及来自Fac

07

达观数据告诉你机器如何理解语言－中文分词技术

前言中文分词算法是指将一个汉字序列切分成一个一个单独的词，与英文以空格作为天然的分隔符不同，中文字符在语义识别时，需要把数个字符组合成词，才能表达出真正的含义。分词算法是文本挖掘的基础，通常应用于自然语言处理、搜索引擎、智能推荐等领域。一、分词算法分类中文分词算法大概分为三大类。第一类是基于字符串匹配，即扫描字符串，如果发现字符串的子串和词典中的词相同，就算匹配，比如机械分词方法。这类分词通常会加入一些启发式规则，比如“正向/反向最大匹配”，“长词优先”等。第二类是基于统计以及机器学习的分词方法，

07

投稿 | 机器如何理解语言—中文分词技术

前言中文分词算法是指将一个汉字序列切分成一个一个单独的词，与英文以空格作为天然的分隔符不同，中文字符在语义识别时，需要把数个字符组合成词，才能表达出真正的含义。分词算法是文本挖掘的基础，通常应用于自然语言处理、搜索引擎、智能推荐等领域。一、分词算法分类中文分词算法大概分为三大类：第一类是基于字符串匹配，即扫描字符串，如果发现字符串的子串和词典中的词相同，就算匹配，比如机械分词方法。这类分词通常会加入一些启发式规则，比如“正向/反向最大匹配”，“长词优先”等。第二类是基于统计以及机器学习的分词方法，

05

机器学习｜7种经典预训练模型原理解析

目前无论在CV领域还是NLP领域，预训练都是一个很普遍和普适的方法。我们都知道深度学习的模型越庞大，模型参数越多，为了避免过拟合就需要相应大规模的数据集，但对于很多任务而言，样本标注的成本昂贵。相反，大规模无标签数据库相对容易建立，为了充分利用这些无标记数据，我们可以先使用它们在其他一些任务上学习一个好的特征表示，再用于训练目标任务。

05

ssh 连接 Linux 服务器并安装 Anaconda

本地远程登录 Linux 服务器，需要使用端口号为22的SSH协议。通常情况下正常安装 Linux 系统之后，SSH 协议是默认放开的，但是也有一些情况需要我们自己安装。

04

使用Burpsuite扩展Hackvertor绕过WAF并解密XOR

最近，我一直在忙于开发自己的一个Burp扩展Hackvertor。这是一个具有基于标签转换功能的编码器，相比起Burp内置的解码器它的功能要强大的多。通过标签的转换编码，可以让你轻松的将编码后的内容传递给下一个外部标签，从而执行多级编码操作。

01

N元分词算法

在自然语言处理中，我们经常需要用到n元语法模型。其中，有关中文分词的一些概念是我们需要掌握的，譬如： unigram 一元分词，把句子分成一个一个的汉字 bigram 二元分词，把句子从头到尾每两个字组成一个词语 trigram 三元分词，把句子从头到尾每三个字组成一个词语. 我们来简单的做个练习：输入的是断好词的文本，每个句子一行。统计词unigram和bigram的频次，并将它们分别输出到`data.uni`和`data.bi`两个文件中。下面代码为网络资源 #!/usr/bin/env

03

N元分词算法

unigram 一元分词，把句子分成一个一个的汉字 bigram 二元分词，把句子从头到尾每两个字组成一个词语 trigram 三元分词，把句子从头到尾每三个字组成一个词语.

05

文本挖掘的分词原理

关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第二【Python】：排名第三【算法】：排名第四前言在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分词原理做一个总结。分词的基本原理现代分词都是基于统计的分词，而统计的样本内容

08

详解 matplotlib 中的两种标注方法

在二维坐标图中我们经常对绘制的图形进行标注。在 matplotlib 中比较常用的有text和annotate两种标注方法，其中：

03

文本挖掘的分词原理

在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分词原理做一个总结。

05

深度学习技术如何应用于文本智能处理？

在前不久InfoQ主办的Qcon全球软件开发大会上，达观数据创始人陈运文博士受邀出席发表了《文本智能处理的深度学习技术》的演讲。深度学习在人工智能领域已经成为热门的技术，特别是在图像和声音领域相比传统的算法大大提升了识别率。在文本智能处理中深度学习有怎样的具体实践方法？以下内容根据陈运文博士现场分享整理所得。人工智能目前的三个主要细分领域为图像、语音和文本，达观数据所专注的是文本智能处理领域。文本智能处理，亦即自然语言处理，试图让机器来理解人类的语言，而语言是人类认知发展过程中产生的高层次抽象实体，不像图

02

【智能】自然语言处理概述

1 什么是文本挖掘？文本挖掘是信息挖掘的一个研究分支，用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有：文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理？自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。自然语言处理原理：形式化描述-数学模型算法化-程序化-实用化语音的自动合成与识别、机器翻译、自然语言理解、

05

文本挖掘和情感分析的基础示例

经过研究表明，在旅行者的决策过程中，TripAdvisor（猫途鹰，全球旅游点评网）正变得越来越重要。然而，了解TripAdvisor评分与数千个评论文本中的每一个的细微差别是很有挑战性的。为了更彻底地了解酒店客人的评论是否会影响酒店的加班表现，我从TripAdvisor截取了一家酒店 – 希尔顿夏威夷度假村（Hilton Hawaiian Village）的所有英语评论（Web抓取的细节和Python代码在文末）。

01

[转载]深度学习技术在文本数据智能处理中的实践

人工智能目前的三个主要细分领域为图像、语音和文本，老师分享的是达观数据所专注的文本智能处理领域。文本智能处理，亦即自然语言处理，试图让机器来理解人类的语言，而语言是人类认知发展过程中产生的高层次抽象实体，不像图像、语音可以直接转化为计算机可理解的对象，它的主要应用主要是在智能问答，机器翻译，文本分类，文本摘要，标签提取，情感分析，主题模型等等方面。

03

【陆勤学习】文本特征提取方法研究

一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含

09

文本特征提取方法研究

一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含

HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP

04

专访 | 基于LSTM与TensorFlow Lite，kika输入法是如何造就的

机器之心原创作者：思源近日，机器之心采访了 kika 的高级技术总监黄康，他向我们讲述了 kika 开发输入法 AI 引擎（项目代号：Alps）所采用的深度学习模型以及在移动端轻量化部署遇到的各种挑战。本文从输入法与语言模型开始介绍了 kika Alps 项目的理论支持与实践挑战，并重点讨论了轻量化部署方法。深度学习模型由于强大的表征能力在很多任务上都有非常优秀的表现，但也因为模型大小和计算量很难轻量化部署到移动端。这也是目前很多研发团队都在思考如何解决的难题。一般在我们借助 TensorFlow、

05

TensorFlow 强化学习：11~15

到目前为止，我们已经看到了强化学习在 AlphaGo，自动驾驶，项目组合管理等方面的进步。研究表明，强化学习可以提供认知特征，例如动物行为。

02

ACL2016最佳论文：通过交互学习语言游戏

摘要我们介绍了一种与构建适应性的自然语言接口有关的新型语言学习设置。它受到维特根斯坦语言游戏（Wittgenstein’s language games）的启发：一个人希望完成某种任务（例如：搭建某种积木结构），但是只能与计算机交互，让计算机完成实际操作（例如：移动所有的红色积木）。计算机最初对语言一无所知，因此必须通过交互从零开始学习，同时人类适当调整计算机的性能。我们创造了一种叫做 SHRDLURN 的积木游戏，并收集了 100 位玩家与计算机的交互。首先，我们分析了人类的策略，发现使用组合型和避免同

04

就喜欢看综述论文：情感分析中的深度学习

选自arXiv 作者：Lei Zhang、Shuai Wang、Bing Liu 机器之心编译近年来，深度学习有了突破性发展，NLP 领域里的情感分析任务逐渐引入了这种方法，并形成了很多业内最佳结果。本文中，来自领英与伊利诺伊大学芝加哥分校的研究人员对基于深度学习的情感分析研究进行了详细论述。情感分析或观点挖掘是对人们对产品、服务、组织、个人、问题、事件、话题及其属性的观点、情感、情绪、评价和态度的计算研究。该领域的开始和快速发展与社交媒体的发展相一致，如评论、论坛、博客、微博、推特和社交网络，因为这是

python主题建模可视化LDA和T-SNE交互式可视化|附代码数据

我尝试使用Latent Dirichlet分配LDA来提取一些主题。本教程以自然语言处理流程为特色，从原始数据开始，准备，建模，可视化论文。

04

详解隐马尔可夫模型(HMM)中的维特比算法

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP

02

HanLP《自然语言处理入门》笔记--6.条件随机场与序列标注

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭