使用spark.ml库的n元语法计数和唯一值

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我在这里尝试做的是使用这里提供的代码Stack Overflow Answer for N-gram计算N元语法以下数据是测试数据，实际计算将在大型分布式数据上进行 +--------------+NGramfrom pyspark.sql import functions as F def build_ngrams(name,n=F.flatten(temp_kdf.author)

浏览 5提问于2019-12-12得票数 0

1回答

将两个不同Hadoop作业的输出写入同一组缩减程序

、

我有一个场景，我需要运行两个Hadoop作业，计算两个不同语料库的n-gram统计数据，并确保它们将每个n元语法(以及它的分数)写入相同的reducer (以便将来我可以在本地读取数据，并比较和对比来自两个语料库的两个分数例如，如果作业J1在机器M上执行其缩减程序之一，并在本地编写n元语法N，我希望作业J2也将

浏览 1提问于2013-10-08得票数 0

2回答

N-gram:解释+2个应用

、、、

我想用n元语法实现一些应用程序(最好是用PHP)。字符级二元组(2表示n)："#I&

浏览 35提问于2009-06-23得票数 18

回答已采纳

1回答

Python -在数百个大的gzipped文件中搜索项目

、、、、

不幸的是，我使用的是一个非常大的语料库，这些语料库分布在数百个.gz文件中--实际上是24 an (打包)的文件。每一行都有一个n-gram (二元、三元、四元等)右边是频率计数。我基本上需要创建一个文件，该文件存储每个四元组的子串频率及其整个字符串频率计数(即，4个一元组频率，3个双元组频率，2个三元

浏览 3提问于2011-05-27得票数 4

回答已采纳

1回答

单词预测:神经网络与n-gram方法

、、

例如，如果我试图预测句子中的下一个单词，我可以使用二元语法方法，并根据语料库中的前一个单词计算单词出现的概率。我希望神

浏览 13提问于2016-09-27得票数 2

回答已采纳

1回答

获取Wordpress DB中具有特定usermeta值的用户数。

、、

Wordpress数据库结构如下所示：wp_users.ID我想要选择按日期(wp_users.user_registered)分组的所有用户的计数，并按其对应于元键'sex'的元值(即1或2 )进行分组。结果应该由两列和多行组成，因为有唯一<

浏览 0提问于2012-04-14得票数 0

回答已采纳

1回答

在不使用(集合)库的情况下查找双字母数

、、

我的任务是找出给定字符串中有哪些二元语法以及它们出现的频率。它使用集合库工作(您可以在下面看到我所需要的)，但我想看看它是如何在不使用任何库的情况下完成的。

浏览 11提问于2021-03-13得票数 0

1回答

不使用NLTK计算字符串中的二元语法

、、

我一直在尝试创建一个代码，它可以看到一个二元语法在一个字符串中出现了多少次(如果你不知道，二元语法包含两个单词，比如'if you‘或'you’t‘)。我使用了.join函数并使用了一个for循环，该循环将一直持续到n-1 (其中n是单词的长度)时间，并且它将使用从n-1到n的空格连接两个列表。1f

浏览 0提问于2019-09-19得票数 0

1回答

如何在countVectorizer中使用二元+三元+词标词汇？

、、、

我使用文本分类与朴素贝叶斯和countVectorizer来对方言进行分类。我读了一篇研究论文，作者使用了以下几种方法： bigrams + trigrams + word-marks vocabulary 他在这里所说的单词标记，指的是特定于某种方言的单词。单词标记这些是单词标记的例子，但我没有，因为我的是阿拉伯语。所以我翻译了它们。word_marks=['love', 'funny', 'happy'

浏览 23提问于2019-05-11得票数 0

回答已采纳

1回答

如何从同现(二元语法)计数列表中训练word2vec？

、、

我正在尝试使用训练word2vec模型，方法是使用语料库作者提供的中预先计算的二元语法计数共现计数。如何使用实现这一点

浏览 0提问于2020-03-12得票数 1

1回答

无法从NLTK库导入二元语法

、

一个让我迷惑的小问题。我安装了NLTK，它一直工作得很好。然而，我正在尝试获取语料库的二元语法，并希望基本上使用二元语法(语料库)。但是它说当我“从nltk导入二元语法”时，并没有定义二元语法。另外，我如何才能从语料库中手动获取二元语法。我也在寻找计算二元组三元和<

浏览 0提问于2012-10-26得票数 3

回答已采纳

3回答

在MySQL中接近串行文本文件读取性能

、、、、

我正在尝试用Python语言执行一些n元语法计数，我想我可以使用MySQL (MySQLdb模块)来组织我的文本数据。我有一个很大的表，大约有10mil条记录，表示由唯一的数字id (自动增量)和语言varchar字段(例如"en“、"de”、"es“等)索引的文档。select * from table太慢了，内存也是破坏性的。我最终将整个id范围划

浏览 1提问于2010-12-10得票数 1

回答已采纳

3回答

文本摘要:如何选择正确的n元语法大小

、、、、

我正在做文本摘要工作，使用nltk库，我能够提取二元语法和三元语法，并按频率对它们进行排序因为我对这个领域(NLP)非常陌生，所以我想知道我是否可以使用一个统计模型来自动选择Ngram的正确大小(我所说的大小是指N元语法的长度一个单词一元语法，两个单词二元语法，或者三个单词

浏览 1提问于2015-01-22得票数 6

1回答

我应该如何加权一个N元语法句子生成器，使其不偏爱短句？

、

我正在尝试编写一个n-gram句子比较/生成脚本。这个模型非常喜欢短句，有什么快速的建议可以让我更倾向于长句吗？

浏览 0提问于2011-12-21得票数 1

回答已采纳

1回答

利用Wordnet数据库提取字数/频数

、、

我正在寻找字数/频率提取根据单词在一般英语中的用法，如。我正在使用JWNL api访问Wordnet字典，但我找不到任何方法来做到这一点。

浏览 0提问于2015-06-05得票数 0

1回答

从文本语料库中提取给定单词的搭配- Python

、、、、

我知道如何使用nltk制作二元和三元语法，也知道如何只选择包含我感兴趣的单词的二元或三元语法。我使用以下代码(改编自)。(其中一个元素是我的单词)，每个三元组都有它们的对数似然值。我想要在我选择的窗口中进行所有可能的N-Gram组合(例如，从我的单词左侧3个

浏览 10提问于2017-08-17得票数 1

3回答

Azure ML Studio错误0035:词汇表的功能为空

我正在尝试使用Azure ML Studio对各种文本进行分类，并且在部署和测试web服务之前，我一直都获得了成功的输出。一旦我部署了我的web服务并尝试对其进行测试，我就会得到以下错误：提取n元语法模块的词汇表不是空的<

浏览 1提问于2019-12-13得票数 0

0回答

在R中使用unnest_tokens()在tidytext中保留标点符号

、、、、

我正在使用R中的tidytext包来做n元语法分析。因为我分析tweet，所以我想保留@和#来捕获提及、转发和标签。但是，unnest_tokens函数会自动删除所有标点符号并将文本转换为小写。我发现unnest_tokens有一个通过token='regex'使用正则表达式的选项，所以我可以自定义它清理文本的方式。但是，它只适用于一元语法分析，而不适用于<e

浏览 19提问于2017-06-13得票数 8

2回答

带有条件逻辑的嵌套excel函数

、

在Excel中刚开始，我正在使用一个数据库解压缩，只有当另一列中的项是唯一的时，我才需要计数值。因此-以下是我的出发点：我想弄清楚这样做的语法- =和积(Countif range1准则.，其中range2 criteria=“是唯一</e

浏览 6提问于2014-01-31得票数 0

回答已采纳

1回答

用大小写区分的SQL计数:如何在不使用exists的情况下进行子查询？

、、、、

上下文: Server中的有一个很大的XLSX文件，我正在映射到一个文件。每次都会有一个名为'referentie‘的列获得不同的值。我需要计数唯一的值，并显示相应的代码。(请注意，这是一个较大SELECT语句中的子查询。我无法添加额外的聚合函数。)

浏览 3提问于2022-05-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云