NLTK -如何获取频率分布大于特定数字的项目 - 腾讯云开发者社区

、

我想检索所有使用NLTK的最小频率为5的单词，并将它们存储在变量中以供以后处理。在NLTK的书中找不到任何东西。提前谢谢。编辑:我正在使用这段代码，并希望过滤掉不超过5次出现的单词。 import os import glob from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords def create(): read_files = glob.glob("D:\\test\\text\\*.txt") with open("D:\\test\\temp.

浏览 1提问于2015-12-16得票数 0

回答已采纳

2回答

NLTK FreqDest对象比较

、、

我是Python新手，我看到了一个使用NLTK的代码示例，如下所示(在空闲中)： >>> letters = nltk.FreqDist('ageqwst') >>> words = nltk.corpus.words.words() >>> [word for word in words if nltk.FreqDist(word) <= letters] 所生成的输出显示了可以用letters中的字符生成的单词。我想知道nltk.FreqDist(word) <= letters部件是如何工作的。我抬头看

浏览 4提问于2014-03-13得票数 3

回答已采纳

1回答

如何使用NLTK BigramAssocMeasures.ch_sq

、、、

我有一个单词列表，我想通过考虑两个单词的共现来计算它们之间的关联性。我从一篇论文中发现，它可以用Pearsson卡方检验来计算.此外，我还找到了计算chi sqare值的nltk.BigramAssocMeasures.ch_sq()。我能用这个来满足我的需要吗？如何使用nltk找到卡方值？

浏览 6提问于2013-03-14得票数 2

1回答

N个gram NLP到Excel文件

、、、、

我正在与这段代码作斗争。我需要创建一个1和2克模型，并映射与它们的频率的克；之后，我需要写两个模型到一个EXCEL文件在两个不同的工作表。我在这里显示了2个模型的gram和频率，但在如何附加结果和创建excel文件上苦苦挣扎。 import nltk nltk.download('punkt') f = open('data.json','r') raw = f.read() tokens = nltk.word_tokenize(raw) #Create your bigrams bgs = nltk.bigrams(tokens) #c

浏览 3提问于2018-12-08得票数 1

2回答

使用NLTK的FreqDist

、、、

我正在尝试使用Python获取一组文档的频率分布。由于某些原因，我的代码无法工作，并产生以下错误： Traceback (most recent call last): File "C:\Documents and Settings\aschein\Desktop\freqdist", line 32, in <module> fd = FreqDist(corpus_text) File "C:\Python26\lib\site-packages\nltk\probability.py", line 104, in __init_

浏览 0提问于2011-06-09得票数 3

1回答

使用Twitter API的NLTK标记器

、、

我试图找出一系列tweet中的频率分布，但频率分布是唯一地计算每个tweet，而不是整个tweet。我该如何解决这个问题呢？ import tweepy from tweepy import OAuthHandler import pandas as pd from nltk.tokenize import word_tokenize from nltk import FreqDist from nltk.corpus import stopwords consumer_key = 'x' consumer_secret = 'x' access_token

浏览 11提问于2020-04-20得票数 0

1回答

使用nltk实现idf

、、、

假设有这样一句话：“敏捷的棕色狐狸跳过懒狗”，我想从nltk语料库(哪个语料库最通用/最全面)中获得每个单词出现频率的分数。编辑：这个问题与这个问题有关： @adi92建议使用idf技术来计算单词的“稀有度”。我想看看这在实践中会是什么样子。这里更广泛的问题是，如何计算一个单词在英语中使用的稀缺性。我知道这是一个很难解决的问题，但尽管如此，nltk idf (使用brown或reuters语料库？？)可能会让我们走上这条路的一部分？

浏览 0提问于2012-07-18得票数 1

回答已采纳

1回答

python绘制条件频率分布

、、、

我是python的新手，所以我正在阅读nltk这本书。我也在努力熟悉图形和绘图的操作。我绘制了一个条件频率分布，我想从删除顶部和左侧脊椎开始。这就是我所拥有的： import nltk import sys import matplotlib.pyplot as plt import numpy as np from matplotlib.pyplot import show from nltk.corpus import state_union #cfdist1 cfd = nltk.ConditionalFreqDist( (word, fileid[:4]) for f

浏览 0提问于2014-05-20得票数 0

1回答

计算某一类别中的比例尺

、

我正在尝试创建一个函数来计算NLTK中Brown语料库中特定部分的比格数。我创建了这个函数 def category_bigram_count(bigrams,category): category_text=nltk.corpus.brown.words(categories=category) return sum(1 for bg in category_text if bg==bigrams) 但是很明显，当我尝试使用这个函数时 category_bigram_count("The","Office","government

浏览 3提问于2021-12-13得票数 0

1回答

如何在NLTK中合并NaiveBayesClassifier对象

、

我正在做一个使用NLTK工具包的项目。使用我拥有的硬件，我能够在一个很小的数据集上运行分类器对象。因此，我将数据分成较小的块，并在其中运行分类器对象，同时将所有这些单独的对象存储在一个pickle文件中。现在为了测试，我需要将整个对象作为一个对象来获得更好的结果。所以我的问题是如何将这些对象组合成一个。 objs = [] while True: try: f = open(picklename,"rb") objs.extend(pickle.load(f)) f.close() except EOFErro

浏览 0提问于2016-04-28得票数 0

1回答

用Python和NLTK绘制N个结果

、、

我使用NLTK和Python来分析一些数据。我从一个语料库中构造了一个包含字符串列表的FreqDist，结果集中大约有1000个单词。我只想显示那些在X上有计数的单词，因为当我用myfreqdist.plot()绘制所有的值时，它不能适应所有的值，我看不出有什么可以传递到图中来限制结果集。

浏览 3提问于2014-05-30得票数 2

回答已采纳

4回答

在python nltk中计算n元语法频率

、、

我有以下代码。我知道我可以使用apply_freq_filter函数过滤出少于一个频率计数的搭配。但是，在决定设置过滤频率之前，我不知道如何获得文档中所有n元文法元组(在我的例子中是二元文法)的频率。如您所见，我使用的是nltk配置类。 import nltk from nltk.collocations import * line = "" open_file = open('a_text_file','r') for val in open_file: line += val tokens = line.split() bigram

浏览 2提问于2013-01-17得票数 31

回答已采纳

1回答

关于nltk中的vocab()和Text()

下面的代码是做什么的？也就是说，只有最后两行。我不明白Text()做什么，what ()做什么？ import nltk def words(content): tokens = nltk.tokenize.word_tokenize(content) #Make the string into a list of words tokens = [w for w in tokens if not w in stop_words] # remove the stop words tokens = [wordnet_lemmatizer.lemmatize(w)

浏览 0提问于2019-10-21得票数 0

1回答

Python的collections.Counter和nltk.probability.FreqDist的区别

、、

我想计算一个文本语料库中单词的词频。为了完成这个任务，我已经使用了NLTK的word_tokenize，然后是probability.FreqDist。word_tokenize返回一个列表，该列表由FreqDist转换为频率分布。然而，我最近在集合中遇到了计数器函数(collections.Counter)，它似乎在做完全相同的事情。FreqDist和计数器都有一个most_common(n)函数，它返回n个最常见的单词。有人知道这两者之间有什么区别吗？一个比另一个快吗？是否有这样的情况:一种会起作用，而另一种则不会？

浏览 4提问于2016-01-05得票数 6

回答已采纳

1回答

新来的，有条件频率的问题。

、

我对python和nltk非常陌生(我两个小时前就开始了)。以下是我被要求做的事：编写一个函数GetAmbigousWords(语料库，N)，在语料库中查找超过N个观察标记的单词。这个函数应该返回一个ConditionalFreqDist对象，其中条件是单词，频率分布指示每个单词的标签频率。以下是我迄今所做的工作： def GetAmbiguousWords(corpus, number): conditional_frequency = ConditionalFreqDist() word_tag_dict = defaultdict(set) # Creates a

浏览 1提问于2015-09-20得票数 0

回答已采纳

1回答

如何处理分类任务的n-图？

、、、、

我将使用n-gram在样本数据集上训练分类器。我搜索相关内容并编写了下面的代码。由于我是python的初学者，所以我有两个问题。 1-为什么词典应该有这个“真”结构(加上注释)？这与朴素贝叶斯分类器的输入有关吗？ 2-你推荐哪种分类器来完成这个任务？欢迎任何其他缩短代码的建议:)。 from nltk.corpus import movie_reviews from nltk.corpus import stopwords from nltk import ngrams from nltk.classify import NaiveBayesClassifier import nltk.cl

浏览 2提问于2020-10-26得票数 0

1回答

()如何清除不需要的符号以及如何计数文本中大多数现存的单词并输出它

、、、、

!pip install wikipedia import re import nltk from nltk.probability import FreqDist import nltk nltk.download('punkt') import wikipedia wikipedia.set_lang("en") a=wikipedia.page("bitcoin") print(a.content) a.content_frqunce = FreqDist(a.content) a.content_count = len(a.content

浏览 2提问于2022-06-22得票数 -1

1回答

抓取PDF -检查指定关键字的词频

、、、、

我已经创建了一个从PDF文档中抓取关键字的解析器。目前，这将抓取top关键字，并显示单词在文档中重复的频率(多少次)。在这一点上，我希望检查特定关键字的频率，但当输入所需的关键字时，它会将单词与顶部的单词连接在一起，并给出相同的频率。理想情况下，我希望能够检查关键字1的频率。)"GRI“2。)"CDP“ 非常感谢这里任何人的帮助！ import pandas as pd import textract from nltk.tokenize import word_tokenize from nltk.corpus import stopwords import nltk

浏览 15提问于2021-01-06得票数 0

1回答

如何在NLTK中对三元语法语言模型进行单词级的Kneser-Ney平滑？

、、、、

我正在尝试在文本语料库上训练一个三元语法语言模型，并希望执行KN平滑。显然，“nltk.trigrams”是在字符级别执行此操作的。我想知道我如何才能在单词级别上做到这一点，并执行KN平滑。这是我写的一段代码，但不起作用： with open('file.txt',"r",encoding = "ISO-8859-1") as ff: text = ff.read() word_tok = tknzr.tokenize(text) ngrams = nltk.trigrams(word_tok)

浏览 31提问于2020-01-11得票数 0

1回答

如何使用n-图进行多标签分类？

、、、

我正在进行一个项目，根据该人用英语交流的方式来确定他们的国籍。我有10个国籍& 1000份文件，每个国籍100份。我正在使用n-gram作为特性&希望验证我的方法。我的数据结构，会有不同的n克(字符n克，双克，列)作为特征，国籍作为标签(行)我的步骤如下：拿起一个国籍的所有文件(很好)。1.1。将它们组合在一起形成一个文本语料库(例如将100个文件合并成一个大文件)。我最初想一次只取一个文件&根据n克的发生来更新它们的计数。但是，对于每一个新的n克，我必须做一个检查，看看它是否已经发生&然后更新它的频率，为一个给定的标签。这会是一个更好的方法吗？提取

浏览 2提问于2017-06-07得票数 0

1回答

ConditionalFreqDist为单词查找最常见的词性标签

、、

我正在尝试fidn，这是数据集中最常见的词性标签，但却在ConditionalFrewDist部分中苦苦挣扎。 import nltk tw = nltk.corpus.brown.tagged_words() train_idx = int(0.8*len(tw)) training_set = tw[:train_idx] test_set = tw[train_idx:] words= list(zip(*training_set))[0] from nltk import ConditionalFreqDist ofd= ConditionalFreqDist(word for

浏览 1提问于2022-02-05得票数 0

回答已采纳

1回答

使用NLTK处理Python中的字符编码问题

、、、、

我已经下载并清理了一组RSS提要，作为NLTK的语料库，用于测试分类。但当我运行频率分布时，许多排名靠前的结果似乎都是特殊字符： <FreqDist: '\x92': 494, '\x93': 300, '\x97': 159, ',\x94': 134, 'company': 124, '.\x94': 88, 'app': 84, 'Twitter': 82, 'people': 76, 'time': 73, ...>

浏览 2提问于2013-09-26得票数 0

1回答

如何在pandas数据帧中找到列的ngram频率？

、、、、

下面是我拥有的输入pandas数据帧。我想找出单字和双字的频率。下面显示了我所期望的示例如何使用nltk或scikit learn来做到这一点？我写了下面的代码，它接受一个字符串作为输入。如何将其扩展到序列/数据帧？ from nltk.collocations import * desc='john is a guy person you him guy person you him' tokens = nltk.word_tokenize(desc) bigram_measures = nltk.collocations.BigramAssocMeas

浏览 2提问于2016-04-12得票数 11

回答已采纳

1回答

使用wordnet获得句子中单词的最佳同义词

、、、

我已经做了代码从wordnet获得同义词，它为每个单词提供了完整的同义词列表。因此，我希望我的代码能够根据句子从同义词列表中选择合适的同义词。例如:句子是：“我是他的哥哥”，我必须根据这个句子找出每个单词的最佳同义词。让我们选择“老一点”。Wordnet会给出“旧”的同义词列表： “长者”、“曾经”、“前辈”、“曾经”、“曾经”、“从前”、“诚实对上帝”、“年老”、“老”、“前辈”、“确定--足够”、“老”、“有时”、“诚实-上帝”、“昆坦”、“老人” 在这个句子中，最好的同义词是“长者”，所以应该选择它。我该怎么做？获取同义词的代码： from nltk.tokenize impor

浏览 2提问于2017-05-25得票数 0

2回答

使用NLTK计算Python中的短语

、、、

我正在尝试从文本文件中获取词组计数，但到目前为止，我只能获得词数统计(见下文)。我需要扩展这个逻辑来计算一个包含两个单词的短语在文本文件中出现的次数。根据我的理解，可以使用NLTK中的逻辑对短语进行定义/分组。我相信集合函数是我获得所需结果所需要的，但是我不确定如何通过阅读NLTK文档来实现它。 import re import string frequency = {} document_text = open('Words.txt', 'r') text_string = document_text.read().lower() match_pattern

浏览 2提问于2016-09-26得票数 0

2回答

ValueError: Lidstone概率分布必须至少有一个bin？

、、

对于一项任务，我将使用ConditionalProbDist，使用LidstoneProbDist作为估计器，在每个bin的样本计数上增加+0.01。我原以为下面这行代码可以做到这一点，但它产生了一个值错误 fd = nltk.ConditionalProbDist(fd,nltk.probability.LidstoneProbDist,0.01) 我不知道如何在ConditionalProbDist中格式化参数，也没有通过python的帮助功能或google找到如何格式化参数的方法，所以如果有人能纠正我的错误，我将不胜感激！

浏览 2提问于2016-03-08得票数 0

3回答

在SQLite中只生成正随机数

、

在SQLite中 random()函数在-9223372036854775808和+9223372036854775807之间返回一个伪随机整数. 用Select random() % n ;可以得到最大值为n的随机但这仍然会产生负数。如何在SQLite中只生成正随机数？

浏览 4提问于2011-11-29得票数 16

回答已采纳

1回答

熊猫数据栏中单词的频率计数及在其他栏中的存储

、、

DataFrame 我有一个Pandas DataFrame的评论栏，如上图所示。我希望获取产品‘’review‘列中每一行中每个单词的计数，并将其存储到另一列，即products' word _ count’。我尝试的代码如下： products['word_count'] = products['review'].apply(lambda x : nltk.FreqDist) 但是，我得到的不是单词计数，而是列中的<class‘word .概率.’>对象！

浏览 1提问于2020-09-30得票数 0

4回答

nltk语言模型(ngram)根据上下文计算单词的概率

、、

我正在使用Python和NLTK构建一个语言模型，如下所示： from nltk.corpus import brown from nltk.probability import LidstoneProbDist, WittenBellProbDist estimator = lambda fdist, bins: LidstoneProbDist(fdist, 0.2) lm = NgramModel(3, brown.words(categories='news'), estimator) # Thanks to miku, I fixed this problem pri

浏览 0提问于2011-06-24得票数 16

回答已采纳

1回答

在多个大文件中查找最高值

、

从nltk的“如何”指南中，我知道我可以使用Python在一个文件中找到最大的x个bigram/trigram数，如下所示： >>> import nltk >>> from nltk.collocations import * ..... >>> text = inputFile.read() >>> tokens = nltk.wordpunct_tokenize(text) >>> bigram_measures = nltk.collocations.BigramAssocMeasures() &

浏览 4提问于2016-12-12得票数 1

回答已采纳

1回答

如何在python中使用nltk找到特定的二元语法？

、、、

我目前正在使用nltk.book iny Python，想要找到一个特定的二元语法的频率。我知道存在bigram()函数，它可以为您提供文本中最常见的二元语法，如以下代码所示： >>> list(bigrams(['more', 'is', 'said', 'than', 'done'])) [('more', 'is'), ('is', 'said'), ('said', 'than'

浏览 17提问于2020-11-14得票数 4

回答已采纳

1回答

如何以整数形式返回频率分布

、

我正在使用FreqDist来获取一个单词在语料库中出现的次数，因为它非常快。问题是ftable不会以整数的形式返回答案，我需要对其进行一些基本操作。 words = brown.words() content = [w for w in words if w.lower()] ftable = nltk.FreqDist(content) 例如： percent = ftable[sing]/ftable[s])*100 我尝试过像ftable.Nsing这样的东西，但是没有成功。谢谢! 编辑:也在评论中。w.lower()用于将语料库中的单词小写，这样当我对它们运行for循环时，我只比较小

浏览 1提问于2012-11-15得票数 0

1回答

下一个回文的时间限制超过误差

、

我正在努力解决SPOJ的下一个回文问题。在下面的Java代码中，我的时间限制超过了错误。如果从左到右、从右到左读取时，正整数在十进制系统中的表示形式相同，则称为回文。对于给定的不超过1000000位的正整数K，请将大于K的最小回文的值写入输出。数字总是显示而不带前导零。 import java.math.BigInteger; import java.util.Scanner; public class Nextpalindrome { public static void main(String[] args) { // TODO Auto-generated m

浏览 2提问于2015-07-30得票数 1

回答已采纳

1回答

如果没有像CD这样的pos标签，如何删除整行？

、、、

我正在读一篇新闻文章，正在使用nltk进行pos标记。我想删除那些没有像CD (Number)这样的pos标签的行。 import io import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize from nltk import pos_tag stop_words = set(stopwords.words('english')) file1 = open("etorg.txt") line = file1.read() file1.clo

浏览 20提问于2019-01-31得票数 0

回答已采纳

2回答

nltk中有英语单词语料库吗？

有没有办法获取python nltk库中的英文单词列表？我试图找到它，但我唯一找到的是来自nltk.corpus的wordnet。但是没有我需要的东西(它会找到一个单词的同义词)。我知道如何自己找到这个单词的列表(这个详细介绍了它)，所以我感兴趣的是，我是否只使用nltk库就可以做到这一点。

浏览 2提问于2015-02-05得票数 27

回答已采纳

2回答

噪音的功能是如何工作的？

、

我研究了lib噪音的来源，并找到了ValuNoise3D函数： double noise::ValueNoise3D (int x, int y, int z, int seed) { return 1.0 - ((double)IntValueNoise3D (x, y, z, seed) / 1073741824.0); } int noise::IntValueNoise3D (int x, int y, int z, int seed) { // All constants are primes and must remain prime in order for t

浏览 6提问于2013-09-15得票数 1

回答已采纳

2回答

Python NLTK FreqDist()通过将k，v写入磁盘来减少内存使用？

、、、

我有一个小程序，它使用NLTK来获得一个相当大的数据集的频率分布。问题是，在几百万个字之后，我开始吃掉我系统上的所有RAM。下面是我认为的相关代码行： freq_distribution = nltk.FreqDist(filtered_words) # get the frequency distribution of all the words top_words = freq_distribution.keys()[:10] # get the top used words bottom_words = freq_d

浏览 0提问于2012-05-27得票数 2

回答已采纳

1回答

如何训练使用自定义标签/列集的NLTK序列标记算法？

、、

我试图识别和分类基于IOB/序列标签的实体类型。我能够使用nltk.ne_chunk()，它已经被训练过使用它们的训练集来识别命名的实体。我想知道是否有任何方法可以使用my on训练集和使用训练数据的标签来训练算法，如 ( send O sms B-TASK to 8714349616 B-MOB how B-MSG are I-MSG you I-MSG ) ( sms B-TASK how B-MSG are I-MSG yo

浏览 0提问于2016-05-13得票数 0

回答已采纳

4回答

从数组中删除所有相等的项

、

我在react应用程序中有了下一个场景：我有一个状态： const [arr1, setArr1] = useState([1, 2, 3, 5, 1, 3]); 下面我在UI上渲染数组中的所有项，如下所示： arr1.map(i => {i}) 现在我想删除全部数组中相等的项：例如： 1、2、3、5、1、3//应删除1和3结果：1、2、5 2. 1、2、3、5、3//应删除3个结果：1、2、5 删除所有项目，状态也应在此处更改arr1.map()。我试过了setArr1([new Set(arr1)])，但它不会删除所有重复的值，它只删除其中的一个。

浏览 42提问于2021-02-26得票数 0

1回答

AttributeError：'FreqDist‘对象没有属性'viewitems’

、、、

我对python和NLTK相当陌生。我正在根据教程生成基于PMI的大写图。我想得到文本中生成的大写的频率。在这里建议使用 finder.ngram_fd.viewitems() 我试着用同样的搭配： import string import codecs import nltk from nltk.collocations import * bigram_measures = nltk.collocations.BigramAssocMeasures() data = '' filename = input("Enter file name\n")

浏览 0提问于2018-12-06得票数 1

3回答

频率分布比较Python

、、、

我正在使用python和nltk来研究一些文本，我想要比较不同文本中词性的频率分布。我可以通过一条文本来实现： from nltk import * X_tagged = pos_tag(word_tokenize(open('/Users/X.txt').read())) X_fd = FreqDist([tag for word, tag in X_tagged]) X_fd.plot(cumulative=True, title='Part of Speech Distribution in Corpus X') 我试着添加另一个，但没有太多的运气。

浏览 2提问于2015-08-17得票数 2

1回答

matplotlib散布:重叠点越多，标记越大

、

我想散布两个分类变量，如下所示 from matplotlib import pyplot as plt a=[1,1,1,1,2,2] b=[2,2,2,2,1,1] plt.scatter(a,b) 如果我绘制这个图，我将只看到两个点(在(1,2)中有4个重叠，在(2，1)中有2个重叠)，而无法识别这两个重叠点的不同出现情况。 ? 我希望看到一个散点图，其中左侧(1,2)点的标记比右侧(2,1)点的标记大两倍，以显示该点的不同出现情况。执行此操作的正确方法是什么？(除了我手工计算出现次数并将它们放入plt.scatter的size参数中的普通解决方案之外) 我已经搜索了其

浏览 16提问于2019-03-13得票数 3

回答已采纳

2回答

NLTK使得计算单词的二元语法变得很容易。那字母呢？

、、、

我在网上看到了大量关于python NLTK如何简化单词二元组计算的文档。那字母呢？我想做的是插入一个字典，让它告诉我不同字母对的相对频率。最终，我想做一些马尔可夫过程来生成看起来像(但假的)单词。

浏览 5提问于2013-01-05得票数 6

回答已采纳

1回答

如何在Python中对列表进行非均匀采样

、

您能否建议如何从具有定义概率的分布中进行抽样(或者更好地解决我下面的问题)：我有一份物品清单。我现在可以用rand_word = randint(0, total_num)对其进行采样。但我希望列表中后面的元素出现得更频繁。例如，我希望列表前20%的项目以10%的概率出现，最后20%的项目以50%到60%的概率出现。(尽管分布可能会更复杂。)

浏览 46提问于2019-03-25得票数 0

回答已采纳

3回答

使用python从语料库中提取最常用的单词

、、、

也许这是一个愚蠢的问题，但我在使用Python从语料库中提取最常用的十个单词时遇到了问题。这就是我到目前为止所得到的。(顺便说一句，我使用NLTK读取一个语料库，每个语料库有两个子类别，每个10个.txt文件) import re import string from nltk.corpus import stopwords stoplist = stopwords.words('dutch') from collections import defaultdict from operator import itemgetter def toptenwords(mycorp

浏览 0提问于2013-01-24得票数 5

1回答

如何解释Python双图似然比？

、、

我试图找出如何正确地解释nltk的“似然比”，给出下面的代码(摘自这个)。 import nltk.collocations import nltk.corpus import collections bgm = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words(nltk.corpus.brown.words()) scored = finder.score_ngrams(bgm.likelihood_ratio) # Group big

浏览 0提问于2018-02-09得票数 1

回答已采纳

2回答

如何生成具有泊松分布的离散随机事件？

、、、

我知道Knuth用于生成随机泊松分布数的算法(下面用Java语言)，但是我如何将其转换为随时间随机调用方法generateEvent()？ int poissonRandomNumber(int lambda) { double L = Math.exp(-lambda); int k = 0; double p = 1; do { k = k + 1; double u = Math.random(); p = p * u; } while (p > L); return k - 1; }

浏览 1提问于2010-02-05得票数 8

回答已采纳

4回答

NLTK ConditionalFreqDist到Pandas数据帧

、、

我正在尝试使用nltk.ConditionalFreqDist生成的表，但似乎找不到任何关于将表写入csv文件或导出为其他格式的文档。我喜欢在pandas dataframe对象中使用它，这也很容易写到csv中。我能找到的唯一一个推荐的线程并没有真正解决我的问题。我编写了以下函数将nltk.ConditionalFreqDist对象转换为pd.DataFrame： def nltk_cfd_to_pd_dataframe(cfd): """ Converts an nltk.ConditionalFreqDist object into a pandas Da

浏览 2提问于2013-03-01得票数 7

回答已采纳

2回答

任意编程语言中带约束的随机数生成

、、、

我想生成150个随机数，值为正整数(1,2,3,4,5.....)，这样所有随机数的和就是270， Prob[1] = 0.405 Prob[2] = 0.345 Prob[3] = 0.125 Prob[4] = 0.092 Prob[>=5] = 0.033 基本上，所有随机数的和是固定的，概率是固定的，随机数应该取大于0的值。有人知道如何用python/MATLAB/C或任何其他编程语言生成它吗？

浏览 1提问于2014-04-16得票数 1

2回答

根据概率从一系列值中随机选择一个数字

、

假设我有一个从1到10的值范围，我想根据某种高斯概率从这个范围中随机选择一个数字。因此，在4,5,6左右获得值的机会更高。获得1和10的机会仍然存在，但机会较小。它不需要完全遵循高斯分布，因为1和10的值几乎是不可能得到的。我希望的是至少改变和倾斜获得极值的机会，同时传播获得其他值的机会。我的意思是，有时候我希望得到10的机会大于1，所以分布不一定是对称的。我尝试使用random类设置一个随机浮点值，并将该值乘以10，但可能仍然是线性的。我无法想象我怎么能做到这一点。有没有一种简单的方法来实现这一点？

浏览 0提问于2013-04-02得票数 2

回答已采纳