计算表示Markov-chain规则的字典中的值的总频率和相对频率

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (42)

我已经创建了一个函数make_rule(text, scope=1),它简单地遍历一个字符串并生成一个字典,作为Markov-chain文本生成器的规则(其中范围是链接字符的数量,而不是单词)。

>>> rule = make_rule("abbcad", 1)
>>> rule
{'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']}

我的任务是计算这个系统的熵。为了做到这一点,我想我需要知道:

  1. 一个值总是在字典中出现的频率,即它的总频率。
  2. 给定字典中的键,即其相对频率,值出现的频率。

是否有快速方法可以为字典中的每个值获取这两个数字?

对于上面的例子,我需要这个输出:

'a' total: 1, 'a'|'a': 0, 'a'|'b': 0, 'a'|'c': 1
'b' total: 2, 'b'|'a': 1, 'b'|'b': 1, 'b'|'c': 0
'c' total: 1, 'c'|'a': 0, 'c'|'b': 1, 'c'|'c': 0
'd' total: 1, 'd'|'a': 1, 'a'|'b': 1, 'a'|'c': 1

我想'a'总数很容易推断,所以可能只输出字典中出现的每个唯一项目的三元组列表:

[[('a', 'a', 0), ('a', 'b', 0), ('a', 'c', 1)], [('b', 'a', 1), ('b', 'b', 1), ('b', 'c', 0)], ...]
提问于
用户回答回答于

我只会处理“在字典中给出一个键时出现的值的频率”,因为你已经说过“一个值在字典中出现的频率”很容易被推断出来。

如果你只是希望能够查找值的相对频率给定键,可以很容易地获取具有dictCounter对象:

from collections import Counter

rule = {'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']}

freq = {k: Counter(v) for k, v in rule.items()}

...这给你一个freq

{
    'a': Counter({'b': 1, 'd': 1}),
    'b': Counter({'b': 1, 'c': 1}),
    'c': Counter({'a': 1})
}

...这样你就可以获得'a'给定密钥的相对频率'c'

>>> freq['c']['a']
1

因为Counter对于不存在的键,对象返回0,所以您也可以获得零频率:

>>> freq['a']['c']
0

如果您需要问题中指定的3元组列表,您可以通过一些额外的工作来实现。这是一个功能:

def triples(rule):               
    freq = {k: Counter(v) for k, v in rule.items()}
    all_values = sorted(set().union(*rule.values()))      
    sorted_keys = sorted(rule)
    return [(v, k, freq[k][v]) for v in all_values for k in sorted_keys] 

我认为这里唯一不可能解释的是all_values = ...线,其中:

  1. 创造一个空的 set()
  2. 使用union()列表中的所有单个元素生成该集合rule.values()(请注意使用argument-unpacking *运算符)
  3. 将结果转换为sorted()列表。

如果您仍然拥有原始文本,则可以通过使用例如all_values = sorted(set(original_text))来避免所有这些工作。

>>> triples({'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']})
[
    ('a', 'a', 0), ('a', 'b', 0), ('a', 'c', 1),
    ('b', 'a', 1), ('b', 'b', 1), ('b', 'c', 0),
    ('c', 'a', 0), ('c', 'b', 1), ('c', 'c', 0),
    ('d', 'a', 1), ('d', 'b', 0), ('d', 'c', 0)
]
用户回答回答于

我想不出一个快速的方法,除了迭代单词的字符,计算字典的每个列表中的出现次数并在最后总结它:

alphabet = sorted(set("abbcad"))
rule = {'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']}

totalMatrix = []
for elem in alphabet:
    total = 0
    occurences = []
    for key in rule.keys():
        currentCount = rule[key].count(elem)
        total += currentCount
        occurences.append((elem,key,currentCount))
    totalMatrix.append([elem, total] + occurences)

for elem in totalMatrix:
    print(elem)

内容totalMatrix将是:

['a', 1, ('a', 'a', 0), ('a', 'b', 0), ('a', 'c', 1)]
['b', 2, ('b', 'a', 1), ('b', 'b', 1), ('b', 'c', 0)]
['c', 1, ('c', 'a', 0), ('c', 'b', 1), ('c', 'c', 0)]
['d', 1, ('d', 'a', 1), ('d', 'b', 0), ('d', 'c', 0)]

扫码关注云+社区

领取腾讯云代金券