我想用NLTK来识别日语汉字和汉语汉字之间的搭配。与词语搭配一样,一些汉字序列比其他序列更容易出现。例:汉语和日语中的许多单词都是两个字符的双字形-A和B(例如:A和B)。(3) A字和B字一起出现在句子中的可能性有多大,即使它们不并排出现?
相关地:如果我有一个汉字/汉字的频率列表,我可以强迫NLTK搭配模块只检查我列表中的汉字/汉字之间的关系,而忽略所有其他字符吗?不幸的是,、和 for nltk.colloc
我遇到了一个问题,那就是如何反转包含这个‘a汉字efg’的字符串。str_to_reverse = "abcd汉字efg"; /* those non-ASCII chars are Chinese characters, each of them takes 2 bytes*/str_toreverse = "gfe字汉dcba";
我想,为了反转字符串,我必须识别那些非ASCII字符,因为我认为简单地反转每个字节并不能得到正确的答案。然后我打印了每一个字节: