我有一个大约1 GB的非常大的文本文件。 我需要计算单词和字符(非空格字符)的数量。 我已经写了下面的代码。Console.WriteLine("The word count is {0} and character count is {1}", words, characters);
} 有没有办法让它更快使用线程,有人建议我使用线程,这样它就会更快?我在我的代码中发现了一个问
在使用Regex时,我对性能有问题。我使用的方法如预期的那样工作,但处理大型文本文件需要很长时间。我需要从文件的每一行中只取单词:"tjdj47***ss__s*47 djj ___ s_sd4 4“。应该返回单词列表(任何字母或字母数字序列有超过一个字符)ssdjj我使用Regex模式
pattern = new R
在规范的猪单词计数示例中,我很好奇人们是如何优化条件的,其中按单词分组可以产生包含许多(许多)元素的包。TOKENIZE((chararray)$0)) as word;D = foreach C generate COUNT(B), group;
在C行,如果有一个单词,假设是" the ",在输入文件中出现了10亿次,这会导致red