如何使用多线程优化大型文件中的单词和字符的计数？_使用python获取列表中单词字符串中的单词计数_如何使用python查找大型json文件的值中存在的所有单词 - 腾讯云开发者社区

、、、、

我有一个大约1 GB的非常大的文本文件。我需要计算单词和字符(非空格字符)的数量。我已经写了下面的代码。Console.WriteLine("The word count is {0} and character count is {1}", words, characters); } 有没有办法让它更快使用线程，有人建议我使用线程，这样它就会更快？我在我的代码中发现了一个问

浏览 66提问于2021-01-16得票数 0

回答已采纳

2回答

在CSV文件中显示前10个单词

、、、

我有CSV文件，我已经存储在谷歌云存储。我正在阅读这个CSV文件，并为每个单词的出现建立一个树状图。有没有方法我可以排序和显示在文件中的前10个单词？这是我的密码：public class GoogleCloudStorageServlet extends HttpServlet { public

浏览 3提问于2014-07-04得票数 2

回答已采纳

2回答

Java多线程文件读+操作+写

、

我试图用java中的多线程来编写一个小程序来解决以下问题。我甚至很难理解从哪里开始，并寻求一些建议。在这一过程中所需的步骤如下：将单词数作为输出写入另一个目录中的新文件。我已经编写了wordcount函数，它工作得很好，但是想知道更多关于如何

浏览 0提问于2018-11-16得票数 1

4回答

如何在大文件中找到唯一的行？

、、、、

我有一个大文件(40亿行)，每行包含一个单词。我想找到唯一的单词列表和相应的计数。sort largefile |uniq -c >outfile但它没有打印计数。我如何使用awk打印计数以及？或任何其他可以处理大型文件的替

浏览 7提问于2013-08-13得票数 0

回答已采纳

8回答

在Python中一次遍历字符串词

、、

我有一个巨大的文本文件的字符串缓冲区。我必须在字符串缓冲区中搜索给定的单词/短语。做这件事的有效方法是什么？给出一本单词和短语词典。我迭代每个文件，将其读入字符串，搜索字典中<e

浏览 5提问于2010-05-05得票数 3

回答已采纳

3回答

优化Regex方法(从文本行拆分字母数字单词)

、

在使用Regex时，我对性能有问题。我使用的方法如预期的那样工作，但处理大型文本文件需要很长时间。我需要从文件的每一行中只取单词："tjdj47***ss__s*47 djj ___ s_sd4 4“。应该返回单词列表(任何字母或字母数字序列有超过一个字符)ssdjj我使用Regex模式 pattern = new R

浏览 8提问于2017-08-30得票数 2

回答已采纳

3回答

页面上每个单词出现的次数

、、、

我试图计数每一个独特的字在一个页面上出现的次数(想想搜索引擎优化‘单词计数’，你看到的woorank等-但不是为了这个目的！)我真的很纠结于如何设置这个：- 目前，我正在考虑读取每个单词，然后在数组->中检查它是否是唯一的，如果有occurences=>1添加到数组中，那么如果我在后面找到相同的单词，只需+1。然而，对于大型<

浏览 6提问于2014-04-07得票数 1

回答已采纳

2回答

C++中有效的字计数多线程

、、

我对C++和多线程相当陌生，需要一些帮助来创建一个有效地在多个线程之间划分工作的单词计数。假设，我有一个在一行(字符串)中计数单词的函数：对于一个线程，行中的总单词是该函数输出每一行的简单和，但是如何将其划分为线程呢？我的想法是使用两个线

浏览 0提问于2018-01-22得票数 0

回答已采纳

1回答

我需要一个算法来打印唯一的单词和出现次数的列表

、、、

我需要创建一个程序，输入一个英文文本文件，并输出该文件中包含的单词列表和出现的次数。我需要一个使用暴力的方法和一个分而治之的方法。我将自己编写代码，所以请不要给我代码，但我需要帮助弄清楚如何去做-基本上每种方法背后的算法是什么，特别是分而治之？伪代码会很棒的

浏览 0提问于2016-10-30得票数 0

2回答

使用函数式方法和不可变数据结构的并行计数？

、、、

我听说过这样一种观点，即突变和状态不利于并发。但我很难理解正确的替代方案到底是什么？什么是正确但又实用的纯函数方式，使用不可变的数据结构来实现这一点？

浏览 3提问于2018-06-23得票数 0

1回答

将一个子线程拆分成新的子线程(Openmp)

、、、、

我有一个关于多线程(Openmp和C代码)的问题。我将在给定的文本文件中搜索16个不同的单词。这样做的方法是生成一个for循环，该循环遍历包含要搜索的每个单词的数组。16个不同的单词意味着可以同时运行16个不同的线程。另一种使用多线程的方法是将文本文件切成

浏览 2提问于2013-04-29得票数 1

3回答

在Python中，我们有没有办法找到用户输入的乱七八糟的单词，exists给出一个没有排列代码的列表，让它变得更快？

、、、、

假设我有一个唯一的300k+项目列表：现在，如果用户输入混杂的单词"knowledge“。例如："dngwekleo"，程序应该检查mylist<

浏览 1提问于2020-06-08得票数 0

1回答

基于使用历史的不同运行时行为库(设计问题)

、、、

我想设计一个哈希表库，它保存使用统计数据，并根据它的使用方式在运行时使用不同的实现。例如，对于小型哈希表使用特定的实现，对于大型哈希表使用不同的实现(或调整参数以最大化缓存命中)。例如，假设我有一个针对小型表的优化的SmallDataHashTable，为大型表优化的BigDataHashTa

浏览 0提问于2019-03-24得票数 1

3回答

Java -计算文件中的单词、行和字符

、、

我在试着用文字从文件中读出来。我需要计算文本文件中的单词、行和字符。单词计数应该只包括单词(只包含字母字母，不包含标点符号、空格或非字母字符)。字符计数应该只包括这些单词中的字符。每次我运行程序时，只要输入文件名，它就会跳转到catch机制(而且它应该不会出

浏览 0提问于2019-03-14得票数 1

回答已采纳

4回答

如何使用C#显示字符串中的单词？

、

虽然我可以使用regex替换单词，下面是我的代码：{ 在软件中，如果调用堆栈指针超过堆栈绑定，则会发生堆栈溢出。调用堆栈可以由有限的地址空间组成，通常在程序开始时确定。调用堆栈的大小取决于许多因素，包括编程语言、机器体系结构、多线程和可用内存数量。当程序试图使用比

浏览 0提问于2018-03-16得票数 2

1回答

Hadoop Pig -优化字数

、、

在规范的猪单词计数示例中，我很好奇人们是如何优化条件的，其中按单词分组可以产生包含许多(许多)元素的包。TOKENIZE((chararray)$0)) as word;D = foreach C generate COUNT(B), group; 在C行，如果有一个单词，假设是" the "，在输入文件中出现了10亿次，这会导致red

浏览 4提问于2013-04-27得票数 0

1回答

如何优化使用大型xml文件的操作(下载/解析)

、、、、

我有一个应用程序需要通过http批量(>10k)下载大型xml文件(8-10MB)，使用一个xpath表达式获取其中的一些内容。我想知道如何优化这个过程。这些xml文件将直接进入大型对象堆中。我正在考虑三个选项：-总体优化:使用单独的IO线程池下载xml文件--使用流来读取带有XML文件的web响应，而

浏览 0提问于2013-07-25得票数 0

回答已采纳

1回答

如果文件除标题行外为空，则删除该文件

、

我试图编写一个PowerShell脚本来删除一个文件，如果它是空的，除了头文件。

浏览 0提问于2019-02-20得票数 0

回答已采纳

2回答

读取一个大文件以计数重复K次的单词数

、、、

问题读取文件后，查找地图中的所有单词，以获得出现k时间

浏览 4提问于2017-06-20得票数 2

回答已采纳

1回答

在VB.NET中，要使用什么数据结构才能在给定两个字符的情况下返回一个整数以获得最佳性能？

、、、

我正在完成一个程序，它做了大量的计算，并试图优化最里面的循环。voice然后字符对将是(v，l)、(o，o)、(i，u)、(c，s)和(e，e)，并且这些对都将具有计数1。如果在另一个单词中再次遇到组合(v，l)，则将该计数</em

浏览 4提问于2010-08-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云