我正在创建一个拼写检查程序,它从字符串输入或文本文件中返回所有拼写错误的单词。我想让程序加起来拼写错误的单词的数量,并将其打印为统计数据。 我似乎想不出如何计算列表中的单词数,并将其添加到计数器中。 errorCount = 0
while True:
try:
selection = int(input("Would you like to enter a string (1), open a text file (2) or Quit (0) ?"))
if selection==1:
String = i
我用Java编写了一个简单的程序,使用PDFBox从PDF文件中提取单词。它从PDF中读取文本并逐字摘录。
public class Main {
public static void main(String[] args) throws Exception {
try (PDDocument document = PDDocument.load(new File("C:\\my.pdf"))) {
if (!document.isEncrypted()) {
PDFTextStripper
我有一个数据框架,在一列中,我有一个全文,其中有多个非常长的句子。我使用NLTK对文本进行标记化,但现在我需要确保只从给定的完整单词的长列表中提取包含任意单词的句子。我写了下面的代码,但它的问题是,它不是作为一个整体检查文本中的单词,而是例如在搜索列表中找出一个给定的单词,比如'tic',它选择一个包含单词‘统计’的句子。
symptoms = [long list of words ~ about 100]
new_df = df[df['Sentence'].str.contains('|'.join(symptoms))]
就在这段代码之上
有人知道我如何最好地用%s替换文本中的所有单词实例,然后构建这些单词的列表或元组吗?
基本上,我正在生成PDF --我存储在数据库中的TextField中的PDF文本--假设它看起来像:
“你好,病人,你在[日期]做了一项研究.”
当我动态生成PDF时,我想传递PDF生成器:
"Hello %s, you had a study on %s"%(patient,date)
我对regex不太满意。我正在阅读sub -但我想知道是否有一种方法可以替换单词,并在一行代码中构建元组。
目前,我使用"SED“命令从我的模式列表中返回包含一个单词的每个文本块。
这是我的文件的结构*(文件大小约为20Go):
BEGIN
blabla
blabla GREAT blabla
END
BEGIN
blabla
blabla
END
BEGIN
blabla USA
blabla
END
以下是我的模式列表(大约900个条目)的摘录
GREAT
USA
...
为此,我使用以下命令:
sed -n '/BEGIN/{x;d};H;/END/{x;s/\(GREAT\|USA\)/&/mp}' myfile.txt>result.txt
这个命
我正在为Python类做一个非常简单的家庭作业问题,涉及到各种有关字符、单词及其相对频率等方面的统计数据。目前,我正试图分析一串文本,并得到文本中每一个独特单词的列表,然后是它使用的次数。我对Python (或其他任何语言)的知识非常有限,因为这是一门入门课程,因此我只提供了以下代码:
for k in (""",.’?/!":;«»"""):
text=text.replace(k,"")
text=text.split()
list1=[(text.count(text[n]),text[n]) for n i
我使用python将文本文件中句子中的单词转换为列表中的单个标记,以便统计单词频率。我在将不同的句子转换成一个列表时遇到了麻烦。下面是我要做的:
f = open('music.txt', 'r')
sent = [word.lower().split() for word in f]
这给我提供了以下列表:
[['party', 'rock', 'is', 'in', 'the', 'house', 'tonight'],
['everyb
所以我已经尝试了几个小时来弄清楚如何在vb中显示字数的长度。例如,如果我在富文本框中键入一个句子,然后单击一个按钮,我希望显示一个表单,列出该句子中一个字母的单词、两个字母的单词、三个字母的单词等的数量。当然,特定长度的单词的数量将在标签中输出。
我在网上找到了这段简短的字数统计代码:
dim wordcount as integer
dim a as string() = RichText.Text.Split(" ")
wordcount = a.length
但是,我不确定这个代码是否可以用来获得字数的长度。关于如何在标签中输出特定长度的单词数有什么想法吗?谢谢。
我正在编写一个python脚本,它查找与脚本位于同一个目录中的excel工作表(我大约有10个),并计算这些文件(如云、vmware、python等)中出现的特定单词的数量。然后将每个单词的总数写入文本文件。我使用python和xlrd来完成这个任务。每个excel文件都有一个名为details的工作表,这就是信息所在的位置。每个文件有2列和大约26行。
for filename in os.listdir(path):
if filename.find('xls') != -1:
print filename
workbook=xlrd.o
我正在寻找Python中的正则表达式。我有一个长字符串的文本,我有一个子字符串列表,以进行匹配的长字符串的文本。
示例子串在:'table','e substrings‘示例字符串中:
'Today is a good day to do up the table furnishings. Lets go to the store.'
对于“桌子”,我想提取“桌子”。至于“我的家具”,我想提取“餐桌家具”。
我目前的代码是:
for item in checklist:
pattern = r"[\s](.*)" + item +
我正在尝试根据保存在文档中的文本文件在python上创建一个列表。该列表包含英语词典中最常用的1000个单词,每个单词在文本文件中的一个新行上。
当我试着做:
wordlist = []
with open("C:\\Users\\Myname\\Documents\\words.txt") as file:
for line in file:
wordlist.append(line)
print(wordlist)
我得到的结果是:
['the\n', 'of\n', 'to\n', 'an
伙计们,我开始按照NLTK团队的官方书学习NLTK。
我在第5章--“标记”--我无法解析PDF版本第186页的摘录:
给定cfd2 2‘VN’. try ()指定的过去分词的列表,尝试收集紧接该列表中项之前的所有单词标记对的列表。
我试过这样做:
wsj = nltk.corpus.treebank.tagged_words(simplify_tags=True)
[wsj[wsj.index((word,tag))-1:wsj.index((word,tag))+1] for (word,tag) in wsj if word in cfd2['VN'].keys()]
我必须在多个文件中存储每个单词的字数统计。在Perl中,我使用了散列的散列,比如$wcCount{$file}{$word}。我不知道如何在python中做类似的事情。我试过使用这种效果,但显然不起作用
for line in fh:
arr = line.split()
for word in arr:
key = filename + word #creates a unique identifier for each word count
freqdict[key] += 1
我读了另一个类似问题的stackoverflow,但它不允许在
我正在做一个小脚本,试图比较文本文件中的单词,目前,我已经能够比较提取所有单词并统计它们的频率,现在,我如何才能使算法仅从.txt中提取由我确定的列表中的单词...到目前为止,我有这个 from collections import Counter
def word_count(filename):
with open('hola.txt','r') as f:
return Counter(f.read().split())
counter = word_count('hola.txt')
for i in coun
我有一个训练数据集,它是一个numpy数组,形状为(4800,1)。它有一列字符串,每一行对应于来自不同电子邮件的文本。
我想要创建一个字典来统计每个单词在使用python时出现的电子邮件数量(或行数)。最后,只选择出现在至少10封电子邮件中的单词。我只能计算出在整个数据集中出现的单词的频率,而不是多少行/电子邮件。下面的代码是我到目前为止所掌握的
下面是一个数组的外观和应该输出的示例。
[['red blue green green']
['red blue blue']
['red red red']]
产出:
{'red
我正在努力从一组pdf文件中提取单词。这些文件是我从网上下载的学术论文。
这些数据存储在我的本地设备中,按照名称排序,在项目文件夹中遵循这个相对路径:'./papers/ data‘。您可以找到我的数据。
我的代码正在项目回购('./ code ')的代码文件夹中执行。
代码的pdf单词提取部分如下所示:
import PyPDF2 as pdf
from os import listdir
#Open the files:
#I) List of files:
files_in_dir = listdir('../papers/data')
#II
我有一行字符串:
"specificationsinaccordancewithqualityaccreditedstandards"
它需要被拆分成标记化的单词,例如:
"specifications in accordance with quality accredited standards"
我试过nltk的word_tokenize,但它无法转换,
Context:我正在将一个PDF文档解析为文本文件,这是我从pdf转换器中得到的文本,用于将pdf转换成使用PDFminer in Python的文本。