我正在尝试根据保存在文档中的文本文件在python上创建一个列表。该列表包含英语词典中最常用的1000个单词,每个单词在文本文件中的一个新行上。
当我试着做:
wordlist = []
with open("C:\\Users\\Myname\\Documents\\words.txt") as file:
for line in file:
wordlist.append(line)
print(wordlist)
我得到的结果是:
['the\n', 'of\n', 'to\n', 'an
我正在学习Python语言,目前正在尝试创建一个脚本来搜索用户输入给定的字符串的1000个最常见的单词(根据给定的)。
到目前为止,我已经能够通过raw_input搜索该列表(另存为.txt),并确定用户输入是否在文件中。然而,我似乎想不出如何搜索文本并简单地回复"Word is in 1000 words“或"Word is NOT in the list”。我只能为每一行回复"word is not in list“。
我基本上是在尝试创建一个脚本,它将比较用户的输入,并查看输入中的所有单词是否都在1000个最常见的单词中(显然是由 XKCD漫画提示的)。最后,我想
我是Python的新手,所以IDE的错误没有多大意义。
我有两个文本文件:
text2.txt <------- contains list of company names
text1.txt <------- after executing the program, this should be filled with url
下面这个脚本的目的是将text2.txt中的名称列表作为输入,并在谷歌上搜索公司名称以及单词“新闻发布”。
python脚本应该只为每个公司名称向text1.txt写入一个url,且该url中应该包含单词"press“或"releas
我有一个包含公司名称的数据框架。我想根据名称中单词的常见程度为每个名称计算一个分数。
首先,我建立了一个单词统计字典。不确定这是否是最干净的方法,但以下矢量化方法有效:
words = itertools.chain.from_iterable(map(list, crsp.cname.str.split()))
然后我数一数单词:
wordcnts = defaultdict(int)
for w in words:
wordcnts[w] += 1
现在,我想为每个公司名称计算一个分数,该分数等于公司名称中出现的每个单词的wordcnts[word]倒数之和。
现在,我正在迭代各行
我目前正在运行一些python代码,从列表中提取单词并创建这些单词的列表。
我使用的列表来自一个.txt文件,其中包含一些来自罗密欧和朱丽叶的行。
我在文件中阅读,修剪空格,分割每个单词,并将这些单词添加到列表中。
我现在正试图创建一个清单,其中不包括任何重复的单词。
我知道我需要创建一个循环来遍历列表,添加单词,然后丢弃重复的单词。
这是我目前的代码:
fname = input ("Enter file name: ")
#Here we check to see if the file is in the correct format
#If it is not, we
我是Python的初学者。我以前学过其他语言,如C++ (初学者)和JQuery。但是我发现python中的循环非常令人困惑。
我想取得一个简单的结果。程序将遍历一个单词列表,然后删除与前两个字母与列表中下一个单词匹配的单词:
test = ['aac', 'aad', 'aac', 'asd', 'msc']
for i in range(len(test)):
if test[i][0:2] == test[i+1][0:2]:
test.remove(test[i])
# This
我想使用Python在字符串的开头去掉所有类型的标点符号。我的list包含字符串,其中一些字符串以某种标点符号开头。我如何从字符串中去掉所有类型的标点符号?
例如:如果我的单词与,,gets类似,我想从单词中删除,,,并希望结果是gets。此外,我还想从list中删除空间和numbers。我试过使用下面的代码,但它没有产生正确的结果。
如果a是一个包含一些单词的列表:
for i in range (0,len(a)):
a[i]=a[i].lstrip().rstrip()
print a[i]
假设下面的字符串:
text = r"Microsoft enables digital transformation for the era of an intelligent cloud and an intelligent edge.
SOURCE Microsoft Corp."
目标:
我想检查公司的名称(在上面的例子中)是否出现在关键字"SOURCE"之后的第一个X(例如250个)字符中。
尝试:
source = re.compile(r"SOURCE.*")
re.findall(source,text)
#outpu
我有一份格式正确的公司名称列表,我正在试图找出这些公司何时出现在文档中。问题是,它们不太可能像在列表中那样出现在文档中。例如,Visa Inc可能以Visa的形式出现,American Airlines Group Inc可能以American Airlines的形式出现。
如何迭代文档的整个内容,然后在找到接近匹配时返回格式正确的公司名称?
我尝试过fuzzywuzzy和difflib.get_close_matches,但问题是它只关注每个单词,而不是一组单词:
from fuzzywuzzy import process
from difflib import get_close_mat
我有一个大数据,并寻找一个grep命令来删除文本并保留这个句子中的职务名称,我已经使用这个grep命令^.*?at来获取单词at之后的公司名称,但是这次我想保留他们的职务名称,我应该使用哪个grep命令?
CEO at Insurance Menu
Founder & CEO at insurtech
AVP, Alliances and Analyst Relations at ValueMomentum
AGV-President at Aflac Ventures
例如,第一行的最终结果应该是CEO,从单词at Insurance Menu中删除整个文本
我正在使用BBEDIT
我有不同的单词列表,一个列表(停止词)包含一个应该从另一个列表中排除的单词列表(kafka)。
我试过:
kafka.discard (stop) # this only works with sets and I do not want to transform my list into a set
是否有另一种方法将停止词从另一个列表中排除?
我正在使用python 3.4.0
我正在尝试制作一个AutoHotKey脚本,从你输入的大多数单词中删除字母'e‘。为此,我将把一个常用单词的列表放在一个文本文件中,并让python脚本为每个单词在AHK文件中添加正确的语法。出于测试目的,我的单词列表文件'words.txt‘包含以下内容:
apple
dog
tree
我希望在运行wordsOut.txt脚本后,文件‘python’(我将其转换为AHK脚本)中的输出如下所示:
::apple::appl
::tree::tr
正如您所看到的,它将排除不带字母“e”的单词,并从其他所有单词中删除“e”。但是当我运行我的脚本时,它看起来像这样...
f = op
我正在学习Python,也许是真实的案例场景,我得到了一项任务,来过滤包含超过3个单词的公司的名称。它在名为“公司名称”的列中,dataframe称为"data“。我设法把他们列入名单,并最终也进入了dataframe。但是,在dataframe中,我在列的位置找到了行,在行中找到了列。感觉就像绕着它走。
a,b = data.shape
required_data = []
for i in range(a):
if data["Company Name"][i].count(" ") >= 2:
required_da
我有几行文本,并希望删除任何具有特殊字符或固定给定字符串的单词(在python中)。
示例:
in_lines = ['this is go:od',
'that example is bad',
'amp is a word']
# remove any word with {'amp', ':'}
out_lines = ['this is',
'that is bad',