Python:如何从公司名称中删除常用单词列表？_如何从python中的列表中删除没有元音的单词_从python中的消息列表中查找最常用的单词对 - 腾讯云开发者社区

shell-script、text-processing

我有一个简单的问题，但不幸的是，我不知道从哪里开始(我刚刚开始)。所以，我想做的是最终增加我的词汇量。我的想法是从新闻文章中去掉最常用的词。我找到了5,000个最常用单词的列表，并保存了下来。在我把最常用的单词去掉后，我可以在TextSTAT中创建一个语料库，并做一个单词频率计数，并选择我想要那样学习的单词。但是如何将我最常用的单词列表中的单词从我要保存的文章中删除呢？

浏览 0提问于2013-11-08得票数 3

2回答

我的函数必须返回10个最常见的单词，同时排除单词，但它看起来应该不起作用

python、python-3.x、dictionary

Python初学者在这里。我使用此函数在名为"Counts“的字典中查找最常用的10个单词。问题是，我必须从"Counts“字典中排除englprep、englconj、englpronouns和specialwords列表中的所有条目，然后获取作为字典返回的前10个最常用的单词。基本上，我必须让"getMostFrequent()“函数将"Counts”字典和指定的"no-no“单词列表作为输入，以输出包含10个最常用单词的新字典。我已经试了几个小时了，但我无论如何也不能让它起作用。预期输出应该是这样的：{‘河’：755，‘党’：527，‘水’：47

浏览 0提问于2021-05-11得票数 1

4回答

用PHP / Python解析文本？多么?用什么？

php、python、parsing、drupal

我为外语学习者创建了一个Drupal Ed站点，该站点具有词汇共享功能和闪存卡功能。我正在考虑添加一种方法来解析文本(报纸文章等)，并输出使用的单词列表，然后可能交叉连接到词汇表部分。现在，我想知道理想情况下php或者python中是否有任何程序/脚本可以用来将文本解析成所使用的单词列表(并且可能能够排除最常用的单词列表)。我希望能够适应在Drupal中的工作，所以php将是最好的。我可以使用任何一种不同的东西吗？有什么想法吗？我真的不确定从哪里开始做这个？

浏览 0提问于2011-04-01得票数 1

回答已采纳

3回答

如何从.txt文件中随机选择一个单词，超过x个字符，并将其保存到一个变量中？

python-3.x

我正在尝试根据保存在文档中的文本文件在python上创建一个列表。该列表包含英语词典中最常用的1000个单词，每个单词在文本文件中的一个新行上。当我试着做： wordlist = [] with open("C:\\Users\\Myname\\Documents\\words.txt") as file: for line in file: wordlist.append(line) print(wordlist) 我得到的结果是： ['the\n', 'of\n', 'to\n', 'an

浏览 5提问于2017-10-08得票数 1

回答已采纳

2回答

需要帮助进行实体标记

machine-learning、text-mining、nlp、named-entity-recognition

我需要设计一个系统，它可以识别句子中的movie和production company名称。我想到的方法是在标签数据上训练一个NER命名实体识别系统，这样它就能识别出相应的实体。但是，新的实体(电影或制作公司名称)培训系统还没有看到，我们该如何标记它们呢？每一次用新发行的电影重新训练模特是不可行的。标签数据:与电影或制作公司名称相对应的单词位置的句子。我是NLP的初学者，任何帮助都将不胜感激。

浏览 0提问于2019-04-24得票数 3

回答已采纳

5回答

使用Python自动从上下文中选择标记

python、tags

如何使用Python从文章或用户的帖子中选择标记？下面的方法可以吗？从文本中构建一个单词频率列表并对它们进行排序。删除一些常见的单词，并选择列表中的前10个单词作为标签。如果上面的方法是好的，什么库可以检测哪些词是常见的，比如“，if，you等”，以及哪些是描述性单词？

浏览 1提问于2009-11-21得票数 4

回答已采纳

2回答

使用许多不同的查询搜索文档

php、mysql

我正在编写一个脚本，它接受一篇新闻文章作为输入，并返回文章中提到的所有上市公司及其相应符号的列表。可能会提到大约6,500个唯一的公司名称。我的第一个想法是使用正则表达式从文章中提取所有可能是公司名称的名称。公司名称可以有很大的不同，但几乎名称中的每个单词都以大写字母开头，所以我认为这只适用于少数误报(可能是个人与公司共享名称的情况)。下一个问题是将可能的公司名称与所有公司和符号的列表进行比较。我应该如何存储该列表？作为一个表，每个条目都有一个公司和符号字段？这似乎是使用公司映射到符号的hashmap的理想位置。用前面提到的映射序列化一个数组，然后在我查找文章中的名称的脚本开头反序列化它，

浏览 0提问于2012-01-11得票数 4

回答已采纳

1回答

使用(BeautifulSoup4)从电子表格导出值

python、python-3.x、web-scraping、beautifulsoup、openpyxl

答:我的目标是:使用Python从Excel电子表格中提取唯一的OCPO ID，并使用这些ID在web上搜索相应的公司名称和NIN ID。(注: NIN和OCPO ID都是一家公司独有的)。详细信息: i.使用openpyxl从Excel电子表格中提取OCPO ID。二、在业务注册中心()中逐个搜索OCPO，并使用BeautifulSoup4查找相应的公司名称和公司ID (NIN)。示例:搜索OCPO "00044428“将生成匹配的公司名称ПАО”НК“РОСНЕФТЬ”和相应的NIN“7706107510。在Excel中保存公司名称和NIN ID的列表。

浏览 0提问于2016-08-08得票数 0

1回答

在Excel中删除从公司名称前面到公司名称末尾的单词' the‘，有没有一个简单的公式？

excel、excel-formula

我已经尝试了几个小时，试图弄清楚如何删除公司名称前面的单词# the‘，然后将其添加到公司名称的末尾。我已经尝试了各种方法，但都没有成功。希望你能帮上忙。我需要把它从Excel团队改为Excel团队，或者，有没有办法在excel上对我的列表进行排序，而不考虑单词' the‘ 提前谢谢。

浏览 11提问于2020-05-22得票数 0

2回答

在文件中搜索字符串

python

我正在学习Python语言，目前正在尝试创建一个脚本来搜索用户输入给定的字符串的1000个最常见的单词(根据给定的)。到目前为止，我已经能够通过raw_input搜索该列表(另存为.txt)，并确定用户输入是否在文件中。然而，我似乎想不出如何搜索文本并简单地回复"Word is in 1000 words“或"Word is NOT in the list”。我只能为每一行回复"word is not in list“。我基本上是在尝试创建一个脚本，它将比较用户的输入，并查看输入中的所有单词是否都在1000个最常见的单词中(显然是由 XKCD漫画提示的)。最后，我想

浏览 0提问于2014-09-02得票数 0

1回答

在Android中从Sqlite数据库加载大量数据

android、sqlite、dictionary、load

我正在编写一个Android应用程序，它有不同的部分，包括一本字典。为了实现字典，我使用了以下技术：读取Sqlite数据库中的所有单词并将它们存储在数组列表中。(“从vocabulary").Searching中选择*用于定义，使用数组列表上的简单二进制搜索. 从数据库中提取单词(大约50000字)花费的时间太长，有时会出现“内存不足”异常。然而，在加载数据之后，就可以非常迅速地找到单词的定义。请你指导我如何执行这本字典好吗？

浏览 0提问于2011-12-13得票数 1

1回答

尝试在单独的文本文件中查找单词

python、python-3.x、multithreading、file、sockets

我目前正在尝试找出如何在单独的文本文件中查找单词。我正在使用Python 3.x，并且我正在尝试创建一个服务器和客户端线程，客户端应该输入一个单词。然后，服务器会在给我的列表中找到txt文件中的单词。我该如何搜索文件中的单词呢？我应该使用标题导入它，还是应该使用不同的方法？

浏览 2提问于2021-10-28得票数 0

3回答

如何从gensim word2vec中获取词汇量？

gensim、word2vec

我正在使用python中的gensim word2vec包。我知道如何从经过训练的模型中获取词汇表。但是如何获得词汇表中每个单词的词数呢？

浏览 0提问于2016-05-12得票数 12

回答已采纳

2回答

JavaScript:仅当字符串包含整数0-9时，如何删除字符串中的最后一个单词？

javascript、string、if-statement

因此，我知道我可以使用lastIndexOf(“")从单词字符串中删除最后一个单词，但我想添加一个条件，即只有当单词包含整数0-9时才应将其删除。我之所以这样问，是因为我想将公司名称与它们的引用标记(如果存在这样的标记)分开，以获得一个数据列表。这些引用标签保证包含至少一个整数0-9。例如，我有一个字符串"Cisco Systems RX4510"，我想去掉"RX4510“，只得到公司名称"Cisco Systems”。但是，对于另一个没有引用标记的字符串"Electronic Art“，我就不去管它了。任何帮助都会很感谢，谢谢。

浏览 6提问于2018-08-21得票数 1

1回答

Python美人汤搜索Google

python、beautifulsoup

我是Python的新手，所以IDE的错误没有多大意义。我有两个文本文件： text2.txt <------- contains list of company names text1.txt <------- after executing the program, this should be filled with url 下面这个脚本的目的是将text2.txt中的名称列表作为输入，并在谷歌上搜索公司名称以及单词“新闻发布”。 python脚本应该只为每个公司名称向text1.txt写入一个url，且该url中应该包含单词"press“或"releas

浏览 9提问于2016-09-25得票数 1

4回答

Python模块，可以访问英语词典，包括单词的定义

python、dictionary、module、nlp、nltk

我正在寻找一个python模块，可以帮助我从英语词典中获得一个单词的定义。当然有enchant，它可以帮助我检查这个词是否存在于英语中，但它没有提供它们的定义(至少我在文档中没有看到这样的东西) 还有WordNet，它可以通过NLTK访问。它有定义甚至例句，但WordNet并不包含所有的英语单词。常见的单词如“如何”，“我”，“你”，“应该”，“可以”……不是WordNet的一部分。有没有python模块可以访问完整的英语词典，包括单词的定义？

浏览 58提问于2014-01-28得票数 21

回答已采纳

1回答

根据表的引用数据删除表中的所有内容

python、sql、sqlite

我目前在一个DB中有两个SQLite3表。一旦我从Table1中删除了一个公司名称，我想删除与Table2中的公司名称相关的所有新闻文章。代码在Python2.7中使用PyQt4。 if currentRow > -1: currentComp = (self.tableWidget.item(currentRow, 0).text(), ) self.dbCursor.execute('''DELETE FROM Table1 WHERE comp=?''', currentComp) self.dbCursor.

浏览 1提问于2014-07-23得票数 0

回答已采纳

1回答

pandas中的向量化列表理解

pandas、vectorization、list-comprehension

我有一个包含公司名称的数据框架。我想根据名称中单词的常见程度为每个名称计算一个分数。首先，我建立了一个单词统计字典。不确定这是否是最干净的方法，但以下矢量化方法有效： words = itertools.chain.from_iterable(map(list, crsp.cname.str.split())) 然后我数一数单词： wordcnts = defaultdict(int) for w in words: wordcnts[w] += 1 现在，我想为每个公司名称计算一个分数，该分数等于公司名称中出现的每个单词的wordcnts[word]倒数之和。现在，我正在迭代各行

浏览 1提问于2015-06-24得票数 0

2回答

如果元素是一个句子，我如何访问和修改列表中的元素？

python

假设我在python中有以下列表 List= ['Car XXX_2010 Type', 'Length: 14.7', 'Width: 5.8', 'Height: 5.6'] 如何从列表中的第一个元素中删除单词“Type”，同时保留元素的其余部分？换句话说，如何才能到达这样的输出： List= ['Car XXX_2010', 'Length: 14.7', 'Width: 5.8', 'Height: 5.6']

浏览 5提问于2022-07-26得票数 1

2回答

如何从列表中提取单个单词

python

我目前正在运行一些python代码，从列表中提取单词并创建这些单词的列表。我使用的列表来自一个.txt文件，其中包含一些来自罗密欧和朱丽叶的行。我在文件中阅读，修剪空格，分割每个单词，并将这些单词添加到列表中。我现在正试图创建一个清单，其中不包括任何重复的单词。我知道我需要创建一个循环来遍历列表，添加单词，然后丢弃重复的单词。这是我目前的代码： fname = input ("Enter file name: ") #Here we check to see if the file is in the correct format #If it is not, we

浏览 5提问于2022-11-23得票数 0

1回答

在Python3.0中查找和替换List元素？

python、string、python-3.x、list、replace

我有三个大列表L0，L1和L2，分别有106756,106588和100个单词。 L0和L1将数据标记化为单词标记，L2由L0和L1列表共同使用的单词组成。假设， L1 = ['newnes', 'imprint', 'elsevier', 'corporate', 'drive', 'suite', 'burlington', 'usa', 'linacre', 'jordan', 'hill', '

浏览 0提问于2018-09-15得票数 0

回答已采纳

4回答

删除列表项时意外的IndexError

python、list、python-2.7

我是Python的初学者。我以前学过其他语言，如C++ (初学者)和JQuery。但是我发现python中的循环非常令人困惑。我想取得一个简单的结果。程序将遍历一个单词列表，然后删除与前两个字母与列表中下一个单词匹配的单词： test = ['aac', 'aad', 'aac', 'asd', 'msc'] for i in range(len(test)): if test[i][0:2] == test[i+1][0:2]: test.remove(test[i]) # This

浏览 0提问于2013-10-11得票数 1

回答已采纳

2回答

列表中每个单词的长度(python)，如果该单词小于某个数字，则删除该单词(假设5)

python

我如何找到列表( python )中每个单词的长度，然后如果该单词的长度小于某个数字(假设5)，则删除该特定单词:我是python的初学者，因此需要大家的帮助，例如： visited_cities = ["New York", "Shanghai", "Munich", "Toyko", "Dubai", "Mexico City", "São Paulo", "Hyderabad"] 在上面的列表中，我需要找到列表中每个单词的长度，如果长度小于5，我应该如何删除它？

浏览 2提问于2018-08-13得票数 0

7回答

我们如何使用Python在字符串的开头去掉标点符号？

python、string、python-2.7、python-3.x、strip

我想使用Python在字符串的开头去掉所有类型的标点符号。我的list包含字符串，其中一些字符串以某种标点符号开头。我如何从字符串中去掉所有类型的标点符号？例如:如果我的单词与,,gets类似，我想从单词中删除,,，并希望结果是gets。此外，我还想从list中删除空间和numbers。我试过使用下面的代码，但它没有产生正确的结果。如果a是一个包含一些单词的列表： for i in range (0,len(a)): a[i]=a[i].lstrip().rstrip() print a[i]

浏览 13提问于2014-03-18得票数 3

6回答

如何在python中删除字符串中的小写单词

python、list

我是python的新手，在做一件简单的事情时遇到了一些问题。我有一个这样的数组(或者python中的list )： list = [ 'NICE dog' , 'blue FLOWER' , 'GOOD cat' , 'YELLOW caw'] 正如您所看到的，此数组的每个元素都包含一些单词。这些单词既是小写的也是大写的。如何从该数组中删除每个小写单词？例如，我想让这个列表作为结果： list = [ 'NICE' , 'FLOWER' , 'GOOD' , 'YEL

浏览 0提问于2011-11-30得票数 3

回答已采纳

1回答

使用types_linq模块从python3中的两个列表中删除公共成员

python、python-3.x、list

我有两个列表： a=['dad','alex','maria','alic','bob'] b=['jan','sara','bob','dad'] 我想从任何列表中删除常用词，并在python3中使用types_linq模块中的Enumerable。输出列表a和b为： a=['alex','maria','alic'] b=['jan','sara'] 我如何使用typ

浏览 45提问于2021-11-22得票数 0

3回答

在python中比较两个不同列表中的单词，并在输出中将找到的单词替换为"*“

python、python-3.x

我试图发出用户作为输入的消息，好像输入是“见鬼”，其中“见鬼”出现在名为"banned.txt“的文件中的禁用单词列表中，这样输出就变成了”见鬼*“。我是python的新手，到目前为止，我已经从传入的输入以及存在禁用单词的列表中创建了两个列表，我在比较这两个列表中的单词时遇到了困难，有人能解释一下如何解决这个问题吗？ from cs50 import get_string import sys def main(): if len(sys.argv) != 2: print("Usage: python bleep.py dictionary

浏览 0提问于2019-01-04得票数 1

1回答

Java -文本简化器API

api、google-api、google-search-api

我实际上是在Java中开发一个文本简化API，它将得到google列表中的1000个单词，并将其保存在地图中。用户将输入一个单词，如果它与地图中的单词列表相匹配，那么它将用同义词交换它。但我对同义词部分感到困惑。如何获得同义词？我需要调用任何外部API吗？还是谷歌的词汇列表中也有同义词？我已经通过谷歌，它只是暗示，同义词可以建立通过WORDAPI，但我不想使用它。我还能做什么？

浏览 1提问于2019-12-07得票数 1

回答已采纳

5回答

Regex:在关键字之后识别第一个X字符中出现的字符串

python、regex

假设下面的字符串： text = r"Microsoft enables digital transformation for the era of an intelligent cloud and an intelligent edge. SOURCE Microsoft Corp." 目标：我想检查公司的名称(在上面的例子中)是否出现在关键字"SOURCE"之后的第一个X(例如250个)字符中。尝试： source = re.compile(r"SOURCE.*") re.findall(source,text) #outpu

浏览 20提问于2022-10-10得票数 0

回答已采纳

2回答

如何使用Python在文本中查找公司名称

python、elasticsearch、replace、full-text-search、fuzzywuzzy

我有一份格式正确的公司名称列表，我正在试图找出这些公司何时出现在文档中。问题是，它们不太可能像在列表中那样出现在文档中。例如，Visa Inc可能以Visa的形式出现，American Airlines Group Inc可能以American Airlines的形式出现。如何迭代文档的整个内容，然后在找到接近匹配时返回格式正确的公司名称？我尝试过fuzzywuzzy和difflib.get_close_matches，但问题是它只关注每个单词，而不是一组单词： from fuzzywuzzy import process from difflib import get_close_mat

浏览 0提问于2019-05-15得票数 2

1回答

使用ruby创建常用单词或短语的列表

ruby-on-rails、ruby、redis

寻找一些建议，如何从nosql数据库中的一堆条目中生成常用单词和短语的列表。基本上，我们有一堆由某人发布的帖子，我们想告诉他们“嘿，你好啊。你经常使用这些单词/短语”。我在这一点上有点困惑。我的应用程序是ruby on rails，backbone js和redis。

浏览 0提问于2013-05-28得票数 0

1回答

统计语言模型:比较不同长度的单词序列

statistics、nlp、modeling

我有一个从文本中提取公司名称的算法。它通常做得很好，但是，它有时也提取看起来像公司名称的字符串，但显然不是。例如，“联系我们”，“科罗拉多泉公司”，“美容牙医”显然不是公司名称。有太多这样的误报无法列入黑名单，所以我想引入一种算法来对提取的字符串进行排名，这样排名最低的字符串就可以被丢弃。目前，我正在考虑使用来做这件事。该模型可以根据字符串中每个单词的概率乘积对每个字符串进行评分(考虑最简单的模型)。我的问题是:这样的模型可以用来比较不同长度的单词序列吗？由于根据定义，概率小于1，因此较长序列的概率通常会小于较短序列的概率。这会使模型对更长的序列产生偏差，这不是一件好事。有没有办法使用这样

浏览 8提问于2013-09-21得票数 3

2回答

如何度量列表中的内容差异

python、list、similarity、cosine-similarity

我不想在这里引起混乱。我希望每个列表都附加一个值的原因是，我希望使用每个列表中的内容作为聚类算法的特征值。最初的想法是我有1000个项目，每个项目都有一个公司名称列表。我想把这个列表内容转换成一个值。这就是为什么我希望每个值都附加到每个列表中，作为这个项目的一个特性……谢谢……(这也是我使用基列表的原因。) 我正在尝试使用python分析一些文本，现在我有1000个列表，每个列表都包含公司名称的列表。例如： list1 = ['google', 'facebook' 'twitter', 'IBM'] list2 = ['

浏览 3提问于2014-11-04得票数 1

2回答

在“at”一词之后，如何删除句子末尾的文本？

text-processing、editors

我有一个大数据，并寻找一个grep命令来删除文本并保留这个句子中的职务名称，我已经使用这个grep命令^.*?at来获取单词at之后的公司名称，但是这次我想保留他们的职务名称，我应该使用哪个grep命令？ CEO at Insurance Menu Founder & CEO at insurtech AVP, Alliances and Analyst Relations at ValueMomentum AGV-President at Aflac Ventures 例如，第一行的最终结果应该是CEO，从单词at Insurance Menu中删除整个文本我正在使用BBEDIT

浏览 0提问于2022-10-12得票数 2

回答已采纳

1回答

使用通配符从包含特定值/字符的单元格字符串中提取文本

string、excel、extract、wildcard、worksheet-function

在单元格中，我有一个包含联系人名称和公司名称(例如单元格A2：John X. Doe, XYZ Inc.)的文本字符串。我已经成功地创建了一个公式，它使用"_“(下划线字符)将公司名称与结束公司名称后缀(即_Inc.、_Corporation、_LLC等)连接起来。此方法将公司名称和公司后缀连接在一起，并将公司视为一个整体或完整的单词。示例1:单元格A2：John X. Doe, XYZ Inc. 示例2:单元格B2：John X. Doe, XYZ_Inc. 努力实现以下目标：结果1:单元C2：John X. Doe 结果2:单元D2：XYZ_Inc. 我希望能够从位于XYZ_I

浏览 3提问于2015-03-03得票数 0

回答已采纳

3回答

如何从列表中删除特定的单词？

python

我有不同的单词列表，一个列表(停止词)包含一个应该从另一个列表中排除的单词列表(kafka)。我试过： kafka.discard (stop) # this only works with sets and I do not want to transform my list into a set 是否有另一种方法将停止词从另一个列表中排除？我正在使用python 3.4.0

浏览 1提问于2014-04-01得票数 1

回答已采纳

2回答

在Python (url)中模糊匹配大量文本中的字符串

python、algorithm、fuzzy-comparison

我有一个公司名称的列表，还有一个url提到的公司名称的列表。最终目标是查看url，并找出url上有多少公司在我的列表中。示例网址：每个URL的结构都不同，所以我没有一个好方法来执行正则表达式搜索并为每个公司名称创建单独的字符串。我想构建一个for循环来从URL的整个内容列表中搜索每家公司。但Levenshtein似乎更适合两个较小的字符串，而不是一个短字符串和一个大文本。这个初学者应该往哪里看呢？

浏览 0提问于2011-05-25得票数 4

回答已采纳

2回答

将字符串写入文件时的奇怪行为

python

我正在尝试制作一个AutoHotKey脚本，从你输入的大多数单词中删除字母'e‘。为此，我将把一个常用单词的列表放在一个文本文件中，并让python脚本为每个单词在AHK文件中添加正确的语法。出于测试目的，我的单词列表文件'words.txt‘包含以下内容： apple dog tree 我希望在运行wordsOut.txt脚本后，文件‘python’(我将其转换为AHK脚本)中的输出如下所示： ::apple::appl ::tree::tr 正如您所看到的，它将排除不带字母“e”的单词，并从其他所有单词中删除“e”。但是当我运行我的脚本时，它看起来像这样... f = op

浏览 34提问于2018-07-19得票数 0

回答已采纳

2回答

在dataframe列中具有字符串的访问行，该列使用Pandas在单词之间包含2个或更多空格。

python、pandas、dataframe、rows、.loc

我正在学习Python，也许是真实的案例场景，我得到了一项任务，来过滤包含超过3个单词的公司的名称。它在名为“公司名称”的列中，dataframe称为"data“。我设法把他们列入名单，并最终也进入了dataframe。但是，在dataframe中，我在列的位置找到了行，在行中找到了列。感觉就像绕着它走。 a,b = data.shape required_data = [] for i in range(a): if data["Company Name"][i].count(" ") >= 2: required_da

浏览 4提问于2022-01-05得票数 0

回答已采纳

1回答

NLP提取关联词

python-3.x、machine-learning、nlp

我是NLP算法的新手。我正在使用法语的python 3。我想从属于一起的文本中提取一组单词。例如“左脚”“瓶装水”。如何找到从文本/句子中提取一组单词的规则。 (附言:我是法国人，如果我不能很好地表达自己，很抱歉) 谢谢

浏览 1提问于2018-02-22得票数 0

2回答

自动文本/模糊匹配的最佳机器学习方法

machine-learning、text-classification、fuzzy-comparison、record-linkage

我是机器学习的新手，我用python做过几个项目。我正在寻找关于如何处理以下问题的建议，我相信这些问题可以自动完成。在我的组织中，数据质量团队的用户每天都有一项任务，就是获取手动输入的公司名称(带有地址)列表，然后他必须使用自己的判断搜索公司数据库以找到匹配的结果-即没有硬性的快速规则。输入的示例如下：公司名称，地址行1，国家/地区其中，用户获取公司名称并将其输入到搜索工具中。其中向他呈现结果列表，并且他选择最佳匹配，但可以选择不选择任何匹配。搜索工具是内部构建的，可以与外部API通信，我可以访问源代码，这样我就可以修改搜索工具以捕获输入和结果列表，并且可以添加一个复选框来查看使用了哪

浏览 25提问于2017-02-17得票数 3

回答已采纳

5回答

Python、Take字典和生成列表(words>1，最常用的单词，最长的单词)

python、python-3.x

所以我做了一个函数 def word_count(string): my_string = string.lower().split() my_dict = {} for item in my_string: if item in my_dict: my_dict[item] += 1 else: my_dict[item] = 1 print(my_dict) 因此，它所做的就是获取一个字符串，将其拆分，并生成一个字典，关键字是单词，值是它出现的次数。好的，我现在要做的是创建一个

浏览 0提问于2016-03-04得票数 2

1回答

如何打印列表中分配了随机数的单词？

python、python-3.x、random

我想知道有没有人能帮我解决这个问题。在我正在编写的代码中，我创建了一个游戏，用户可以在该游戏上猜测从python3.3文本文件导入的列表中的单词。我从列表中随机选择一个单词 words = random.randint(0,len(wordlist)) 我已经成功地，让程序工作，然而，当用户得到错误的单词，它打印随机数分配给不是从列表中的单词。例如 else: print("No, the answer was",words) 我想知道如何打印列表中的单词，而不是随机数？

浏览 1提问于2014-04-05得票数 0

2回答

搜索字典关键字字符串，如果包含，则显示该关键字值

python、python-3.x、dictionary、twitter

我正在尝试让我的程序读取一条tweet，并通过查找我的字典在该tweet中查找公司名称。如果它找到一个公司名称，我希望它返回连接到该公司名称的滚动条。当字典键是一个单词时，我可以让它工作，但它不会显示它是一个像中国联通或EXPRESS脚本那样的多单词键。有什么建议吗？我知道拆分推文很难搜索多个单词的字符串，但这是我唯一能让它适用于像FACEBOOK和GOOGLE这样的单单词公司名称的方法。谢谢，这是我的代码。(输入只是推文，我现在只是手动输入它们，直到我弄清楚如何让它工作) dictionary = {'apple':'AAPL', 'google&#

浏览 9提问于2018-02-13得票数 0

回答已采纳

13回答

统计列表中单词的频率并按频率排序

python、python-3.x、list、frequency、word

我使用的是Python 3.3 我需要创建两个列表，一个用于唯一的单词，另一个用于单词的频率。我必须根据频率列表对唯一单词列表进行排序，以便具有最高频率的单词在列表中排在第一位。我有文本设计，但不确定如何在Python中实现它。到目前为止，我发现的方法要么使用Counter，要么使用我们没有学习过的字典。我已经从包含所有单词的文件创建了列表，但不知道如何找到列表中每个单词的频率。我知道我需要一个循环来做这件事，但是我不能弄清楚。下面是基本的设计： original list = ["the", "car",....] newlst = [] fre

浏览 3提问于2013-12-11得票数 88

1回答

有什么方法可以过滤出python中的单词吗？

python、stop-words

有没有办法过滤掉python中的冠词(the，a，an)、代词、连词(和，但是)和其他非热门词汇？或者，有没有python包可以提供帮助？我知道我可以使用过滤器和其他东西，但我需要一个包含所有单词的长长列表。已经有包含这些单词的包了吗？我需要删除这些单词，这样消耗的内存才能处理删除了这些单词的列表，这样就会更轻。谢谢

浏览 1提问于2015-03-06得票数 2

1回答

如何将单词归类到其对应的类别？

java、nlp、classification、ontology、text-mining

我必须为一长串单词实现文本分类。我已经定义了一些类别，例如，如果单词"UK“在列表中，它将属于"Regions”。如果单词是"Pizza"，它将被归入“食物”类别。我如何将这些词归入不同的类别？有没有开源工具可以做到这一点？

浏览 0提问于2011-01-31得票数 4

回答已采纳

2回答

用Python删除包含字符或字母字符串的文本文件中的单词

python、string、nlp、special-characters、corpus

我有几行文本，并希望删除任何具有特殊字符或固定给定字符串的单词(在python中)。示例： in_lines = ['this is go:od', 'that example is bad', 'amp is a word'] # remove any word with {'amp', ':'} out_lines = ['this is', 'that is bad',

浏览 2提问于2018-10-10得票数 0

回答已采纳

3回答

如何替换sql列中的常见词

sql、sql-server-2008、replace

我有一个在句子中使用的常用词的表格(例如，A，the，and，where等) 我想做的是循环遍历所有这些单词，并将它们从人们输入的描述中剥离出来，以尝试生成常见的关键字或标签。但我不能使用replace，因为replace将删除所有常见单词的实例，而不管它是否只是组成一个较大单词的几个字母。例如：我想替换描述中的A。很明显，很多单词都包含字母a，所以所有的字母a都会从单词中去掉。我不想这样。我只想在A是一个完整的单词时使用它。我可以使用正则表达式来解决这个问题，但我想知道在SQL中是否有任何方法可以做到这一点，而不必求助于CLR proc。也许我遗漏了一些东西，但我似乎找不到一种简单的方法

浏览 0提问于2010-10-22得票数 2

回答已采纳