使用Python抓取拆分成多个网页的单词列表

文章/答案/技术大牛

发布

2回答

、、

我想做一个程序，可以计算出哪一个或哪些单词可以让玩家在拼字游戏中获得最多的分数。但是，要实现这一点，我需要一个可接受的单词列表。我已经找到了英语的sowpods列表，但我想让这个程序也能用我的母语法语工作。我发现提供了这样一个列表，但它被分成了918个网页，这使得复制粘贴所有内容都需要相当长的时间。我曾尝试使用Python库(我不记得是哪一个)

浏览 8提问于2020-05-27得票数 1

回答已采纳

2回答

从网页上的单词列表生成明文文件

、

我正在尝试生成一个纯文本文件，其中包含网页上的单词列表。问题是列表被分成多个页面。我更喜欢Java，但Python也不错。很抱歉，如果答案是显而易见的，但任何在正确方向的轻推

浏览 0提问于2011-06-02得票数 0

回答已采纳

2回答

用Python解析CSS属性值的HTML

、、、、

我目前正在使用Selenium和PhantomJS与Python一起抓取呈现的网页。很容易检查HTML内容中是否存在某个单词(例如。)，但是我有兴趣在页面中搜索包含值大于或等于某个值的if "example" in html属性的元素。例如，最理想的做法是抓取一个站点列表，并保存具有CSS为元素提供z索引的页面，这个值异常大。所有内容都是构建的</em

浏览 8提问于2015-01-06得票数 0

回答已采纳

1回答

Qt -拆分QString，使用几种类型的空白分隔符

、、、、

我想分拆一个QString。QString中有几个单词，由一个或多个(！)分隔。下列文号之一：我知道我可以使用正则表达式来实现这一点，但是它会是什么样的呢？实现这一点的任何其他直截了当的方法也是值得欢迎的。

浏览 2提问于2016-04-16得票数 10

回答已采纳

1回答

如何在找到的页面上抓取外部链接？

我使用了从他们的wiki安装nutch的示例。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入下一步要抓取的文件？什么是最好的方式来遵循一个网页上的链接，索引该网页以及与nutch？如果我通过python执行bin/nutch，我能找回它找到的

浏览 1提问于2010-10-26得票数 2

回答已采纳

1回答

关于使用python抓取网站的后续内容

这是我之前关于如何使用python抓取网站的问题。我对此有一个后续问题但问题是，我已经开始运行脚本一个小时后，到现在我只得到了3000个网站的结果。所以，我想这需要很长的时间才能得到所有的一百万个网站有没有人能建议一种更好的方法来完成同样的任务，并更快地取得结果

浏览 2提问于2020-02-01得票数 0

2回答

urllib2和wget返回HTTP403(禁止)，而浏览器返回OK

、、、、

我的浏览器可以访问一个网页，但是urllib2.urlopen() (Python)和wget都返回HTTP403(禁止)。有没有办法弄清楚到底发生了什么？我使用的是最原始的形式，比如urllib2.urlopen("http://test.com/test.php")，浏览器和wget都使用相同的url ()。在测试之前，我已经清除了浏览器中的所有cookies。非常感谢!

浏览 0提问于2012-12-03得票数 1

回答已采纳

1回答

Python -拆分成字母而不是单词

、、

我要做的是从文件夹中抓取一些文本，将其拆分成单词，计算单词数，将其排序为列表，并将其写入文件。一切都很好，除了它没有拆分成单词，而是将文本拆分成字母并对它们进行计数。提前感谢import os.path prefix_path = ("C:/Users/User/Desktop/Python/sampleT

浏览 0提问于2020-10-16得票数 0

3回答

从包含键值对的字符串中获取python字典

、、

我有一个python字符串，格式如下：有没有办法把它转换成像这样的字典？{'name': 'srek', 'age': '24', 'description': 'blah blah'} st

浏览 2提问于2012-04-30得票数 9

3回答

提取工作所需的技能，给出职务说明

、、

对从职务描述(原始文本)中提取职务所需技能集的库/方法有任何建议吗？📷 我已附上职务说明格式。

浏览 0提问于2018-04-09得票数 1

2回答

如何多处理我的程序？

、

我写了一个擦拭网站的程序。这是相当倾斜的，因为它处理一个接一个。我在想，怎么才能把它变成多进程呢？python的模块令人困惑。我不知道子进程和多进程之间的区别。我听说，自从python2.x以来，由于GIL，多重处理是困难和无效的。我正在使用Python3.2，所以我想知道事情是否得到了改进。

浏览 0提问于2012-08-21得票数 2

2回答

如何在列表中列出句子中某个单词的索引？我不明白它是怎么工作的

、

例如：如何浏览列表并找到单词'python‘并打印包含它的列表的索引？所以它会打印出来：我明白，如果你有一个这样的列表： w

浏览 0提问于2019-09-29得票数 1

1回答

使用Python使用Javascript实现Web抓取页面

、、、

我正在尝试使用Python抓取一个urls列表的网页。我可以使用Python和漂亮的汤来抓取第一个页面，但是如果url列表很长，它会使用下面的JavaScript继续到第二个页面。

浏览 0提问于2013-12-05得票数 0

1回答

我正在尝试一次抓取html页面中的所有文本。我知道我会有很多额外的信息，而且它不会被组织起来，但我正在尝试看看是否有某种方法可以用一个刮刀一次刮掉多个网站。问题是，当我在Python中运行Scrapy爬行器时，我得到了所有我不需要的空格，以及关于页面的额外信息，即使我指定我只想在代码中提取文本。我试着让我的CSS选择器更具体，但是我总是没有得到任何信息或者没有得到足够的信息 import scrapy from ..items import Whole

浏览 5提问于2019-06-20得票数 0

1回答

如何在R中从网站上抓取的书名中查找词频

、

为了练习，我从一个网站上抓取书名，并使用书名计算出一些基本的统计数据。到目前为止，我已经成功地抓取了书名，将它们添加到一个表中，并找到了书的平均长度。我现在想要在书名中找到最常用的单词，它可能是' the '，但我想用R来证明这一点。目前我的程序只查看完整的书名，我需要将这些单词拆分成它们各自的身份，这样我就可以计算不同单词的

浏览 13提问于2021-04-01得票数 0

回答已采纳

3回答

仅从网页中提取有意义的文本

、、、

我得到了一个urls列表，并使用nltk对它们进行了抓取。我的最终结果是一个列表的形式，在一个列表中所有的单词在网页上。麻烦的是，我只是在寻找不是常用英语“糖”单词的关键词和短语，比如" as，and，to，am，for“等等。我知道我可以用所有普通的英语单词构建一个文件，然后简单地将它们从我刮掉的标记列表</

浏览 7提问于2014-04-03得票数 3

回答已采纳

1回答

将单词添加到莎士比亚的单词中并打印列表

莎士比亚在他的作品中使用了20,000多个单词。下载文件 ()的副本。编写一个程序来打开文件romeo.txt并逐行读取它。对于每一行，使用拆分函数将行拆分成一个单词列表。对于每个单词，请检查该单词是否已在唯一单词列表中。如果单词不在唯一单词列表中，则将其添加到列表中。程序完成后，按字母顺序对

浏览 7提问于2022-03-19得票数 -1

1回答

Prolog中的拆分词

、、、

我试图在Prolog中将一个单词拆分成多个字符，而不使用list。有可能吗？我已经看到的所有搜索结果都使用列表。谢谢

浏览 3提问于2016-04-10得票数 0

2回答

递归使用Scrapy从网站抓取网页

、、

我最近开始使用Scrapy。我正在尝试从一个被分成几页(大约50页)的大列表中收集一些信息。我可以很容易地从第一页中提取我想要的内容，包括start_urls列表中的第一页。但是，我不想将这50个页面的所有链接都添加到这个列表中。我需要一种更有活力的方式。有人知道我如何迭代地抓取网页吗？有谁有这样的例子吗？谢谢!

浏览 7提问于2011-02-03得票数 1

1回答

为文档生成多个标签

、、、、

目前，我正在做一个任务，我们正在从网页上抓取网页，并试图为每个网页生成标签。为此，我们从这些网站中提取文本数据，进行预处理(如删除停止词、移除标点符号、非ascii字符等)，然后使用tf-以色列国防军在document.Then中查找每个单词的权重，我们选择tf-国防军值超过特定阈值的单词，最后使用余弦相似度将使用tf-idf提取的标签的word2vec值与自定义

浏览 2提问于2022-04-29得票数 0

点击加载更多