Python Web Scraper没有收集我所指出的所有文本

文章/答案/技术大牛

发布

2回答

、、、

我正在开发一个python网络抓取器，试图为我正在做的一个项目获取信息。我在twitter自动取款机上使用它，因为我发现twitter api不会捕获超过一周的信息。我正在查看的使用'findAll‘的HTML语言的具体部分是： <p class="TweetTextSize js-tweet-text tweet-text" lang="en&quo

浏览 5提问于2017-08-04得票数 0

2回答

无法从cron作业中找到dotenv环境变量

、、、、

我正在运行python库中的python脚本，该脚本使用dotenv从库根目录的.env文件中加载一些环境变量。这是从命令行运行的，但当我尝试使用以下命令作为cronjob运行时： * * * * * source ./path_to_venv/activate; python ./path_to_script.py 我得到一个键错误，因为它找不到环境变量。你知道为什么这不管用吗？非常感谢您的帮助！

浏览 74提问于2020-07-03得票数 3

1回答

Microsoft Web矩阵

我希望这是一个非常简单的问题:有没有人知道可以有效地抓取使用Microsoft Matrix构建的站点的工具？我可以用python编写代码，但这会花费我很长的时间来完成这项任务，这是因为Matrix生成的HTML非常糟糕和丑陋。我试过Web Harvey、Helium Scraper，也试过Chrome的Web Scra

浏览 0提问于2015-07-20得票数 2

1回答

没有找到导入模块？

、、

我正在构建一个网络刮刀，我试图导入‘请求’包，但我得到了一个错误。我被告知如下：(venv) USERs-MacBook-Pro:Scraper user$ /usr/local/opt/python@3.9/bin/python3.9 /Users/user/git/ML

浏览 1提问于2020-12-23得票数 0

回答已采纳

1回答

我如何在Mac上解决这个Selenium异常，它显示"chrome不可达“？

、、、、

我正在尝试学习如何使用Selenium自动化web流程，并希望能够构建健壮的web抓取器和其他东西。所以，我刚刚安装完Pycharm和Selenium，我只是想运行一段简单的代码，在chrome中打开一个网页，并不是太花哨。我的代码如下(当然是用Python编写的) PATH = "/Users/Kudz

浏览 31提问于2021-05-18得票数 0

回答已采纳

3回答

在rails中返回数组并存储它

、、

我知道这听起来可能是一个“简单的问题”，但我是rails的新手，我不知道我的应用程序结构是否正确。 class JPG < ActiveRecord::Base acts_a

浏览 1提问于2013-08-30得票数 1

1回答

当使用来自导入另一个自定义模块的自定义模块的函数时为ModuleNotFoundError

、、、、

我有一个类似于此的文件夹结构(我的示例包含所有必需的部分)： scraper.py __init__.pyimport config # Do some web

浏览 2提问于2021-01-09得票数 0

1回答

在bash脚本中执行Python命令时的ModuleNotFoundError

、、

我已经设置了我的PYTHONPATH变量，并将它作为%PYTHONPATH%添加到path中，但没有成功。我检查了bashrc，没有看到环境变量被覆盖。也许我的结构不正确？lib -scripts - monroes_events.py (venv) C:\Users\James\repos\web_scraper\src>bash

浏览 0提问于2019-12-02得票数 0

2回答

使用python从Instagram收集用户信息

、、、

我目前正在使用python从instagram上的用户那里收集信息，使用的是一个包含instagram用户链接的文本文件。虽然我可以收集关注者的数量、关注的数量和帖子的数量，但我希望能够收集用户的个人信息。收集简历信息将允许我最终解析这些信息并收集电子邮件。我能做到这一点<e

浏览 32提问于2019-06-10得票数 2

1回答

我正试图用BS4循环和刮一个链接的文本文件。在循环的第四次迭代时，我会得到一个错误。

、、、

我试图循环从一个文本文件的链接列表，并将信息写入一个文本文件。我得到的“索引超出范围”的错误，我不知道为什么。details(a): with open('C:/Users/Main/Desktop/PythonWeb

浏览 2提问于2018-03-11得票数 0

回答已采纳

2回答

git忽略了“git加法”命令

我要去：当我获得git状态时，没有添加任何内容：On branch python modified: __pycache__/web_scraper.cpython-38.pyc modified: aws_s3_list_buckets.pymodified: web_scraper</em

浏览 3提问于2019-12-18得票数 2

回答已采纳

1回答

JSoup在Android活动中工作，但不作为活动中的对象。

、

我使用了JSoup，并成功地收集了所有的超文本标记语言，并将它们放入控制台项目的适当数据结构中，只有一个类名为Scraper.java。我的下一步是将这个Scraper.java移植到我的安卓应用程序中。要做到这一点，我只想在我的活动中创建一个需要html信息的Scraper对象。放弃了，我把所有来自S

浏览 0提问于2012-11-08得票数 0

回答已采纳

1回答

如何处理tkinter主循环中的错误？

、、、

我有一个python程序，它为客户端抓取web数据。接口使用tkinter。大纲是： if self.__del__ of <tkinter.IntVar object at 0x03245510>> 多次，直到所有</em

浏览 4提问于2016-02-14得票数 1

回答已采纳

2回答

Crontab在raspberry pi上启动python脚本会导致导入错误

、、、、

我在我的Raspberry PI上运行Ubuntu Mate。我用Python编写了一个web 刮板，我想每天运行一次。我认为使用sudo crontab -e是一种很好的方法。我遇到的问题是，当cronjob启动我的python脚本时，python脚本抛出一个导入错误而不运行。但是，当我从命令行直接执行python</

浏览 1提问于2017-03-18得票数 0

回答已采纳

5回答

当脚本位于根目录之外时，获取scrapy项目设置

、、、

我已经制作了一个Scrapy爬行器，可以从位于项目根目录的脚本中成功运行。由于我需要从同一脚本运行来自不同项目的多个爬虫(这将是一个django应用程序根据用户的请求调用脚本)，因此我将脚本从其中一个项目的根目录移动到父目录。下面是我用来从脚本运行爬行器的scrapy文档中的代码： settings = get_project_settings() settings.set(下面我还有运行蜘蛛的

浏览 2提问于2015-07-28得票数 15

4回答

Linux匹配字符串并将一行向上移动。

、、、

我在linux上的文本文件中有以下文本。and usage of various python scripts that work with embedded devices.### REB00T Spear Phishing#### W

浏览 4提问于2015-12-30得票数 0

回答已采纳

3回答

由于URL差异很小，我的Web刮板偶尔出现故障

、、、、

我正面临着这个令人沮丧的问题，这个问题严重影响了我的数据收集速度。-/其中/12345/其中/12345/某某/其中/12345，没有问题。在这里，我修改了URLlin

浏览 5提问于2016-12-09得票数 0

2回答

Docker + Django，docker-compose似乎不运行迁移命令

、、、

它的要求是它必须在Docker上运行，这给我带来了以下问题:当使用docker-复合映像时，正在正确构建映像，db服务运行，但是我得到一个错误，它说我的DB中的关系不存在。我在我的docker-compose.yml中使用了docker-compose.yml，但由于某种原因，它似乎没有运行。ready()中访问DB并不是最好的做法，但当Django应用程序启动时，我不知道如何让这段代码运行，而不把

浏览 0提问于2018-10-12得票数 0

回答已采纳

2回答

Perl机械化查找Div中所有链接

、、

有没有一种方法可以找到特定div中的所有链接？我试图使用find_all_links，但是找不到一种方法来解决这个问题。

浏览 0提问于2011-06-23得票数 4

回答已采纳

1回答

会话转移

、、、

在会议上有个问题，这是我所面临的情况，用户点击站点scraper.com并发出请求，这将触发scraper.com的web服务器在" parent.com“上启动会话，web服务器发出多个帖子并到达parent.com现在，scraper.com的web服务器希望用户的浏览器加载"parent.com“的签出页面，这与scraper<

浏览 1提问于2011-12-21得票数 1

点击加载更多