Python text抓取网站中的“下一段”文本_如何连接从网站python中抓取的文本_正在抓取具有文本/AttributeError的网站：'NoneType‘对象没有属性'text’ - 腾讯云开发者社区

、

我正在创建一个python程序，从网站上抓取公司财务。我意识到，包含这些信息的网站特别难以可靠地收集数据，因此，我遇到了一个障碍。https://www.reuters.com/companies/3in.L/key-metrics 从这个网站上，我试图刮掉文本“股本回报率(TTM)”旁边的值。(目前为8.86) 我已经搜索过StackOverflow和很多其他网站了。(page.co

浏览 23提问于2021-01-04得票数 0

2回答

使用python将内容写入文本文件，使用java清除同一文本文件中的内容。

、、、

我已经写了一个python脚本转到一个网站，从网站上抓取一些文本，并将这些文本保存到我的计算机上的文本文件中import os chrome_path但是当我尝试将python脚本集成到java程序中(下面的代码)时，从网站上抓取的文本没有写入到

浏览 26提问于2020-03-08得票数 0

1回答

Python Chrome驱动程序单击Safari Web浏览器上的Reader视图

、、、

抓取网站时，如何在Safari浏览器中单击"Reader View“？我需要一个python脚本来点击阅读器视图，然后复制所有内容到一个文本文件。请看我当前代码的一小段： driver = webdriver.Chrome('/usr/local/bin/chromedriverhttps://www.w3r

浏览 4提问于2020-05-14得票数 0

1回答

jsoup选择元素

、、

我正在尝试用jsoup抓取网站上的数据。但是在获取一些文本时遇到了一些问题。html的一部分如下所示我可以使用下面这行代码很好地抓取它：doc.select("p.time").text()); 但是下一段html看起来像这样：

浏览 2提问于2012-07-02得票数 0

1回答

我用python编写了一段代码，使用“请求”和“beautifulSoup”api从谷歌返回的前100个站点中抓取文本数据。好吧，它在大多数站点上都很好，但是它给那些稍后响应或者根本没有响应的站点带来了错误，我得到了这个错误。fair-with-a-flare-samosas-made-easy (由NewConnectionError引起(‘：未能建立新连接: Errno 11001 getaddrinfo失败“，) 我应该修改在请求API中编写的代

浏览 1提问于2016-01-02得票数 2

回答已采纳

2回答

Python -如何在URL中不分页地刮分页

、

如何使用URL访问下一页，内容如下：我知道如何使用刮取库(BS4、Selenium)，但我不知道如何抓取这样的站点。我一直在玩谷歌Chrome开发工具，但没有成功。我知道pubmed有API，但是API不返回我需要的信息(天气文章是否可以免费下载)。像Python这样的抓取站点通常的工作流程是什么？

浏览 0提问于2019-07-05得票数 0

回答已采纳

1回答

当下一页的后续链接在当前页面源代码中不可用时，抓取网站的所有页面

、

嗨，我已经成功地通过使用Python和正则表达式抓取了一些购物网站的所有页面。但现在我遇到了麻烦，要抓取某个特定网站的所有页面，该网站的下一页后续链接不存在于当前页面中，就像这里的本网站通过Ajax调用动态加载同一页面中的下一页数据。所以在抓取的时候，我只能抓取</

浏览 0提问于2013-05-28得票数 0

1回答

绕过API身份验证和密钥(比如Facebook和Twitter)

、、、

我试着用Python制作一种机器人，在我选择的互联网上扫描一些信息。问题是，一些像Facebook和Twitter这样的网站在每次使用时都会获得API要求的密钥。例如，在没有用Python验证我的请求的奇怪键的情况下，如何才能找到Twitter的研究结果？有可能吗？

浏览 2提问于2014-01-28得票数 1

回答已采纳

1回答

Web通过python抓取问题，不能读取html文件吗？

、、

web抓取Python已经有一段时间了，最近我遇到了这个问题。BeautifulSoup似乎无法读取html文件。例如，我正试着从这个网站上抓取from bs4 import BeautifulSoupurl_episode = 'https://www.thetvdb.comurl_episode) soup = BeautifulSoup(getdetail_episode.content,'h

浏览 1提问于2020-04-06得票数 0

1回答

将数据从HTML文本输入传递到python脚本

、、、、

我正在创建一个网络抓取应用程序，使用Django，它抓取imdb网站，并根据用户在文本字段中键入的内容列出电影名称假设如果用户键入'b'，它将列出所有以字母'b‘开头的电影名称我有一个html文本输入和一个按钮<body> <form method="POST" action=""&

浏览 1提问于2018-01-11得票数 4

1回答

如何与soup.find()进行部分匹配？

、、、、

所以，我用这个在“维度”之后抓取文本。我的问题是在我正在抓取的网站上，有时它被显示为“维度：”(用冒号)，有时它有空格“维度”，而我的代码会抛出一个错误。这就是为什么我要寻找smth (显然，这是一段无效的代码)来获得部分匹配： soup.find(if "Dimensions

浏览 8提问于2022-02-21得票数 0

回答已采纳

3回答

Python web抓取用户列表

、

我试图从一个网站上抓取用户列表，但它有多个页面，我可以抓取第一个页面，但当我抓取每个页面时就卡住了。page=1').text 在url中的通知好的，下一</

浏览 5提问于2018-01-09得票数 1

回答已采纳

1回答

抓取文本；我不确定Google Chrome Inspect元素是否给了我正确的XPath。我在哪里可以找到正确的路径？

、、、、

在这里，我想抓取一个名为“fundsnetservices.com”的网站。具体地说，我想要抓取每个程序下面的文本-它大约是一段文本的价值。'/html/body/div3/div/div/div1/div/p2/text()‘ ..。作为xpath。但是，每次我打印出文本时，它都会返回。为什么会这样呢？searchr

浏览 0提问于2020-04-02得票数 0

1回答

从网页中提取主题/关键字

、、

我正在寻找一个系统，以提取主题或简单的关键字从一个网页，只有从指定的网页，没有跟随所包含的链接。要分析的页面属于不同的站点，特别是我想分析一个人在Facebook上共享的链接，并从这些页面中提取主题或简单的关键字。非常感谢。

浏览 5提问于2014-04-11得票数 0

2回答

Python web抓取，使用html请求查找特定元素并提取文本

、、、

我正在使用python进行网络抓取(这是新的)，并试图从网站上抓取品牌名称。它在网站上不可见，但我已经找到了它的元素：我想提取HTML中的"Revlon“文本我目前正在使用html请求，并尝试获取选择器(CSS)和<

浏览 0提问于2021-04-15得票数 0

1回答

python：'NoneType‘对象没有属性'text’

、、、

我正在用漂亮的汤做python抓取，我正在爬行的网站有一个包含标题、链接和文本的28个容器，文本在<p>标签中，我的问题是我可以抓取所有的数据，但是有些<p>标记没有文本，所以我收到一个错误"AttributeError: 'NoneType' object has no attribute 'text</em

浏览 0提问于2018-05-20得票数 0

回答已采纳

1回答

Python -如何测试字符串之间的相似性并仅打印新字符串？

、、、、

我已经开发了一种带有漂亮汤的网络摩天大楼，它可以从网站上抓取新闻，然后将它们发送给电报机器人。每次程序运行时，它都会拾取当前新闻网页上的所有新闻，我希望它只挑选新闻上的新条目，并只发送这些条目。import bs4 soup = bs4.BeautifulSoup(fonte.text, 'lxml')

浏览 0提问于2018-05-18得票数 1

1回答

使用XPath获取包含链接的段落文本

、

我正在用XPath解析超文本标记语言页面，想要抓取一些特定段落的整个文本，包括链接的文本。例如，我有以下一段话： This is sample paragraph with <a href="http://google.com">link</p> 我需要得到以下文本作为结果

浏览 0提问于2011-11-09得票数 5

回答已采纳

1回答

阻止在python中从网站抓取数据

、、、、

我对网络抓取和构建爬虫是个新手，我开始在一个杂货网站上练习。我已经尝试从一个网站抓取数据很长一段时间了，不能超过三个页面，对于前三个页面，网站让我访问数据，但在那之后我没有得到任何响应，甚至在几秒钟内我也无法在浏览器上获得响应。网站使用API来获取所有的数据，所以我甚至不能使用BeautifulSoup，我想使用selenium，但也没有运气。我使用python的请求库来获取数据，并使用json进行解析。该网站需要p

浏览 1提问于2020-04-15得票数 0

1回答

从网站中抓取字符串中的单词

、、

我对scrapy和Python非常陌生。我正在制作一个网络刮板，试图从他们网站的HTML文本中刮掉企业主的名字。我的问题是，我不能准确地使用xpath或css响应来从网站代码中获取文本，因为我正在抓取数百个具有不同编码、类、页面等的不同网站。html_text = str(response.text) owner_name=re

浏览 25提问于2020-06-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云