我正试着自学一些蟒蛇,我一直在看youtube视频:) 我的一个任务是抓取一张照片并将其下载到我的工作文件夹中。我解决了它,但想要更进一步。我创建了一个jps列表,并希望逐个迭代它们并下载它们。以下是我到目前为止拥有的代码: base = 'https://keithgalli.github.io/web-scraping/'
test = [ linkz.find('img').get('src') for linkz in find_all].
urls = [urljoin(base, t) for t in test]
gets me
我的查询有一个问题,我有数字单元格和文本单元格,如果所有的单元格都是空的,我不想检索它们,但是,如果任何单元格不是空的,我想检索该行。
我知道is not Null用于数字单元格,<>''用于文本单元格。
例如:
假设这个表在原始数据表中是这样的。工作表被称为“数据”。
Column | A | B | C | D |
Cell Type | Number | Text | Number | Text |
Row1 | 7
我用python和pyppeteer以及asyncio一起编写了一个脚本,从它的登陆页面中抓取不同帖子的链接,并通过跟踪指向其内部页面的url最终获得每个帖子的标题。我在这里分析的内容不是动态的。但是,我使用了pyppeteer和asyncio来查看它执行asynchronously的效率。
下面的脚本执行得很好,但随后出现了一个错误:
File "C:\Users\asyncio\tasks.py", line 526, in ensure_future
raise TypeError('An asyncio.Future, a coroutine or an awa
免责声明:这是我第一次尝试网络抓取。如果这是一个非常简单的问题,请不要介意。
我从一个网站获取html源代码,如下所示。
def get_soup(site):
"""get the html source for a web site"""
try:
logging.debug("Getting data from:" + site)
req = urllib2.Request(site)
req.add_header('Accept', '*/*')
req.ad
我的大多数Python脚本(主要是为web抓取/数据科学应用程序编写的)都遵循这种格式:
# import whatever packages
import x, y, z
# do some web-scraping and data manipulation
# write some niche function I need
# make some plots and basically end the script
这一切都是通过交互式编辑器/控制台(如Eclipse)完成的。我基本上编写了上面的代码,然后复制粘贴下面的代码进行测试。
有没有更“标准”的方法来解决这个问题呢?我知
我是python和web-scraping的新手。我正在尝试抓取一个网站(链接是url)。我收到一个错误"'NoneType‘object is not iterable",下面的最后一行代码。有谁能指出可能出了什么问题吗?
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
url = 'https://labtestsonline.org/tests-index'
soup = BeautifulSoup(requests.get(url).c
我用python编写了一个脚本,它使用代理、来抓取不同帖子的链接,遍历网页的不同页面。我试图从列表中使用proxies。脚本应该从列表中随机获取proxies,并向该网站发送请求,并最终解析项目。但是,如果任何proxy不起作用,则应该将其从列表中删除。
我认为我在number of proxies和list of urls中使用ThreadPool(10).starmap(make_requests, zip(proxyVault,lead_url))的方式是准确的,但它不会产生任何结果;相反,脚本会被卡住。
如何传递代理和指向ThreadPool的链接,以便脚本产生结果?
import r
你好,我是Python和Web-scraping的新手。我正在尝试从这个页面(https://www.jmesales.com/kuriyama-3-4-in-brass-quick-couplings/)的下拉菜单中的每个产品选项中抓取数据。我相信页面不会使用JavaScript,我更愿意使用requests和BeautifulSoup,而不是webdriver。我有代码可以让我得到每个选项的名称和属性值,但我不确定如何访问与每个选项关联的定价和规范数据。这是我的代码: from urllib.request import urlopen
from bs4 import Beautiful
我用python和selenium结合编写了一个脚本,从它的登陆页面中抓取不同帖子的链接,并通过跟踪指向其内部页面的url最终获得每个帖子的标题。虽然我在这里分析的内容是静态的,但我使用selenium来查看它在多处理中的工作方式。
然而,我的意图是使用多处理进行抓取。到目前为止,我知道selenium不支持多处理,但我似乎错了。
我的问题:当使用多进程运行时,如何减少使用selenium的执行时间?
This is my try (it's a working one)
import requests
from urllib.parse import urljoin
from mul
import requests
from lxml import html
page = requests.get('http://www.cnn.com')
html_content = html.fromstring(page.content)
for i in html_content.iterchildren():
print i
news_stories = html_content.xpath('//h2[@data-analytics]/a/span/text()')
news_links = html_content.xpath(&
我用re模块用python编写了一个脚本,以便从网页中获得不同问题的标题。我在这里的意图是不使用BeautifulSoup,并且仍然能够解析标题。我用模式的方式可以做到这一点。但是,输出看起来不太好。我怎么能只得到问题的标题而没有别的。
下面是我的尝试(使用re.search()):
import requests
import re
link = "https://stackoverflow.com/questions/tagged/web-scraping"
res = requests.get(link).text
for item in res.splitlines
我有一个空表tbl_rating,其中包含user_id和post_id列。在我的Post视图中,我试图检查查看的帖子是否已经被查看的用户评级了。我在视图中使用了以下内容。
<?php
$sql='SELECT * FROM tbl_rating WHERE post_id='.$model->id.' AND user_id='.Yii::app()->user->getId().';';
$connection=Yii::app()->db;
$command=$connectio
我正在从上抓取课文。但是我不能抓取页面中位于“总计”表下面的内容。我想从“总计”和“高级”表中得到数字,但是代码没有返回任何内容。当用户向下滚动页面时,该页面似乎会加载其他信息。
我运行了下面的代码,并成功地从玩家的个人资料部分和“每个游戏”表中获得数据。但无法从“总计”表中获得值。
from lxml import html
import urllib
playerURL=urllib.urlopen("https://www.basketball-reference.com/players/p/parsoch01.html")
# Use xpath to parse po
我正在研究如何将Python嵌入到多线程C++程序中,并使用numpy并行地进行简单的计算。
换句话说,我使用PyRun_SimpleString来调用numpy函数。如果我只写入现有的numpy数组,并且注意不要从不同的线程修改相同的数组,那么是否需要抓取GIL?
正如评论中提到的,编辑在这里讨论了这个问题:
一个可能的解决方案是直接使用ctype使用numpy c接口,它负责释放GIL:。
对于后人来说,下面是当您尝试在不抓取吉尔的情况下执行"a*=2“时所发生的事情:
Program received signal SIGSEGV, Segmentation fault.
0x0