首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从网页抓取图片中获取user_id,评级

从网页抓取图片中获取user_id,评级
EN

Stack Overflow用户
提问于 2018-02-28 22:28:32
回答 1查看 52关注 0票数 1

我有一个从网站animeka网站上抓取所有页面的web数据帧:

代码语言:javascript
运行
复制
import pandas as pd 
import requests
from bs4 import BeautifulSoup

for page_no in range(1, 467):
    url = 'http://www.animeka.com/animes/~_{}.html'.format(page_no)

    titles, studios, genres, durations = [], [], [], []

for page_no in range(1, 467):
    url = 'http://www.animeka.com/animes/~_{}.html'.format(page_no)
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'html.parser')

    for table in soup.find_all('table', class_='animesindex'):
        td = table.find_all('td', class_='animestxt')
        titles.append(td[1].text.split(':')[1])
        studios.append(td[3].text.split(':')[1])
        genres.append(td[4].text.split(':')[1])
        durations.append(td[6].text.split(':')[1])

headers = ['Title', 'Studio', 'Genres', 'Duration']
df = pd.DataFrame(dict(zip(headers, [titles, studios, genres, durations])))
df = pd.DataFrame({'duration':df["Duration"], "genre" : df["Genres"], 'studio':df["Studio"], "titre" : df["Title"]})

我想得到他们为每个动漫设置的user_id和评级,但这是在“细节”小节中的图片,我不知道如何收集这些信息。

这是一个图片代码,其中等级是:

代码语言:javascript
运行
复制
<img src="/animes/13498.png" width="400" height="100" alt="graph">

EN

回答 1

Stack Overflow用户

发布于 2018-03-01 01:05:56

可以使用find_previous方法查找文档中位于特定标签之前的标签和字符串。

代码语言:javascript
运行
复制
td[1].find_previous('td')

因此,如果您想提取图像的名称,可以尝试如下所示:

代码语言:javascript
运行
复制
td[1].find_previous('td').img['src'].split('/')[-1]
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49031894

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档