首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >美丽汤蟒蛇获得日期和一个网页的作者

美丽汤蟒蛇获得日期和一个网页的作者
EN

Stack Overflow用户
提问于 2019-03-14 09:11:15
回答 2查看 431关注 0票数 1

我正在尝试从页面的html代码中接收日期和名称,但我的代码不起作用。我试着从这部分代码中提取出来。有了这个网址,我应该收到:我的心情和10июл2016,但我得到了一个错误。

我使用type="text/javascript"作为搜索短语,因为页面源代码的这一部分以:<script type="text/javascript">开头(这个部分比我插入的内容要大得多,但我只需要这两个元素,作者和日期)

从其中提取的代码的HTML部分:

代码语言:javascript
运行
复制
ajax.preload('al_photos.php', {"act":"show","list":"album-68872445_00\/rev","photo":"-68872445_422126739","module":"photos"}, ["album-68872445_00\/rev",7557,3696.000000,[{"id":"-68872445_422205711","base":"https:\/\/pp.userapi.com\/","commcount":0,"commshown":0,"comments":"<div id=\"pv_comments\" class=\"pv_comments wall_module\">\n  <div id=\"pv_comments_header\" onclick=\"Photoview.comments();\" class=\"pv_comments_header unshown\"><\/div>\n  <div id=\"pv_comments_list\" class=\"pv_comments_list  unshown\"><\/div>\n  <div class=\"pv_no_commments_placeholder_wrap\">\n    <div class=\"pv_no_commments_placeholder no_rows unshown\">Будьте первым, кто оставит комментарий к этой фотографии.<\/div>\n    <div class=\"pv_closed_commments_placeholder no_rows \">Возможность комментирования этой фотографии ограничена.<\/div>\n  <\/div>\n<\/div>","reply_form":"","reply_options":[],"date":"<span class=\"rel_date\">10 июл 2016<\/span>","tags":[0],"tagged":[],"album":"<a href=\"\/album-68872445_00\" onclick=\"return nav.go(this, event)\">Фотографии на стене сообщества<\/a>","author":"<a href=\"\/lovely_detka_tytyty\" class=\"group_link\">my mood<\/a>"

我的代码:

代码语言:javascript
运行
复制
from bs4 import BeautifulSoup
import requests
import lxml
import json
url = 'https://vk.com/photo-68872445_422126739?rev=1'
req = requests.get(url)
soup = BeautifulSoup(req.text, 'lxml')
data = soup.select('type="text/javascript"')[0]
name = json.loads(data.text)["author"]
date = json.loads(data.text)["date"]
print (name)
print (date)

页面源截图

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-03-14 10:47:07

我不确定它是否会帮助您,因为我无法在script标记中看到您的数据。但是,如果您的最终目的是获取日期和作者,请参见下面的代码:

代码语言:javascript
运行
复制
from bs4 import BeautifulSoup
import requests
import lxml
import json
url = 'https://vk.com/photo-68872445_422126739?rev=1'
req = requests.get(url)
soup = BeautifulSoup(req.text, 'lxml')

dls = soup.find_all("dl",{'class':'si_row'})
for dl in dls:
    atag = dl.find('a')
    if atag:
        author_link = atag.get('href')
        author_name = atag.get_text()
        print(author_link)
        print(author_name)

span_date = soup.find('span',{'class':'item_date'})
if span_date:
    date = span_date.get_text()
    print(date)

编辑:

为了记录在案,您的错误可能是因为您正在使用requests获取页面,并且您正在搜索的数据在ajax响应中。如果您想从脚本获得更多数据,可以查看selenium

硒文献

票数 1
EN

Stack Overflow用户

发布于 2019-03-14 11:45:15

使用selenium返回日期和作者

代码语言:javascript
运行
复制
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

url = 'https://vk.com/photo-68872445_422126739'
driver = webdriver.Chrome()
driver.get(url)
item =  WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CSS_SELECTOR, ".group_link"))).text
item2 = driver.find_element_by_css_selector('.rel_date').text
print(item, item2)
driver.quit()
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55158654

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档