在我的爬虫的一部分,我需要刮出版的时间和日期的日期时间格式的youtube视频。我正在使用bs4,到目前为止,我可以得到发布的时间格式,就像YT向我们展示的那样,即“发布在2017年5月6日”。但我无法拿回实际的约会时间。我该怎么做?
我的代码:
video_obj["date_published"] = video_soup.find("strong", attrs={"class": "watch-time-text"}).text
return video_obj["date_published"]
输出:
Published on Feb 8, 2020
我想要的方式:
YYYY-MM-DD HH:MM:SS
发布于 2020-02-09 07:42:52
一旦你得到:
Published on Feb 8, 2020
您可以执行以下操作以删除“已发布的”
date_string = soup_string.strip("Published on")
要以YYYY DD:MM:SS的格式获得此信息,您可以在python中使用库。您可以使用以下方法安装它:
pip install python-dateutil
代码:
from dateutil import parser
formatted_date = parser.parse("Published on Feb 8, 2020", fuzzy=True)
这将在:MM:SS中输出日期。
发布于 2020-02-09 07:54:26
您可以使用蟒蛇日期时间解析字符串并格式化输出。
pubstring = video_obj["date_published"] # "Published on Feb 8, 2020"
# pubstring[:13] cuts of first 13 chars
dt = datetime.datetime.strptime(pubstring[13:], "%b %d, %Y")
return dt.strftime("%F") # Format as needed
https://stackoverflow.com/questions/60133764
复制相似问题