首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何使用python提取html数据?

如何使用python提取html数据?
EN

Stack Overflow用户
提问于 2018-05-28 09:03:35
回答 1查看 42关注 0票数 -1
代码语言:javascript
复制
    <td><img src="/images/cflags/png/id1.png" alt="Indonesia" title="Indonesia"></td>
                                <td></td>
                                <td>link.here/python.php
                                </td>
                                <td>Linux</td>
<td><img src="/images/cflags/png/id2.png" alt="Indonesia" title="Indonesia"></td>
                            <td></td>
                            <td>link2.here/python.php
                            </td>
                            <td>Linux</td>
<td><img src="/images/cflags/png/id3.png" alt="Indonesia" title="Indonesia"></td>
                            <td></td>
                            <td>link3.here/python.php
                            </td>
                            <td>Linux</td>

这是一个代码的例子,我想用python在上面提取链接,有人能帮我吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-05-28 09:16:04

您可以使用BeautifulSoup

如果你所有的链接都以php结尾,你可以这样做:

代码语言:javascript
复制
>>> from bs4 import BeautifulSoup
>>> text = '''<td><img src="/images/cflags/png/id1.png" alt="Indonesia" title="Indonesia"></td>
...                                 <td></td>
...                                 <td>link.here/python.php
...                                 </td>
...                                 <td>Linux</td>
... <td><img src="/images/cflags/png/id2.png" alt="Indonesia" title="Indonesia"></td>
...                             <td></td>
...                             <td>link2.here/python.php
...                             </td>
...                             <td>Linux</td>
... <td><img src="/images/cflags/png/id3.png" alt="Indonesia" title="Indonesia"></td>
...                             <td></td>
...                             <td>link3.here/python.php
...                             </td>
...                             <td>Linux</td>'''
>>> soup = BeautifulSoup(text, 'html.parser')
>>> [url.text.strip() for url in soup.find_all('td') if url.text.strip().endswith('php')]
['link.here/python.php', 'link2.here/python.php', 'link3.here/python.php']
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50557914

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档