如何在bs4中制作熊猫DataFrame时跳过列？

在使用BeautifulSoup（bs4）解析HTML并制作DataFrame时，如果你想要跳过某些列，可以在解析HTML并提取数据后，在创建DataFrame时指定需要的列。以下是一个简单的示例，展示如何使用Python的pandas库来创建一个DataFrame，并跳过不需要的列。

首先，确保你已经安装了必要的库：

pip install beautifulsoup4 pandas

然后，你可以使用以下代码来解析HTML并创建DataFrame，同时跳过不需要的列：

from bs4 import BeautifulSoup
import pandas as pd

# 假设html_doc是你要解析的HTML字符串
html_doc = """
<table>
    <tr>
        <th>姓名</th>
        <th>年龄</th>
        <th>城市</th>
        <th>职业</th>
    </tr>
    <tr>
        <td>张三</td>
        <td>28</td>
        <td>北京</td>
        <td>工程师</td>
    </tr>
    <tr>
        <td>李四</td>
        <td>35</td>
        <td>上海</td>
        <td>医生</td>
    </tr>
</table>
"""

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_doc, 'html.parser')

# 找到所有的表格行
rows = soup.find_all('tr')

# 提取表头
headers = [header.get_text() for header in rows[0].find_all('th')]

# 提取数据行
data = []
for row in rows[1:]:
    cols = row.find_all('td')
    cols = [ele.text.strip() for ele in cols]
    data.append([ele for i, ele in enumerate(cols) if i not in [1, 3]])  # 跳过年龄和职业列

# 创建DataFrame
df = pd.DataFrame(data, columns=[header for i, header in enumerate(headers) if i not in [1, 3]])  # 跳过年龄和职业列

print(df)

在这个例子中，我们跳过了“年龄”和“职业”这两列。data.append([ele for i, ele in enumerate(cols) if i not in [1, 3]])这行代码是关键，它通过列表推导式来排除索引为1和3的列（即“年龄”和“职业”列）。同样地，在创建DataFrame时，我们也只包含了需要的列。

如果你在使用bs4和pandas时遇到任何问题，可以参考以下资源：