这是我在这个页面上的第一个问题。
我有一个列表,它可以帮助我在网络上搜索列表中的元素:
list = ["web-page","web-page1", "web-page2"]然后是Web抓取过程,它遍历要抓取的网页列表。我在这个过程中有代码,一个小的过程来清理每个网页的刮擦,并将这个结果连接成最终的数据帧。
result = pd.concat([characteristic1, characteristic2], axis=1, sort=False)
result2 = pd.concat([result, characteristic3], axis=1, sort=False)现在我想创建一个最终的DataFrame,与它抓取的网页同名(例如" web-page "),但我不知道该怎么做。
df = pd.concat([result2, characteristic4], axis=1, sort=False)这将只给出我抓取的最后一个网页的结果,因为for循环迭代并擦除"df“变量。如何为每个web创建最终的数据帧?提前感谢!
发布于 2020-07-03 23:45:12
您可以创建一个字典来存储结果。
result = {}
# In the loop
result[pagename] = df或者,您可以将它们放在列表中
result = []
# In the loop
result.append(df)https://stackoverflow.com/questions/62718623
复制相似问题