使用web抓取创建数据帧

文章/答案/技术大牛

发布

2回答

、

我正在尝试抓取一个名为WikiCFP的网站，并以数据帧的形式返回表中的信息。values= row.find_all("td") print(values[0].text.split("/n")[0]) 我特别不知道如何将每一行中的文本转换为可行的列表或其他可用于生成数据帧的内容

浏览 30提问于2021-10-25得票数 0

回答已采纳

1回答

我有一个列表，它可以帮助我在网络上搜索列表中的元素： list = ["web-page","web-page1", "web-page2"] 然后是Web抓取过程，它遍历要抓取的网页列表。我在这个过程中有代码，一个小的过程来清理每个网页的刮擦，并将这个结果连接成最终的数据帧。characteristic2], axis=1, sort=False) result2 = pd.concat([

浏览 9提问于2020-07-03得票数 0

回答已采纳

1回答

R Web抓取-数据帧

、、

我正在尝试创建一个包含以下变量的数据框架。即使在直接从HTML源代码复制选择器之后也是如此。如果操作正确，这个表应该有34行。

浏览 0提问于2018-04-16得票数 1

1回答

使用R中的url列表进行Web抓取

、、

我正在尝试从我收集的多个网站中抓取一些URL。我将已经收集的网站保存在一个名为meetings2017_2018的数据帧中。urls的第二部分保存在数据帧中。我设法创建了一个非常简单的函数，从中我可以从单个网站上拉出URL(见下文)。read_html(url) %>% html_attr("href") } 使用这个函数，我仍然需要从我想要<

浏览 21提问于2019-03-18得票数 0

回答已采纳

1回答

如何在R中创建函数来丢弃和重新创建数据帧？

我在R中有一个相当长的脚本，用于web抓取。我使用rvest函数进行抓取，使用rodbc将数据写入SQL服务器数据库。我希望我的代码在站点的面包屑中导航并将结果写入一个名为scrapeRow的矢量，然后将该矢量写入一个名为scrapeDF的单行数据帧，然后将该数据帧写入我的SQL server。最后，我想删除数据帧并重新创建一个空版本，以便写入下

浏览 1提问于2015-09-01得票数 0

2回答

如何在R中处理迭代过程中的错误问题？

、、

在下面的代码中，我想要抓取数据表并将其集成为一个数据帧。在web抓取过程中，某些地址链接不起作用，web抓取会在抓取过程中停止和结束。(错误位置: doc = read_html(i，encoding = 'UTF-8') ) 我如何继续下一步的抓取过程并完成对整个向量的迭代，而忽略错误链接？

浏览 17提问于2019-01-21得票数 0

回答已采纳

1回答

Web抓取:使用pandas更新/添加数据帧

、、、、

我正在使用python、pandas和BeautifulSoup创建一个web抓取程序。我希望它每10分钟向气象站请求一次风向信息。此数据将存储在包含72个索引(24小时)的数组中。到目前为止，我已经成功地创建了一个具有当前条件的杂乱数据帧。我有3个问题，第三个问题可能超出了我的能力范围。3:如何从数组中推送/弹出

浏览 3提问于2018-08-10得票数 0

回答已采纳

1回答

如何使用selenium从网页中获取所有可能的复选框组合

、

我正在尝试使用selenium进行web抓取，以便从this website创建一个数据集。我想要实现的是得到"pain is"，"pain located in“等的所有可能的组合，然后将结果(可能的原因)保存在一个数据帧(csv文件)中。

浏览 8提问于2021-02-03得票数 0

回答已采纳

2回答

通过xlwings将数据帧返回到excel

、、、、

我正在尝试使用Python、Xlwing库和Excel创建一个用户定义的函数。目标是使用一个函数，让我们调用ret_data_frames不仅填充A1单元格，而且填充所有需要返回整个数据帧的单元格。如上图所示：我使用的数据框是通过web抓取获得的，而且维度很大，所以我使用一个简单的数据框，如果可行，我会将这个想法替换为我的原始代码impo

浏览 0提问于2017-09-13得票数 0

1回答

使用函数从from抓取创建数据帧

、、、、

，并输出包含天气相关列的单行数据帧。response.json() weather = pd.DataFrame(weather, index=[0]) 我想遍历我的数据集(10000行)，并为每行创建一个包含所有相应天气数据的新数据集。

浏览 0提问于2020-12-30得票数 0

1回答

asp.net mvc应用程序中的网络浏览器托管问题

、

在我的Asp.Net MVC web应用程序中，我必须通过网站从站点获取数据。对于刮取数据，我需要登录到站点，然后通过单击菜单选项卡到达一个站点，然后从该页面中刮取数据。该站点的刮除包含2帧。我以前通过windows控件在我的一个windows项目中实现了web抓取。我遵循以下将web浏览器控件集成到我的web应用程序中。在visual环境下，一切都很好，我通过web浏览器抓取网站上的数据

浏览 3提问于2013-07-18得票数 6

1回答

使用Python创建数据集，抓取web

、、、、

首先，我先说我是Python新手(我使用的是Python 2)。第二个链接列稍微复杂一些。我想用"Last Statement“代替标题"Link”。然后，我想访问提供的每个链接，检索最后一条语句，并将其放在我为其创建列表的原始表的相应行中。最后，我希望将此列表打印为制表符分隔的文件，该文件可以作为数据<

浏览 0提问于2016-04-24得票数 1

2回答

通过抓取内容创建数据帧

、、

我需要创建一个显示urls和图像列表的数据集。数据集应该有两列和与链接一样多的行：从网站抓取图片的代码如下：from bs4 import BeautifulSoup list_images.append(image['src']) 为了测试代码，我使用了以下

浏览 17提问于2020-05-10得票数 0

回答已采纳

1回答

在Python中将数据从工作文件导入到Excel文件

、

我有一个很长的代码，用于web抓取数据到一个临时工作文件，然后生成一个Excel文件，这些数据将被导入其中。我想把代码分成两部分，这样如果我的工作文件已经创建好了，我就不必每次都运行网络抓取。我的当前代码行导致现有工作文件中的所有数据消失： data=eval(open('data','r',encoding='utf8').read()) 应该是这样的吗？

浏览 18提问于2020-12-22得票数 0

2回答

向DataFrame动态添加行

、、

我从web上抓取了一些数据，因此假设我需要向空的数据帧添加一个索引'2176'。当我尝试分配该行时，如何自动将该行添加到数据库中？这是熊猫的目的吗?还是我应该使用其他东西？

浏览 12提问于2017-12-30得票数 3

回答已采纳

1回答

在使用rvest进行web抓取时合并数据帧

、、

representative-mike-speedy-r- test <- lapply(test_url, function(i){ grades <- html_nodes(web, 'td') test_grades <- data.frame(one = (as.data.framecbind.fill, c(list(do.call(rbind, test)), do.call(rb

浏览 0提问于2017-07-27得票数 0

回答已采纳

2回答

Python/Pandas -跨多个页面抓取网页搜索结果

、、、

我正在和一位朋友合作，尝试将几个网页的结果放入一个数据帧(，其中的页数会增加)。我以前没有做过太多的网络抓取工作，也尝试过使用Pandas read_html和BeautifulSoup，但我找不到从哪里开始的问题。使用Pandas和web抓取库，这样的事情很容易做到吗？谢谢你的帮忙!

浏览 0提问于2017-11-22得票数 0

1回答

如何从视频中抓取一帧？

、、、

问题是，我想从使用C#上传的视频中抓取一帧。我使用了一些API，但它们只从avi、mpeg和mpg文件中抓取帧，但当客户端上传m4v、3gp、mov、m2v或mp4文件时，在web上找到的相应API不支持从这些类型的视频中检索帧。我是不是漏掉了什么，或者有没有可以从C#中的所有类型的视频中检索帧的接口。提前感谢

浏览 1提问于2011-08-13得票数 5

回答已采纳

2回答

使用网络摄像头进行人脸检测

、

我正在开发一个3d项目，并希望包括以下功能：当我的摄像头盯着我的脸时，如果我向左或向右移动，投影摄像头的位置就会向左或向右移动，以创建一种“环顾角落”的效果。

浏览 3提问于2011-03-03得票数 1

回答已采纳

2回答

从YUY2到RGB24的快速转换

、、

与几乎所有其他网络摄像头一样，我的noname提供了YUY2格式的数据(如用bmiHeader.biCompression编写的)。根据，我尝试在CPU端直接转换，但是它非常慢，而且是错误的:)。

浏览 6提问于2010-01-08得票数 0

回答已采纳

点击加载更多