如何从下面给出json文件中抓取数据

文章/答案/技术大牛

发布

1回答

json、web-scraping、scrapy

我是来自redfin房地产网站的scrapign数据，其中一些数据是javascript内容，一些数据是html，这是程序import scrapyfrom scrapy.selector import Selectorimport osimport datetime= json.dumps(prop, indent = 2) print

浏览 18提问于2021-02-12得票数 0

回答已采纳

1回答

我有一个抓取蜘蛛项目，它报废了一些网站，并获取我的数据上。我的爬行器生成两个JSON文件，所有抓取的数据都存储在这两个文件中。现在，我有一个flask web服务，它使用上述两个JSON文件来满足用户的请求。我已经在heroku上部署了这个flask web服务，并且运行良好。我这里的问题是，我每天在本地机器上运行scrapy spider，然后手动更新heroku上的两个JSON文件</

浏览 1提问于2014-04-24得票数 2

2回答

如何在AWS Athena中通过Glue查询嵌套的XML文件

amazon-web-services、pyspark、etl、amazon-athena、aws-glue

我希望嵌套的XML文件使用AWS glue从AWS Athena查询。我认为我们必须在ETL工作中做一些修改。如果有其他信息，请让我知道。

浏览 1提问于2019-03-22得票数 1

2回答

正在尝试从R中的url加载数据

html、r

所以我想从这个url加载所有格式化的数据：转换成r，这样我就可以过滤掉其中的一些。一旦我得到它，我知道如何正确地过滤它，但我不能将它“注入”到R中。如果url以".txt“或".csv”结尾，我已经看到了许多拉取数据的方法，但是如果这个url不是以文件类型结尾，那么我知道如何获取它的唯一方法就是拉出html，但是我得到...所有的html。有几种选择可以将文件下载为.csv并以这种方式注入它，但如果我做得足够好，我觉得我应该知道如何</em

浏览 3提问于2016-04-07得票数 0

1回答

如何从数据库中检索数据并将其放入javascript代码中使用maps api进行处理？

javascript、php、database

嘿，我有纬度和经度数据，我可以把这些数据放到数据库中，然后放到javascript代码中，用map api处理吗？下面是我想要更改数据库中的“纬度和经度”的javascript代码 <script type='text/javascript'> var

浏览 12提问于2021-09-25得票数 -1

回答已采纳

1回答

如何从javascript文件运行我的纯python (.py)文件

javascript、python、selenium-chromedriver

我正在创建一个网站，从一个网站抓取数据，并在我的网站上显示该数据。我使用selenium进行抓取，这完全是用python编写的，它可以将抓取的数据转换为JSON。我使用Javascript从JSON获取数据并将其显示在HTML中。现在我想问两件事。首先，如何通过虚拟主机在web浏览器中运行python文件。其次，我想要的是每天我的Javasc

浏览 147提问于2021-01-03得票数 0

1回答

在rails中更新页面，而无需持续刷新

ruby-on-rails-3、model-view-controller、jquery

我想用我编写的erb.html抓取脚本中的信息更新rails中的new页面，但我不希望每次有新信息进入时页面都要刷新。我该怎么做呢？

浏览 0提问于2012-06-15得票数 2

回答已采纳

2回答

用精美的汤抓取数据

html、python-3.x、web、web-scraping、beautifulsoup

我对抓取数据还是个新手。我在试着刮擦来自网站的三个详细信息- a。日期b。客户数量c。我想简单地获取上周的这些(历史数据)

浏览 28提问于2020-08-15得票数 0

回答已采纳

2回答

通过幻影和casperjs将刮过的数据保存到mysql数据库

web-scraping、phantomjs、casperjs

现在我已经成功地安装了webkit，可以从任何网站刮取数据，但是我无法将数据保存到数据库中以供长期使用。简单地说，供以后使用。我想要做的是，不管我刮了什么数据，我都想把它保存到mySql数据库中。我尝试过发送Ajax请求将数据发送到数据库，但失败了。例如，我想出了另一个解决方案，即当我从指定的网站抓取数据时，我将数据推送到一个名为data[]的

浏览 1提问于2018-04-02得票数 0

回答已采纳

1回答

无法通过react JS从laravel api获取数据-状态为419 (未知状态)，邮递员正在工作

reactjs、laravel、laravel-api

我正在尝试通过获取数据从laravel api获取数据。在邮递员中，它甚至在授权的情况下也能与圣殿一起工作。当我使用post方法获取时，它给出了：Route::post('/posts', [PostController::class, '

浏览 31提问于2021-04-17得票数 0

1回答

有没有办法从网站的HTML中创建一个包含所有属性的数组？

javascript、html、jquery、json、attributes

我查看了这种类型的数据，并看到了以下代码：{"@context":"http://schema.org","@type":"ItemList{"@type":"Movie","name":"Red Notice","url":"https:

浏览 14提问于2022-04-17得票数 0

1回答

在Scrapy中，如果字符串长度非常长，extract_first()不会返回完整的文本

python、json、scrapy

我正在抓取一个网站使用Scrapy返回字符串格式的json类型的文件。当我使用下面的选择器时，我在列表中得到了预期的完整数据。response.xpath('//p/text()').extract() 该列表中的数据是一个类似json的字符串，我需要将其转换为使用json.loads()的字典但是当我使用下面的选择器来获取列表中出现的类似<em

浏览 26提问于2019-02-28得票数 1

回答已采纳

1回答

如何将Python输出从for循环写入文件？

python、instagram

我正在使用Instaloader软件包从Instagram中抓取一些数据。我首先尝试将循环输出追加到一个列表中，但该列表为空。我输出到文件的努力也没有成功。import instaloader import json</

浏览 1提问于2020-01-15得票数 0

1回答

处理大型json文件

python、ruby、database、json

我有一个大的json文件，来自我已经做了一段时间的网络抓取项目。现在，我正在尝试使用JSON数据构建一个web前端。不过，我很难找到建造它的最佳方法。: "http://example.com/blahblah", } json文件将被添加到加班费中，那么最好的解决方

浏览 5提问于2013-07-11得票数 1

回答已采纳

2回答

FormRecognizer C# SDK不返回所有数据，将动态表视为文档字段。

microsoft-cognitive、azure-cognitive-services、azure-form-recognizer

我创建了一个自定义模型，它在表单Recognizer中工作得很好，在"Document“下的JSON输出中，它给出了I标记的字段的所有数据点，以及表I标记的动态类型的所有数据点。await operation.WaitForCompletionAsync(); AnalyzeResult result

浏览 11提问于2022-05-18得票数 0

3回答

如何使用nltk正则表达式从twitter获取流数据

python、json、stream、twitter、nltk

我是Python的新手，我的老板给了我一个任务来完成这个任务：你的帮助将非常感激:)

浏览 2提问于2011-07-28得票数 1

1回答

用BeautifulSoup实现Web抓取DOI

python、beautifulsoup

我目前正在做一个关于网络抓取的项目，我需要从谷歌学者的记录中获得信息。我需要提取文章的DOI，相应的HTML页面如下所示。我不能用函数来提取它page.find_all("span", "data-v-d3a5356a") 如何提取字符串

浏览 4提问于2021-11-19得票数 0

1回答

通过Scrapy存储抓取的数据

python、json、scrapy

如何在一个文件中存储整个抓取的数据？例如:抓取的数据是[u\ 7564.2021]，但存储在json文件中的数据只有[ 哪里出了问题？

浏览 0提问于2011-12-19得票数 1

4回答

在批处理文件中使用scrapy crawl命令时继续批处理脚本命令

python、batch-file、scrapy

我使用scrapy从网页抓取信息。我已经写了爬虫代码，它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。总而言之，我有一个批处理文件，我首先在其中使用"Scrapy Crawl“命令，然后运行我的python文件来优化抓取的信息。问题是，批处理脚本在"Scrapy Crawl“命令的末尾停止，并且不会继续执行批处理文件中后面的行。我该如何解决这个问题？批处理<e

浏览 1提问于2013-05-09得票数 1

回答已采纳

1回答

即使存在(div = "pendingcasescnts ng-scope")元素，BeautifulSoup仍不返回任何内容。

python、html、python-3.x、web-scraping、beautifulsoup

我正在尝试从"Div“multiCLass站点：中刮取文本。它无法找到div元素？

浏览 1提问于2018-10-30得票数 1

回答已采纳

点击加载更多