首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何解析HAR文件以提取文本内容?

如何解析HAR文件以提取文本内容?
EN

Stack Overflow用户
提问于 2020-06-11 01:54:16
回答 2查看 5.8K关注 0票数 1

我将我的网络数据保存在一个har文件中。现在,我希望提取包含特定单词的整个内容字典作为指示符,以便将该字典保存到一个数组中。在har文件中有多个包含该值的类似dict,我想创建一个包含所有响应的数组。

我对python(和一般的编码)还是个新手,像这样的解释会对我有很大帮助。

EN

回答 2

Stack Overflow用户

发布于 2020-06-11 02:13:15

您可以使用haralyzer模块。您可以使用pip轻松安装它,如下所示:

代码语言:javascript
运行
复制
pip install haralyzer

以下代码使用此示例har file

代码语言:javascript
运行
复制
>>> import json
>>> from haralyzer import HarParser, HarPage
>>>
>>> with open('sample.har', 'r') as f:
...     har_parser = HarParser(json.loads(f.read()))
>>>
>>> data = har_parser.har_data
>>> type(data)
<class 'dict'>
>>>
>>> data.keys()
dict_keys(['version', 'creator', 'pages', 'entries'])
>>>
>>> har_parser.har_data["pages"]
[{'startedDateTime': '2013-08-24T20:16:16.997Z', 'id': 'page_1', 'title': 'http://ericduran.github.io/chromeHAR/', 'pageTimings': {'onContentLoad': 317, 'onLoad': 406}}]

有关更多信息,请查看official GitHub repository

票数 5
EN

Stack Overflow用户

发布于 2020-09-06 00:32:35

根据Anwarvic的回答,HAR文件中具有基于文本的内容类型的条目包含密钥entry -> response -> content -> text中的实际内容。因此,这里有一个打印所有此类条目的内容的示例。

代码语言:javascript
运行
复制
.... initialize har parser as per documentation ....

for page in har_parser.pages:
    for entry in page.entries:
        # Need to be careful accessing the text property, it will not exist for non text-based responses.
        print(entry['response']['content'].get('text', ''))

在那里,您可以使用in或正则表达式来查看条目的响应文本是否与您正在查找的文本匹配。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62310007

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档