使用Python和beautifulSoup从XML输出创建多个txt文件

文章/答案/技术大牛

发布

1回答

、

我有一个XML页面，我想把它分成几个部分，然后把每个部分的文本分成一个.txt文件，保存的名称从001开始，一直到099。例如，我希望在名为001的文件中包含Section1的所有内容，在名为002的文件中包含Section2的所有内容，依此类推。= urllib.request.urlopen('https://www.govinfo.gov/bulkdata/CFR/2018/title-49/CFR-2

浏览 24提问于2019-02-11得票数 0

2回答

如何创建一个循环来遍历URL列表，抓取所有的数据。类似页面的所有URL都保存在一个file.txt中(一行中的每个URL)？

、、、

我想从具有相似页面结构的多个页面中提取一些信息。页面的所有URL都保存在一个file.txt中(一行中的每个URL)。我已经创建了代码来从一个链接中抓取所有数据(它可以工作)。但我不知道如何创建一个循环来遍历txt文件中的所有URL列表，并刮取所有数据。from bs4 import BeautifulSoupimport requests import pandas as pd\Pytho

浏览 8提问于2021-10-06得票数 1

回答已采纳

0回答

使用Python和BeautifulSoup从XML文件创建字典

、、

请原谅我对Python的初学知识。我需要使用BeautifulSoup遍历XML文件中的某个元素。我正在尝试从一个天气网站创建的XML文件中获取信息，现在我正像这样保存XML； url = "http://api.met.no/weatherapi/locationforecast我需要创建一个符号id的图，以及它在整个

浏览 3提问于2016-12-29得票数 1

回答已采纳

3回答

xml定义中的Python双问号

、、、

问题是，当我用BeautifulSoup文件的内容初始化.xhtml时，xml在它的末尾得到两个问号。Edit1:，为什么否决？ <?xml version="1.0" encoding="UTF-8"??>>>>

浏览 9提问于2012-04-18得票数 0

回答已采纳

1回答

迭代Python-bs4中的URL列表

、、、

我有一个.txt文件(名为test_1.txt)，格式如下：如果您转到上面的链接之一，您将看到XML中的输出。我也能做到这一点，准确地打印我需要的数据时，每次只

浏览 6提问于2014-03-16得票数 1

回答已采纳

1回答

运行python脚本并输出到txt以获取URL列表

我有一个用于抓取的python脚本--一些URL。URL位于txt文件中的列表中。python脚本(只有相关部分)如下：from bs4 import BeautifulSoupprint urlprint descriptionprint director 我想对

浏览 0提问于2019-03-28得票数 1

2回答

如何使用python在xml中找到特定标记elemnet的值？

、

我试图解析从RESTful接口接收到的xml数据。在错误情况下(当查询没有在服务器上产生任何结果时)，将返回以下文本。现在，我想解析这个字符串以搜索第五行中的status值，例如下面给出的示例。xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="/3.0/style/exchange.xsl"?b

浏览 9提问于2013-12-16得票数 0

回答已采纳

4回答

将HTML标记替换为另一个并保留文本的AWK

、、

我有一个很大的HTML文件，其中包含：我想将<span>标记替换为<strong>标记： <strong我不是在寻找HTML处理器，因为输入是一个文本文件，其中包含一些HTML代码(不是一个干净的/有效的HTML)，我正在手动处理输出(复制、修改、使用它的最后位置)。我只想省点时间换新的。

浏览 8提问于2022-01-20得票数 0

回答已采纳

2回答

如何向heroku节点服务器添加python依赖项？

、、、

我已经将python和节点构建包添加到我的项目中，我已经创建了一个虚拟环境并成功地安装了requirements.txt，但是我继续获得模块未找到的错误。requirements.txt：报告说，这些要求已经得到满足。(from -r requirements.txt (line 1)) Requirement already satisfied (use --upgrade to upgrade):

浏览 3提问于2017-03-10得票数 9

2回答

BeautifulSoup打印多个标签/属性

、、、

首先，这是我在Python上的第一次尝试，到目前为止，它看起来很容易使用，尽管我仍然遇到了一个问题。我正在尝试将xml文件更改为rss-XML，原始xml源代码如下所示：它最终看起来是这样的： <item&g

浏览 2提问于2011-05-17得票数 0

回答已采纳

1回答

如何修改Python代码以将多个相邻的"Location“标记打印到单行输出

、

我是python新手，我正在尝试使用以下代码将.xml文件中标识为位置的所有标记打印到.txt文件： output = '&#x

浏览 0提问于2012-10-08得票数 1

回答已采纳

1回答

加载大型XML文件并处理MemoryError

、、、

我有一个非常大的XML文件(确切地说是20 it，是的，我需要所有的文件)。当我尝试加载该文件时，收到以下错误：*** error()这是我用来读取XML文件的当前代码：xml = open(&#

浏览 0提问于2013-02-18得票数 13

回答已采纳

2回答

使用Python/BeautifulSoup遍历.txt文件中的多个URL

、

我正在尝试创建一个脚本，该脚本获取包含多行YouTube用户名的.txt文件，将其附加到YouTube用户主页URL，然后遍历以获取配置文件数据。下面的代码给了我想要的一个用户的信息，但是我不知道从哪里开始导入和迭代多个URL。# -- coding: utf-8 --import re impor

浏览 0提问于2012-04-09得票数 1

回答已采纳

1回答

将多个html文件中的RegEx结果写入.txt外部文件

、

我很难将从多个html文件(非英文文本)获得的RegEx结果写入.txt外部文件。它将它们作为几个字符串输出到屏幕上的新行中，但当我试图将其写入一个外部文件时，它只编写一个随机字符串。我的代码如下所示:请帮助我如何从大约100个文件中将所有字符串写入到外部文件中？from bs4 import BeautifulSoupimport stringimport os te

浏览 6提问于2017-02-09得票数 1

回答已采纳

2回答

如何从html文件中删除所有不必要的标签和符号？

、、、、

我正在尝试使用Python的BeautifulSoup或HTMLParser从美国证券交易委员会的EDGAR系统上的10-K报告(例如公司的代理报告)中提取“唯一”文本信息。然而，我使用的解析器似乎不能很好地处理‘txt’格式的文件，包括很大一部分毫无意义的符号和标签以及一些xbrl信息，这些信息根本不是必需的。"""for Python 3, from urllib.request import url

浏览 2提问于2017-05-09得票数 2

1回答

从Python中提取nct_id、PubMed和发布类型

、、、

从这样的xml文件中，我尝试提取pmid、nct_id和发布类型。四个示例文件是，一个是NCT_ID。D016428">Journal Article</PublicationType>理想情况下，我希望有一个pd数据文件article NCT030707823

浏览 16提问于2021-12-21得票数 0

回答已采纳

1回答

对漂亮的汤对象使用diff

、、

我试图比较两个XML文件中一个特定标记的所有实例的文本。我使用的OCR引擎输出一个带有标记<OCRCharacters>...</OCRCharacters>中所有ocr字符的xml文件。我使用python2.7.11和漂亮的汤4 (bs4)。在终端中，我使用两个xml文件名作为参数调用python程序。我使用$

浏览 1提问于2016-02-29得票数 2

回答已采纳

2回答

如何解析保存为文本的html代码？

、、、

我有多个.txt文件包含.txt代码(来自网页的HTML被复制并保存为.txt)。谢谢你的帮助。

浏览 0提问于2018-08-01得票数 0

回答已采纳

2回答

有办法用漂亮的汤写html文件吗？我尝试了一个xml文件，它运行得非常好。

、、

输入:我对BeautifulSoup有基本的了解，我部署了代码并创建了一个.xml文件，但是现在我想要一个使用BeautifulSoup的.html文件。是否有一种方法可以使用BeautifulSoup和Python来部署代码以生成以下输出？

浏览 2提问于2012-04-01得票数 0

1回答

如何在处理bs4和请求后正确打印unicode文本？

、、、、

我正在尝试创建一个txt单个文件，其中包含了Torah的整个文本。我能在谷歌上找到的最好的来源是：。import requests url = 'http://www.mechon-mamre.org/i/t/t01

浏览 2提问于2013-09-17得票数 4

回答已采纳

点击加载更多