新手来了!我正在使用Python3.8.3,并尝试从附加的文本文件中删除标签
我想提取3个列表-标题,出版日期和文章的正文,并删除标签。在下面的代码中,我已经能够从标题和发布日期中删除标签。但是,我无法正确地删除正文中的所有标签。在文件中,正文以标记<div class="story-element story-element-text">开始,在下一个<h1类标记之前结束。
任何帮助提取这部分文本的人都将不胜感激!文章文本是非英语脚本,但所有的html标记都是英语的。
#opening text file which contains newspaper a
我有文本作为
<p>Some text to extract</p>
有没有一种方法可以在as3中获取标签之间的文本。这只是“一些要提取的文本”。
我尝试过使用正则表达式
string.match(/<p>(.*?)<\/p>/g)
但它返回的是<p>标签。
同样,还需要从以下位置提取文本:
<caption><![CDATA[<p>Some text to extract.<span> -- Span text</span></p>]]></caption
我的HTML是:
<span id="lbldiv" class="lbl" style="color:Blue;">
Division : First; Grand Total: 3861; Grand Max Total: 4600
</span>
我可以通过在span元素上使用get_text来提取文本:Division : First; Grand Total: 3861; Grand Max Total: 4600。
有没有可能只从文本中提取数字- 3861和4600,或者使用Python中的Beauti
我想使用<br>标签在html中拆分文本。如果文本长度超过50个字符,我希望将10个字符之前的最后一个空格替换为<br>。
文本为<span class="value">TEXT</span>格式
例如<span class="value">cccc cc cccccc cccc cc c</span>
将变成:<span class="value">cccc cc<br>cccccc<br>cccc cc c</span>,所
我有一个Nokogiri::XML::Element,它看起来像这样:
<div class="berg">This is some text!</div>
我想要做的就是从div (这是Nokogiri元素)中提取文本,然后用一个新标记对文本进行包装,使其看起来像这样:
<div class="berg"><span>This is some text!</span></div>
Nokogiri的.wrap函数似乎是用新的标签包装标签,而不是文本内容,我想知道你是如何包装内部标签内容的。
这是从提取一个HTML文件。
<td title="Click for match detail!" class="cell_sa score bold">4:3<br><span class="aet">(3:3)</span></td>
<td title="Click for match detail!" class="cell_sa score bold">2:5</td>
现在我想在调整时间之后提取分数
目前,我试图从'td‘元素中提取文本,但是其中有更多的元素。所以find()返回td标记中的整个文本。以下是守则:
<td class="some class">
Some text that i want<br>
<a href="some/link">some more text</a>
<span class="some other class">some more text</span>
<br>
</td>
我有一个类似于这样的html文档:,所以我需要在标记<span id="1“和</span内提取文本,但我不知道如何提取。我试着写这段代码:
from bs4 import BeautifulSoup
with open("10_01.htm") as fp:
soup = BeautifulSoup(fp,features="html.parser")
for a in soup.find_all('span'):
print (a.string)
但是它从所有的“span”标签中提取所有信息。