我一直在努力从新闻网站上抓取新闻标题。为此,我遇到了两个python库,即“报纸”和“beautifulsoup4”。使用美丽的汤库,我已经能够从一个特定的新闻网站获得所有的链接,导致新闻文章。从下面的代码中,我能够从一个链接中提取新闻文章的标题。-16-for-classes-9-12-news-agency-pti-2324199"article.download()
arti
我有一个本地语言新闻报纸的html文件,我想收集所有在新闻报纸上只有本地语言的单词。我在html文件中观察到,本地语言中的所有单词都在类字段内容的div元素下,所以我选择了它的元素来获取数据,但是div元素也包含类似于本地语言单词存在的元素。<div class = "field-content"></div>
因此,如何从html文件中只获取本地语言的单词。