下面的代码完美地从this website中抓取数据,除了一些记录包含在损坏的HTML中或包含在不同的标记中。此外,一些名称的首字母未显示,例如this page上的Cyclect电气工程有限公司,我如何修复此问题才能使所有名称正确显示:- import requests
from bs4 import BeautifulSoup
import re
urls = []
for i in range(14,25):
pages = "http://www.asmi.com/index.cfm?GPID={0}".format(i)
urls.append(
我有一个类似的清单:
['Security Name % to Net Assets* Assets* DEBENtURES 0.04 Britannia Industries Ltd. 0.04 Britannia Industries Ltd. 0.04 EQUity & EQUity RELAtED 96.83 EQUity & EQUity RELAtED 96.83 HDFC Ban
k Ltd. 6.98 HDFC Bank Ltd. 6.98 ICICI Bank Ltd. 4.82 ICICI Bank Ltd. 4.82 Infosys Ltd. 4.
我有一个用例,其中必须突出显示PDF文档中的表,然后使用python提取突出显示的部分。一旦突出显示,我必须将提取的部分转换为dataframe,以便dataframe应该如下所示:
name | value
apple inc 0.84
google inc 0.95
我实现了一个逻辑,从PDF中提取突出显示的文本。我可以提取它,但是突出显示的部分在我的列表中出现了两次,如果我在每个空格后面添加一个逗号,我倾向于为例如:- Apple,Google .是苹果公司,Google,这是我不想要的公司名称。下面是相同的代码:
from typing import Lis