我运行的基本代码有一些问题:我想在字符串数组( string array,ppn_list)中附加一些从DataFrame (affs_til_temp.parent_preferred_name)派生的术语。以下是代码:
ppn_list = []
for i in range(15):
word_ppn = affs_til_temp.parent_preferred_name[i]
if word_ppn != None:
for j in ppn_list:
if not re.search(j,word_ppn):
ppn_list.ap
对特定模式尽量避免硬编码规则。
目前,我正在从事一个类似的项目,如AWS,。我成功地从文件中提取数据,但以一种非结构化的方式。现在,我正试图找出,并且以最好的方式,如何从这些信息中获取现有的键值对。
例如,我们有一个这样的文本:
在这份文件中,我们会发现像id :1这样的不同的键和价值观,以及那个国家:没有具体标点符号的法国,并且很可能谈论我的健康状况有多好……
提取结果应该是这样的:
id : 1
country : France
health : good
我真正知道的是,Amazon使用一个“信任”变量从这种场景中提取信息,我猜这涉及到一些机器学习算法。在我的例子中,我没有那么大
我试图创建一个数据库的3大洲(非洲,亚洲和欧洲),不同数量的国家从每个国家和不同数量的语言在每个国家使用。例如,
Continent-Country-Language
Africa - Egypt - Arabic
Africa - Egypt - English
Africa - Somalia - English
Asia - China - English
Asia - China - Mandarin
Asia - China - Cantonese
Asia - Japan - japanese
Asia - Iraq - Arabic
Europe - Germany - Germ
我有一个不同类别的数据库。对于每个类别,我有三个数量,我想从每个类别中提取一个包含第25大值的行(可以安全地忽略领带)。
例如,我可能有一个数据库,其行是来自几个国家之一的城镇或城市。这些类别是国家,数量可能是人口、土地面积和纬度。然后,这些数据将类似于:
TownName Country Population LandArea Latitude
Paris France 500,715 47.9 45.76
Manchester USA 110,229 90.6 42.99
Cal
我有一个数据框架,我想对column1的信息进行迭代,将其分为三类(国家实验室、私人实验室、机构实验室),它们将被添加到另一个column.Column1上(例如):
实验室
-PRIV LAB1
-ARKANSAS
-CDC实验室
-PRINCETON
-LAB
-PRIV实验室2
-FLORIDA
等等..。
我的代码(至少相关部分)如下:
laborat=cov["LABORA"] #cov is my df, and LABORA the column im interested in
cond1=laborat.str.contains("PRIV