我有这个数据,我想在一个单独的列中提取城市。您还可以看到,格式不一样,城市可以在行的任何位置。如何仅提取新列的城市?提示符。这里我们讨论的是德国城市。可以找到一本字典,它显示了所有的德国城市,并以某种方式与我的数据集进行了比较。
这是德国城市词典:https://gist.github.com/embayer/772c442419999fa52ca1
Dataframe
Adresse
0 Karlstr 10, 10 B, 30,; 04916 Hamburg
1 München Dorfstr. 28-55, 22555
2 Marnstraße. Berlin 12, 45666 Berlin
3 Musterstr, 24855 Dresden
... ...
850 Muster Hausweg 11, Hannover, 56668
851 Mariestr. 4, 48669 Nürnberg
852 Hilden Weederstr 33-55, 56889
853 Pt-gaanen-Str. 2, 45883 Potsdam输出
Cities
0 Hamburg
1 München
2 Berlin
3 Dresden
... ...
850 Hannover
851 Nürnberg
852 Hilden
853 Potsdam发布于 2022-11-01 12:36:41
您可以在列表中从您提供的字典中提取所有城市(我假设它是'stadt‘key ),然后在您的专栏中使用str.findall:
cities_ = [cities[n]['stadt'] for n in range(0,len(cities))]
df.Adresse.str.findall(r'|'.join(cities_))
>>>
0 [Karlstr, Hamburg]
1 []
2 []
3 []
4 []
5 []
6 []
7 []
8 []
Name: Adresse, dtype: object发布于 2022-11-01 12:45:45
您可以简单地使用str.extract,因为所有的名称都在两颗星之间。
df["cities"] = df["Adress"].str.extract(r'\*\*(\w+)\*\*')因为你的文件中似乎没有星星,所以你可以采取不同的做法。
从链接的文件中使用名为cities的城市字典,但只保留城市的唯一序列(称为set)。
german_cities = set(map(lambda x: x['stadt'], cities))然后,我们将拆分每行的地址字符串,并在德国城市词典中查找。
由于应用的第一个论点是系列本身,我们只需要告诉它看一看德国的城市。
def lookup_cities(string, cities):
splits = string.replace(",", "").split(" ")
for s in splits:
if s in cities:
return s
return "NaN"
df["Adress"].apply(lookup_cities, args=(german_cities,))现在,如果您找到了任何"NaN",那么要么是文档中的一个城市有一个错误,要么是几种编写它的方法,您将不得不自己进行调查。
P.S:我必须删除城市文件中的所有空格,否则名字就不匹配了。这只是我的编辑中使用查找和替换所有内容的问题。
发布于 2022-11-01 12:36:14
可以使用正则表达式提取城市名称,因为它们是由**指示的。
import re
import pandas
df = pd.DataFrame({"Adresse": ["Karlstr 10, 10 B, 30,; 04916 **Hamburg**", "**München** Dorfstr. 28-55, 22555", "Marnstraße. Berlin 12, 45666 **Berlin**", "Musterstr, 24855 **Dresden**"]})
df['Cities'] = [re.findall(r".*\*\*(.*)\*\*", address)[0] for address in df['Adresse']]这导致:
df
Adresse Cities
0 Karlstr 10, 10 B, 30,; 04916 **Hamburg** Hamburg
1 **München** Dorfstr. 28-55, 22555 München
2 Marnstraße. Berlin 12, 45666 **Berlin** Berlin
3 Musterstr, 24855 **Dresden** Dresdenhttps://stackoverflow.com/questions/74275857
复制相似问题