我刚刚为大学写了一个程序,使用pandas来组织一些非结构化数据。我确实让它变得更难了,但我最终找到了一些有趣的东西。
下面是我解析的数据
Center/Daycare
825 23rd Street South
Arlington, VA 22202
703-979-BABY (2229)
22.
Maria Teresa Desaba, Owner/Director; Tony Saba, Org. >Director.
Website: www.mariateresasbabies.com
Serving children 6 wks to 5yrs full-time.
Nat
有没有办法弄清楚当前页面的主机名的顶级域名是什么?我遇到的问题是脚本可能在.com域中,也可能在像.co.uk这样的国际域中
所以: jobs.telegraph.co.uk - top domain is:telegraph.co.uk jobs.nytimes.com - top domain is nytimes.com
问题是location.hostname和document.domain提供了整个域。
一种方法是拥有所有TLD的列表(太多了,不能随身携带),并基于此进行解析。另一条路线是如果最后两个字符在最后一个".“之后,那么国际化-因此最后两个是TLD,但这并不适用于所