文章/答案/技术大牛

发布

社区首页 >问答首页 >抓取爬行器，从字符串中移除逗号

问抓取爬行器，从字符串中移除逗号
EN

Stack Overflow用户

提问于 2015-09-14 11:18:35

回答 2查看 953关注 0票数 4

def parse_item(self, response):
   for jobs in response.xpath('//div[@itemtype="http://schema.org/JobPosting"]'):
    item = IndeedCoUkItem()
    item["jobtitle"] = jobs.xpath('*[@class="jobtitle"]/a//text()').extract()
    yield item

项保存到CSV文件中，

职称

高级嵌入式软件工程师

嗨,

上面是我抓取的爬虫代码的一个片段。我想要输出的是逗号和空白处。即从“高级嵌入式软件工程师”到“高级嵌入式软件工程师”。我尝试使用..extract().replace(“、”、"")之类的替换()，但是它没有起作用。有什么帮助/建议吗？

python

scrapy

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-09-14 11:24:50

您是否尝试打印/记录进入item['jobtitle]字段的列表？如果它是一个列表(嗯，它是一个列表)，那么导出到一个CSV文件将这个列表转换为一个逗号分隔的条目。

试着查看结果并将列表加入其中：

item["jobtitle"] = ' '.join(jobs.xpath('*[@class="jobtitle"]/a//text()').extract())

如果项包含额外的空格，但不是全部，则可以在元素上使用map和strip：

item["jobtitle"] = ' '.join(map(unicode.strip,jobs.xpath('*[@class="jobtitle"]/a//text()').extract()))

这将在开始和结束时遍历所有元素和strip的空白空间。

或者，您可以使用normalize-space of XPath：

item["jobtitle"] = ' '.join(jobs.xpath('normalize-space(*[@class="jobtitle"]/a//text())').extract())

票数 3

Stack Overflow用户

发布于 2015-09-14 11:23:48

item["jobtitle"] = (jobs.xpath('*[@class="jobtitle"]/a//text()').extract()).replace(',', '')

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32563463

复制

相似问题

问抓取爬行器，从字符串中移除逗号
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取爬行器，从字符串中移除逗号EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取爬行器，从字符串中移除逗号
EN