首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >抓取爬行器,从字符串中移除逗号

抓取爬行器,从字符串中移除逗号
EN

Stack Overflow用户
提问于 2015-09-14 11:18:35
回答 2查看 953关注 0票数 4
代码语言:javascript
运行
复制
def parse_item(self, response):
   for jobs in response.xpath('//div[@itemtype="http://schema.org/JobPosting"]'):
    item = IndeedCoUkItem()
    item["jobtitle"] = jobs.xpath('*[@class="jobtitle"]/a//text()').extract()
    yield item

项保存到CSV文件中,

职称

高级嵌入式软件工程师

嗨,

上面是我抓取的爬虫代码的一个片段。我想要输出的是逗号和空白处。即从“高级嵌入式软件工程师”到“高级嵌入式软件工程师”。我尝试使用..extract().replace(“、”、"")之类的替换(),但是它没有起作用。有什么帮助/建议吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-09-14 11:24:50

您是否尝试打印/记录进入item['jobtitle]字段的列表?如果它是一个列表(嗯,它是一个列表),那么导出到一个CSV文件将这个列表转换为一个逗号分隔的条目。

试着查看结果并将列表加入其中:

代码语言:javascript
运行
复制
item["jobtitle"] = ' '.join(jobs.xpath('*[@class="jobtitle"]/a//text()').extract())

如果项包含额外的空格,但不是全部,则可以在元素上使用mapstrip

代码语言:javascript
运行
复制
item["jobtitle"] = ' '.join(map(unicode.strip,jobs.xpath('*[@class="jobtitle"]/a//text()').extract()))

这将在开始和结束时遍历所有元素和strip的空白空间。

或者,您可以使用normalize-space of XPath:

代码语言:javascript
运行
复制
item["jobtitle"] = ' '.join(jobs.xpath('normalize-space(*[@class="jobtitle"]/a//text())').extract())
票数 3
EN

Stack Overflow用户

发布于 2015-09-14 11:23:48

代码语言:javascript
运行
复制
item["jobtitle"] = (jobs.xpath('*[@class="jobtitle"]/a//text()').extract()).replace(',', '')
票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32563463

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档