请原谅我的错误,如有任何疑问,请添加评论
我试着刮掉包含在h2和粗体标记中的数据,从不同的博客通过regex从一个数字开始,但是我只是从句子的单词开始,而不是使用这个正则表达式来获得完整的标题。
response.css('h2::text').re(r'\d+\.\s*\w+')
我不知道我哪里错了。预期的输出应该类似于
the desired output is: [1. Golgappa at Chawla's and Nand's,2. Pyaaz
Kachori at Rawat Mishthan Bhandar,2. Pyaa