所以在抓取的时候,我在寻找一个元素,它是html代码中两个不同元素的组合。我正在考虑使用ItemLoaders of scrapy来消除这可能产生的丑陋代码。要达到这些元素,可以使用以下选择器:element_one = main_element.css('css_to_oneMyLoader(MyItem(), se
使用Scrapy的ItemLoader,我想解析HTML元素中的前n个字符(它将包含多个嵌入的HTML元素,每个元素可能包含或不包含构成要保留的文本的一部分的文本)。下面是一个示例设置:<div class="about-copy">
<p>Developers trust Stack Overflow to help solve cod