需要稍微更正你的代码。由于你已经选择了表中的所有元素,因此无需再次指向表。因此,你可以将xpath缩短为此类
td[1]//text()。
def parse_products(self, response): products = response.xpath('//*[@id="Year1"]/table//tr') # ignore the table header row for product in products[1:] item = Schooldates1Item() item['hol'] = product.xpath('td[1]//text()').extract_first() item['first'] = product.xpath('td[2]//text()').extract_first() item['last'] = product.xpath('td[3]//text()').extract_first() yield item
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)