在继续执行任何方案的自动化之前,请务必写下执行该方案所要执行的手动步骤。您要执行的手动步骤(我从问题中了解)是-
1)前往网站-https://services.wiltshire.gov.uk/PlanningGIS/LLPG/WeeklyList
2)选择第一周选项
3)点击搜索
4)从 每一 页获取数据
5)再次加载网址
6)选择第二周选项
7)点击搜索
8)从 每一 页获取数据
.. 等等。
您有一个循环来选择不同的星期,但在“周”选项的每个循环迭代中,还需要包括一个循环以迭代所有页面。由于您未执行此 *** 作,因此您的代码仅返回第一页中的数据。
另一个问题是您如何定位“下一步”按钮-
driver.find_element_by_xpath('//*[@id="form1"]/div[3]/a[4]').click()
您选择的第四个
<a>元素当然不可靠,因为在不同页面中,“下一步”按钮的索引将不同。而是使用更好的定位器-
driver.find_element_by_xpath("//a[contains(text(),'Next')]").click()
创建循环遍历页面的逻辑-
首先,您将需要页数。我这样做是通过将“下一步”按钮的
<a>紧挨 着的位置。根据下面的屏幕截图,很明显,此元素的文本将等于页面数-
--
我使用以下代码做到了-
number_of_pages = int(driver.find_element_by_xpath("//a[contains(text(),'Next')]/preceding-sibling::a[1]").text)
现在,一旦页面数为
number_of_pages,则只需单击“下一步”按钮的
number_of_pages - 1时间!
main
功能的最终代码-
def main(): all_data = [] select = Select(driver.find_element_by_xpath("//select[@ and @id='selWeek']")) list_options = select.options for item in range(len(list_options)): select = Select(driver.find_element_by_xpath("//select[@ and @id='selWeek']")) select.select_by_index(str(item)) driver.find_element_by_css_selector("input.formbutton#csbtnSearch").click() number_of_pages = int(driver.find_element_by_xpath("//a[contains(text(),'Next')]/preceding-sibling::a[1]").text) for j in range(number_of_pages - 1): all_data.extend(getData()) driver.find_element_by_xpath("//a[contains(text(),'Next')]").click() time.sleep(1) driver.get(url) with open( 'wiltshire.json', 'w+' ) as f: json.dump( all_data, f ) driver.quit()
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)