感觉这个试过以后,那些个严禁复制网页内容的就不再是个烦恼了。每个网页右键会出现一个查看网页源代码的选项,看看都有些什么,这对于理解下面的代码是有用处的。
注意看类似这些行 https://tvm.apache.org/community>Community。代码里的find字符"a"和get的"href"方法主要作用就在这里。
直接上代码吧:
import requests as rq from bs4 import BeautifulSoup url = input("Enter link: ") if ("https" or "http") in url: data = rq.get(url) else: data = rq.get("https://" + url) soup = BeautifulSoup(data.text, "html.parser") saved = open("mylinks.txt", 'w') for link in soup.find_all("a"): print(link.get("href")) saved.writelines(link.get("href")) saved.writelines("n")
运行示意和输出的文件
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)