Python版的迷你程序——获取给定网页上的所有链接

工作z明英文 • 2022-12-12 • 随笔 • 阅读 15

感觉这个试过以后，那些个严禁复制网页内容的就不再是个烦恼了。每个网页右键会出现一个查看网页源代码的选项，看看都有些什么，这对于理解下面的代码是有用处的。

注意看类似这些行 https://tvm.apache.org/community>Community。代码里的find字符"a"和get的"href"方法主要作用就在这里。

直接上代码吧：

import requests as rq
from bs4 import BeautifulSoup

url = input("Enter link: ")
if ("https" or "http") in url:
    data = rq.get(url)
else:
    data = rq.get("https://" + url)

soup = BeautifulSoup(data.text, "html.parser")

saved = open("mylinks.txt", 'w')
for link in soup.find_all("a"):
    print(link.get("href"))
    saved.writelines(link.get("href"))
    saved.writelines("n")

运行示意和输出的文件

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5479532.html

网页代码给定接上用处

打赏

微信扫一扫

支付宝扫一扫

工作z明英文一级用户组

0 0

Scala-Day8

上一篇 2022-12-12

Hive 分桶

下一篇 2022-12-12

发表评论

登录后才能评论

Python版的迷你程序——获取给定网页上的所有链接

发表评论

评论列表（0条）