相信每一个学过编程的人对Hello World这两个单词都不陌生,根据百度百科的解释,因为 The C Programming Language 中使用它做为第一个演示程序,非常著名,所以后来的程序员在学习编程或进行设备调试时延续了这一习惯。所以学习python理所当然也要从打印Hello World开始。
第一步,下载安装python,Welcome to Python.orgWelcome to Python.orgWelcome to Python.org
比起Java还需要配置环境变量,python只需要从官网下载好安装包以后直接安装就可以了,非常方便。然后按win+R打开cmd输入python
如果出现这些字符并进入python的终端即安装成功了,然后敲上我们的第一行代码, print("Hello World")打印Hello World并给我们带来好运(●ˇ∀ˇ●)。
第二步,安装PyCharm
对于编程来说,使用一个好的编辑器可以说的上事半功倍。
比如Java,记得刚开始学Java的时候,也是要从打印Hello World开始。那个时候使用的ide是MyEclipse,虽然功能也很强大,但是由于出版的时间太久了,体验度跟现在的idea比起来完全不是一个档次。运行一行终端打印的代码,还需要先在编辑器里配置一些东西,
然后是public static void main(String[] args){ System.out.println("Hello World!"); },虽然这些都是固定的模板代码,但仍然使人懊恼。我就想入门了解一下这门编程语言打印一行英文而已,为什么要这么麻烦。
现在使用idea的就方便快捷多了,直接输入main,然后按alt+回车就能生成public static void main(String[] args){ },然后在大括号里面输入sout按alt+回车就可以生成System.out.println();
非常好用。
PyCharm打印Hello World!就更简单了,输入好print("Hello World!")以后,点击右上方的运行按钮,就可以在下面的控制台看到输出语句了。
第三步,写一个简单的爬虫例子
import re import parsel from urllib import request url = "https://www.phei.com.cn/xwzx/2021-06-04/1122.shtml" with request.urlopen(url) as req: text = req.read().decode("utf8") title = re.search("(.*) ", text).group(1) sel = parsel.Selector(text) content = "n".join(sel.css(".news_content p::text").extract()) with open("about.txt", "a") as file: file.write(title) file.write("n") file.write(content)
要使用爬虫,首先得类似Java导入依赖包。
第一个re是一个正则表达式库,主要是用来从爬取的html源码里快速解析出我们想要的内容。
第二个parsel模块主要用来将请求后的字符串格式,解析成re,xpath,css进行内容的匹配。
第三个request模块是用来向我们的目标网站发送http请求。
这个例子以某个新闻资讯页面为例,演示了爬虫从发送请求,解析html页面源码,保存数据文件。
网站原页面内容:
程序爬取的内容:
只需要简简单单15行代码就完成了一个简单的爬虫,如果没有意外运行完程序以后就会在项目的路径下面生成一个about.txt文件,然后里面的内容就是上图所示了。
好了,第一章简单的python教程就完成了,本人也是刚开始学习python。写的第一篇文章如有出错,还请多多指教。共勉。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)