基于 Flask 及爬虫实现微信娱乐机器人实现笑话爬虫并自动回复_python

概述基于 Flask 及爬虫实现微信娱乐机器人 实现笑话爬虫并自动回复

一、课程介绍

目前，我们的微信公众号只支持文本接收和倒序回复，略单调。本节课将糗百网站的笑话爬取过来，自动回复给用户。因此本节首先需要实现一个爬虫，并把爬取的数据按照上一节实现的方式回复给用户。

二、实现爬虫

我们选择爬取的目标是糗事百科的纯文本内容，地址为糗事百科-纯文，下面这个是这个链接的纯文内容页面，一页共20条记录，注意中间会有一段广告:

糗事百科-纯文

然后呢，放上对应的爬虫代码，这里用到的库是 lxml，lxml 是解析 XML 的库。XML 和 HTML 是极其类似的，所以这样是可以用。

代码中的实现原理比较简单，从 URL 获取页面内容，使用 lxml 的 etree 提取页面信息，详细步骤可以见代码注释:

import requestsfrom random import randintfrom lxml import etreer = requests.get(url)tree = etree.HTML(r.text)contentList = tree.xpath('//div[contains(@ID, "qiushi_tag_")]')#匹配div的标签，如果ID中含有'qiushi_tag_'，则存入List列表中，最后返回【从该页的HTML中能拿到包含20个结果的List列表】jokes = []#最后存储结果的列表for i in contentList:#这个for循环呢，就是从每个含有笑话的代码块，提出我们需要的笑话的具体内容    content = i.xpath('div[@]/text()')    #因为content和number得到的是List列表，只含有一个元素的List列表，join提出，明白了吧    contentstring = ''.join(content)    #然后就是去掉两端的换行符，就得到了我们需要的笑话内容了    contentstring = contentstring.strip('\n')    jokes.append(contentstring)    #最后插入到jokes列表中，就得到了我们需要的笑话集合return jokes[randint(0,len(jokes))]

#最后呢返回jokes的其中一条内容，返回就可以了

爬虫抓取笑话的整个过程，就是这些，现在可以准备回复微信消息了。

回复消息的方法请参考上一节的实现内容。

三、可运行的代码

附上本节可运行代码 wechat.py，一起运行试试，运行不成功，检查错误报告，查看是否未安装需要的库。

实验楼的环境中需要安装下面的库后才可以运行:

$ sudo apt-get install python-lxml$ sudo pip install flask

详细的代码如下:

import requestsfrom random import randintfrom lxml import etreefrom flask import Flask, request, make_responseimport hashlibapp = Flask(__name__)@app.route('/shiyanlou')def hello():    return "Python Say: Hello Shiyanlou"@app.route('/',methods=['GET','POST'])def wechat_auth():    if request.method == 'GET':        print 'coming Get'        data = request.args        token = '*******************'        signature = data.get('signature','')        timestamp = data.get('timestamp','')        nonce = data.get('nonce','')        echostr = data.get('echostr','')        s = [timestamp,nonce,token]        s.sort()        s = ''.join(s)        if (hashlib.sha1(s).hexdigest() == signature):            return make_response(echostr)    if request.method == 'POST':        xml_str = request.stream.read()        xml = ET.fromstring(xml_str)        toUsername=xml.find('ToUsername').text        fromUsername = xml.find('FromUsername').text        createTime = xml.find('CreateTime').text        msgType = xml.find('MsgType').text        if msgType != 'text':            reply = '''            <xml>            <ToUsername><![cdaTA[%s]]></ToUsername>            <FromUsername><![cdaTA[%s]]></FromUsername>            <CreateTime>%s</CreateTime>            <MsgType><![cdaTA[%s]]></MsgType>            <Content><![cdaTA[%s]]></Content>            </xml>            ''' % (                fromUsername,                 toUsername,                 createTime,                 'text',                 'UnkNow Format, Please check out'                )            return reply        content = xml.find('Content').text        msgid = xml.find('Msgid').text        if u'笑话' in content:            r = requests.get(url)            tree = etree.HTML(r.text)            contentList = tree.xpath('//div[contains(@ID, "qiushi_tag_")]')            jokes = []            for i in contentList:                content = i.xpath('div[@]/text()')                contentstring = ''.join(content)                contentstring = contentstring.strip('\n')                jokes.append(contentstring)            joke =  jokes[randint(0,len(jokes))]            reply = '''                    <xml>                    <ToUsername><![cdaTA[%s]]></ToUsername>                    <FromUsername><![cdaTA[%s]]></FromUsername>                    <CreateTime>%s</CreateTime>                    <MsgType><![cdaTA[%s]]></MsgType>                    <Content><![cdaTA[%s]]></Content>                    </xml>                    ''' % (fromUsername, toUsername, createTime, msgType, joke)            return reply        else:            if type(content).__name__ == "unicode":                content = content[::-1]                content = content.encode('UTF-8')            elif type(content).__name__ == "str":                print type(content).__name__                content = content.decode('utf-8')                content = content[::-1]            reply = '''                    <xml>                    <ToUsername><![cdaTA[%s]]></ToUsername>                    <FromUsername><![cdaTA[%s]]></FromUsername>                    <CreateTime>%s</CreateTime>                    <MsgType><![cdaTA[%s]]></MsgType>                    <Content><![cdaTA[%s]]></Content>                    </xml>                    ''' % (fromUsername, content)            return replyif __name__ == "__main__":    app.run(host='0.0.0.0', port=8080)

微信公众平台的开发，已经完成

程序在实验楼中的运行截图:

shiyanlou-run

对话效果截图:

笑话，哈~哈~哈

四、总结

本次实验课，主要是对微信公众平台进行一个简单开发，并添上了逆序回复和回复笑话等功能。涉及到的知识点有 Python、flask，爬虫等知识点，较难的有第一节的服务通信、第二节的编码，第三节的正则匹配爬虫。

一个完整的项目，难得不仅仅是深度，更是广度 --Hello World

这节课只是打了个地基，房子怎么盖还是看自己的爱好，可以发挥你的想象力扩展出更有趣的功能。

总结

以上是内存溢出为你收集整理的基于 Flask 及爬虫实现微信娱乐机器人实现笑话爬虫并自动回复全部内容，希望文章能够帮你解决基于 Flask 及爬虫实现微信娱乐机器人实现笑话爬虫并自动回复所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1198441.html

基于 Flask 及爬虫实现微信娱乐机器人实现笑话爬虫并自动回复

发表评论

评论列表（0条）

基于 Flask 及爬虫实现微信娱乐机器人 实现笑话爬虫并自动回复

发表评论

评论列表（0条）

基于 Flask 及爬虫实现微信娱乐机器人实现笑话爬虫并自动回复