流程
首先,带着大家捋一遍流程:
first:将手机屏幕投影到电脑上,或者开启模拟器,在电脑上,将问题和答案截图
second:进行图像识别,将问题和答案转换成文字
third:百度搜索问题和答案并爬取数据
fourth:进行数据分析,给出答案
投影/模拟器
本人使用的iphone和Mac进行投影,只需要通过quickTime即可。
如果是安卓机,你也可以使用vysor
如果不想投影的小伙伴可以下载夜神模拟器或者Genymotion模拟器。
ok,这一步太简单了,就不多说了。
图像识别
其实我的上一篇文章就是为了这一篇做铺垫,我在python人工智能-图像识别文章中已经详细介绍了如何通过PIL截取图片,并通过pytesseract进行文字识别。这里我就不详细讲述了,同学们可以看上一篇。
这里直接上代码:
这里我们使用,因为我们这里问题和答案相当于一个文本列.
例如下列问题:
通过上面的代码,我们会先获得到问题和答案的截图:
然后通过下面的代码识别图中的文字,并保存到变量中,后面会用到:
运行后
这下我们的到来问题和答案,接下来就去搜索答案,由于我门没有强大的后台,所以只能自己去百度爬取数据。
搜索答案
这里我们用到了python库中的、和
这篇文章就不具体讲解爬虫的基本知识了。
上面的代码运行后会得到如下链接
https://zhidao.baidu.com/search?ct=17&pn=0&tn=ikaslist&rn=10&fr=wwwt&word=4%27%E4%BA%BA%E6%B0%91%E6%97%A5%E6%8A%A5%E6%B5%B7%E5%A4%96%E7%89%88%E4%BE%A0%E5%AE%A2%E5%B2%9B%E7%9A%84%E4%BD%9C%E8%80%85_%E8%88%AC%0A%E8%87%AA%E7%A7%B0%E8%87%AA%E5%B7%B1%E4%B8%BA%E5%B2%9B%E5%8F%94%E5%92%8C%3F%0A%0A%E5%B2%9B%E5%A6%B9%0A%0A%E5%B2%9B%E5%A9%B6%0A%0A%E5%B2%9B%E5%A7%A8
接下来就通过我们的BeautifulSoup去解析页面
数据分析
到这里我们已经有了如下的数据:
通过统计答案在搜索结果中的次数来给出推荐答案(较为复杂的推荐结果尚在完善之中,敬请期待)
或者扫一扫关注公众号
领取专属 10元无门槛券
私享最新 技术干货