专栏首页python3URL处理----拼接和编码

URL处理----拼接和编码

        ps:浪了好几周,我的锅。。。

        前几天想爬取一个用户网站自动创建每个用户的资料方便注册一些账号,想写一个通用点的爬虫程序爬取只要配置一些爬取规则、爬取深度就ok,避免代码改动,由于时间关系只完成的个半成品,后面在考虑是用xml文件作为配置文件,还是简单的使用.ini文件,后者虽然简单但局限性太大,所以,,,偷几天懒顺便重新考虑下逻辑。

==================================================================================================================================================          

        既然想通用一些,那url的一些处理必不可少,如拼接、中文编码和空格编码等问题,从网上找了下比较琐碎,所以自己简单封装了一个,主要处理了下url拼接和中文编码的问题。

运行环境:python3 、pycharm编辑器

代码如下:

 1 # -*- coding: utf-8 -*-
 2 # au: cpy
 3 # 20181016
 4 # url拼接和编码问题
 5 import re
 6 from urllib.parse import urljoin,quote
 7 
 8 
 9 def check_zh(word):
10     list_zh = re.findall('[\u4e00-\u9fa5]+',word)  # 正则匹配存在的中文
11     if list_zh:
12         for zh in list_zh:
13             word = re.sub(zh,quote(zh),word)
14             # print(word)
15     return word
16 
17 
18 def checkUrl(domain, url): # domain:域名
19     if type(url) is not str and hasattr(url, "decode"):
20         url = url.decode()
21     if not url.startswith("http"):
22         url = urljoin(domain, url)
23     url = check_zh(url)
24     return url
25 
26 if __name__ == '__main__':
27     domain = "https://www.baidu.com/"
28     # postfix_url  = "s?ie=UTF-8&wd=python3判断字符串中是否有中文"
29     url  = "s?ie=UTF-8&wd=python3判断字符串中是否有中文"
30     print(url)
31     print(checkUrl(domain, url))
32     '''
33     结果:
34     s?ie=UTF-8&wd=python3判断字符串中是否有中文
35     https://www.baidu.com/s?ie=UTF-8&wd=python3%E5%88%A4%E6%96%AD%E5%AD%97%E7%AC%A6%E4%B8%B2%E4%B8%AD%E6%98%AF%E5%90%A6%E6%9C%89%E4%B8%AD%E6%96%87
36     '''

ps: 代码在pycharm编辑器中正常运行,其它方式运行可能会提示存在编码问题

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python-爬虫小计

    py3study
  • python3 selenium + f

    一、 分析: 抓取动态页面js加载的人民日报里面的新闻详情 https://wap.peopleapp.com/news/1 先打开,然后查看网页源码,发现是...

    py3study
  • python 重定向获取真实url

    py3study
  • PyQt5 技巧篇-解决相对路径无法加载图片问题,styleSheet通过"相对"路径加载图片,python获取当前运行文件的绝对路径。

    styleSheet用相对路径我是怎么试都不管用。加了:/在前面也不管用。 好像跟pyqt5自身的绘图机制有关,父类子类啥的。以后有空可以研究下。

    小蓝枣
  • Python之京东商品图片爬虫

    京东是我们购物经常去光顾的一个点上平台,它里面的商品多种多样,其中的商品图片也是应有尽有,今天小编呢就给大家带来一个京东商品图片的简单爬虫。

    用户6825444
  • 几十行代码批量下载高清壁纸 爬虫入门实战

    电影桌面背景时间长了也会腻,换背景的话一般去网上下载又需要挑来挑去,一页一页的翻很烦人,能不能一次展示很多图片呢?省的一页一页看。比较简单的方法就是把图片存到本...

    啤酒单恋小龙虾
  • Flutter中的打电话、发短信、调起外部浏览器、打开外部APP

    我们通过url_launcher来实现调起电话、短信、外部浏览器、外部APP的功能。

    拉维
  • 三步爬取半次元热门图片

    边学习,边创造是一件开心的事情,因为你会清楚的认识到自己的状态,以及那充满内心的成就感,因此从写爬虫开始学习python是一个简单粗暴的提升路线,不知不觉了解很...

    py3study
  • Django之路由层

    以图书管理系统为例我们在数据库建立四张表:图书表、出版社表、作者表、作者信息,这里表与标的对应关系如下:

    GH
  • python 重定向获取真实url

    py3study

扫码关注云+社区

领取腾讯云代金券