首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python处理中文标点符号

中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: 1 !?...调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。 如果想用英文的标点,则可调用string包的string.punctuation函数可得到: 1 !"...@[\\]^_`{|}~ 因此,比如需要将所有标点符号去除,可以进行以下操作: 1 2 3 4 >>> import re >>> from zhon.hanzo import punctuation...去除标点。。"...punctuation) line = re.sub(re_punctuation, "", line) return line.strip() 清洗完毕后,有时候我们希望按照多个标点符号来分割

8.8K40

使用Python爬虫

本文是笔者日常使用Python进行爬虫的简要记录。 爬虫,简单说就是规模化地采集网页信息,因为网络像一张网,而爬虫做的事就像一只蜘蛛在网上爬,所以爬虫英文名就是spider。...笔者几乎只用Python,也只会用Python来进行爬虫,所以本文是讲如何用Python来进行爬虫。写这篇文章一是分享,二是把常用代码记录下来,方便自己查找。.../usr/bin/env python #-*-coding:utf8-*- import urllib import chardet res = urllib.urlopen("<your_url...ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=python&oq=%25"(后面还有一长串),很多参数一眼看上去不知道是什么意思,也无从获取。...本文是笔者使用Python进行爬虫的一个简要记录,仅供大家参考。由于只是一个业余使用者,所以文中肯定有不少概念和代码使用上的错误,希望大家不吝指教。

1.5K20
领券