关于处理原始文本部分导入语句:
>>> from __future__ import division
>>> import nltk,re,pprint
python网络访问程序:
>>> from __future__ import division
>>> import nltk,re,pprint
>>> from urllib.request import urlopen
>>> url=r'http://www.gutenberg.org/files/24272/24272-0.txt'
>>> raw=urlopen(url).read()
>>> raw = raw.decode('utf-8')
>>> len(raw)
70306
>>> raw[2000:2500]
运行结果:
对其中文分词:
>>> from nltk.tokenize import StanfordSegmenter
>>> segmenter = StanfordSegmenter(
path_to_jar=r"E:\tools\stanfordNLTK\jar\stanford-segmenter.jar",
path_to_slf4j=r"E:\tools\stanfordNLTK\jar\slf4j-api.jar",
path_to_sihan_corpora_dict=r"E:\tools\stanfordNLTK\jar\data/",
path_to_model=r"E:\tools\stanfordNLTK\jar\data\pku.gz",
path_to_dict=r"E:\tools\stanfordNLTK\jar\data\dict-chris6.ser.gz"
)
>>> result = segmenter.segment(raw)
>>> result[1000:2500]
分词结果:
在线获取html文本资料:
>>> import re,nltk
>>> from urllib.request import urlopen
>>> url='http://www.gutenberg.org/cache/epub/24264/pg24264-images.html'
>>> html=urlopen(url).read()
>>> html=html.decode('utf-8')
>>> html[5000:5500]
运行结果:
相关正则知识:
正则表达式进行数据清洗:
>>> len(html)
962651
>>> strhtml=re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。??、~@#¥%……&*()]+|[A-Za-z0-9]+","",html)#去掉中英文符号
>>> len(strhtml)
781150
>>> strhtml[5000:5500]
清洗后结果:
红楼梦进行中文分词
>>> # 红楼梦进行中文分词
>>> from nltk.tokenize import StanfordSegmenter
>>> segmenter = StanfordSegmenter(
path_to_jar=r"E:\tools\stanfordNLTK\jar\stanford-segmenter.jar",
path_to_slf4j=r"E:\tools\stanfordNLTK\jar\slf4j-api.jar",
path_to_sihan_corpora_dict=r"E:\tools\stanfordNLTK\jar\data/",
path_to_model=r"E:\tools\stanfordNLTK\jar\data\pku.gz",
path_to_dict=r"E:\tools\stanfordNLTK\jar\data\dict-chris6.ser.gz"
)
>>> result = segmenter.segment(raw)
查找分析:查找“曰”后面的内容
re.findall(r'(曰.{,3})',strhtml)
备注:处理搜索引擎的结果:基于自己配置的搜索引擎处理
>>> import feedparser #feedparser需要在python库中下载
>>> llog=feedparser.parse(url)
方法一:
>>> f=open(r"E:\dict\q0.txt","r")
>>> for line in f:
print(line.strip())
方法二:
>>> with open(r"C:\Users\cuitbnc\Desktop\dqdg.txt","r+") as f:
str=f.read()
方法三:
>>> import nltk
>>> path=nltk.data.find(r'C:\Users\cuitbnc\Desktop\dqdg.txt')
>>> raw=open(path,'rU').read()
>>> len(raw)
673167
>>>
PDF或者MSWord以及其他二进制提取文本,利用第三方函数库pypdf和pywin32
>>> raw=open(r"E:\dict\q0.txt","r").read()
>>> tokens=nltk.word_tokenize(raw)
>>> words=[w for w in tokens]
>>> vocab=sorted(set(words))
>>> vocab
有用的字符串方法:
链表和字符串的差异:字符串和链表都是一种序列,可以通过索引抽取他们一部分,可以切片,可以合并。但是,链表和字符串不能连接
解码:文件中的文本都有特定的编码,需要一些机制将文本翻译成Unicode的过程就是解码。 编码:将Uniocde写入一个文件或者终端,首先需要将Unicode转化为合适的编码,这个过程就是编码
中文解码问题
>>> raw=open(r"E:\dict\text.txt","r").read()
Traceback (most recent call last):
File "<pyshell#18>", line 1, in <module>
raw=open(r"E:\dict\text.txt","r").read()
UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 16: illegal multibyte sequence
>>> import codecs
>>> f=codecs.open(r"E:\dict\text.txt",'r',encoding="utf-8").read()
ord()查找字符的整数序列
>>> ord('a')
97
>>> ord('f')
102
import re 导入re函数库
re.search('ed′,w)查询w字符串中是都ed结尾匹配[wforwinwordlistifre,search(′ed
',w)]
通配符“.”可以用来匹配任何单个字符。例如:有一个8个字母组成的字谜,j是第三个字母,t的第六个字母,每个空白单元格用句点隔开.(^字符串开始,$字符串结束)
[w for w in wordlist if re.search('^..j..t..$',w)]
计算文本中词出现次数 sum(w for w in text if re.search('^e-?mail$',w))
搜索数字
[w for w in wordlist if re.search('^[0-9]+\.[0-9]+$',w)]
[w for w in wordlist if re.search('^[0-9]{4}$',w)]
python正则表达式基本元字符
指定条件查询分析:
>>> f=codecs.open(r"E:\dict\q0.txt",'r').read()
>>> import re
>>> re.findall(r"大秦",f)
['大秦']
>>> re.findall(r"庞涓",f)
['庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓']
>>> len(re.findall(r"庞涓",f))
33
>>>