因为要根据语言种类,判断选用何种语言的停用词,所以判断语言非常重要。
安装:pip install langdetect
# -*- coding: utf-8 -*-
# 这段str是对网页做标签清理之后,直接取其文本
str = '【一点资讯】“别上飞机!”埃航遇难中国女学生微博留言看哭了 www.yidianzixun.com首页段子汽车娱乐军事体育游戏一点号动漫比赛NBA财经科技数码美女健康时尚搞笑电台旅游“别上飞机!”埃航遇难中国女学生微博留言看哭了原标题:浙江女大学生在埃航空难中遇难 她微博下的留言看哭了北京头条客户端3月11日消息,据外交部领事保护中心11日消息,埃航失事客机上8名遇难中国公民身份初步确认,4人为中国公司员工,2人为联合国系统国际职员(包括1名中国香港居民),另2人分别来自辽宁和浙江,为因私出行。驻埃塞使馆已与埃方建立协调联络机制,并同遇难中国公民家属取得联系,为家属处理善后提供积极协助。救援人员在封锁坠机现场进行搜救处理工作。东方IC 图ET 302航班的残骸。东方IC 图据@浙江之声报道,今天(03.11)中午从浙江万里学院党委宣传部了解到,校方经过与学生家属及大使馆方面核实,确认埃航空难事件中遇难的浙江女孩为浙江万里学院大四学生,接下来,学校方面将协助做好相关善后工作。记者了解到,该女学生来自金华兰溪,97年出生,今年即将毕业,此次乘坐埃航航班,是准备去非洲旅游。另据浙江新闻客户端报道,记者向浙江万里学院核实后确认,该女生为新闻专业大四学生。记者找到了失事客机上遇难的女大学生的微博,在3月9日,她发布了最后一条微博,定位正是在上海浦东机场。而在她的表述中,此次前往非洲旅行,是为了观看长颈鹿。同时,她将和一位朋友在目的地汇合。不少网友在她的微博留言,表示哀悼。埃塞俄比亚宣布3月11日为全国哀悼日坠机事故发生后,埃塞俄比亚宣布3月11日为全国哀悼日,悼念所有事故遇难者。埃塞俄比亚总理阿比·艾哈迈德宣布,将对事故展开深入调查。责任编辑:李欢收藏举报相关新闻'
# str = 'Otec matka syn.'
from langdetect import detect
from langdetect import detect_langs
# 当文本过短或模糊时,判断出来的结果会不确定;
# 如果要让结果唯一,添加以下两行:
from langdetect import DetectorFactory
DetectorFactory.seed = 0
# 判断语言种类
print(detect(str))
# 概率
print(detect_langs(str))
输出:
zh-cn
[zh-cn:0.9999945807402004]
或:
pl
[pl:0.8571394483837576, fi:0.14285787958897214]
支持检测55种语言: af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he, hi, hr, hu, id, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl, pt, ro, ru, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw
参考: PyPi:https://pypi.org/project/langdetect/ GitHub:https://github.com/Mimino666/langdetect