专栏首页SeanCheney的专栏Python使用谷歌langdetect检测语言

Python使用谷歌langdetect检测语言

因为要根据语言种类,判断选用何种语言的停用词,所以判断语言非常重要。

安装:pip install langdetect

# -*- coding: utf-8 -*-

# 这段str是对网页做标签清理之后,直接取其文本
str = '【一点资讯】“别上飞机!”埃航遇难中国女学生微博留言看哭了 www.yidianzixun.com首页段子汽车娱乐军事体育游戏一点号动漫比赛NBA财经科技数码美女健康时尚搞笑电台旅游“别上飞机!”埃航遇难中国女学生微博留言看哭了原标题:浙江女大学生在埃航空难中遇难 她微博下的留言看哭了北京头条客户端3月11日消息,据外交部领事保护中心11日消息,埃航失事客机上8名遇难中国公民身份初步确认,4人为中国公司员工,2人为联合国系统国际职员(包括1名中国香港居民),另2人分别来自辽宁和浙江,为因私出行。驻埃塞使馆已与埃方建立协调联络机制,并同遇难中国公民家属取得联系,为家属处理善后提供积极协助。救援人员在封锁坠机现场进行搜救处理工作。东方IC 图ET 302航班的残骸。东方IC 图据@浙江之声报道,今天(03.11)中午从浙江万里学院党委宣传部了解到,校方经过与学生家属及大使馆方面核实,确认埃航空难事件中遇难的浙江女孩为浙江万里学院大四学生,接下来,学校方面将协助做好相关善后工作。记者了解到,该女学生来自金华兰溪,97年出生,今年即将毕业,此次乘坐埃航航班,是准备去非洲旅游。另据浙江新闻客户端报道,记者向浙江万里学院核实后确认,该女生为新闻专业大四学生。记者找到了失事客机上遇难的女大学生的微博,在3月9日,她发布了最后一条微博,定位正是在上海浦东机场。而在她的表述中,此次前往非洲旅行,是为了观看长颈鹿。同时,她将和一位朋友在目的地汇合。不少网友在她的微博留言,表示哀悼。埃塞俄比亚宣布3月11日为全国哀悼日坠机事故发生后,埃塞俄比亚宣布3月11日为全国哀悼日,悼念所有事故遇难者。埃塞俄比亚总理阿比·艾哈迈德宣布,将对事故展开深入调查。责任编辑:李欢收藏举报相关新闻'

# str = 'Otec matka syn.'

from langdetect import detect
from langdetect import detect_langs

# 当文本过短或模糊时,判断出来的结果会不确定;
# 如果要让结果唯一,添加以下两行:
from langdetect import DetectorFactory
DetectorFactory.seed = 0

# 判断语言种类
print(detect(str))

# 概率
print(detect_langs(str))

输出:

zh-cn
[zh-cn:0.9999945807402004]

或:

pl
[pl:0.8571394483837576, fi:0.14285787958897214]

支持检测55种语言: af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he, hi, hr, hu, id, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl, pt, ro, ru, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw

参考: PyPi:https://pypi.org/project/langdetect/ GitHub:https://github.com/Mimino666/langdetect

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2019-02-06 如何从文本中抽取结构化信息

    原文地址:https://github.com/fighting41love/funNLP

    Albert陈凯
  • 做项目一定用得到的NLP资源

    原文链接:https://github.com/fighting41love/funNLP

    流川疯
  • NLP任务中的文本预处理步骤、工具和示例

    数据是新的石油,文本是我们需要更深入钻探的油井。文本数据无处不在,在实际使用之前,我们必须对其进行预处理,以使其适合我们的需求。对于数据也是如此,我们必须清理和...

    deephub
  • 【NLP】45个小众而实用的NLP开源字典和工具

    随着BERT、ERNIE、XLNet等预训练模型的流行,解决NLP问题时不用上预训练模型似乎总显得自己有点过时。但是这显然是不对的。

    zenRRan
  • 快收藏!史上最全156个Python网络爬虫资源

    awesome系列真是碉堡了~今天把Python的爬虫工具搬过来~ ——————译文分割线—————— 本列表包含Python网页抓取和数据处理相关的库。 网络...

    小小科
  • 比Python还好用的Go语言要出2.0了,你想怎么设计?

    在昨天的 Go contributor 年度峰会上,与会者对错误处理和泛型的设计草案有了一个初步的了解。Go 2 的开发项目是去年宣布的,今天谷歌公布了这一语言...

    机器之心
  • 谷歌T5模型刷新GLUE榜单,110亿参数量,17项NLP任务新SOTA

    在最新发布的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text T...

    机器之心
  • 谷歌T5模型刷新GLUE榜单,110亿参数量,17项NLP任务新SOTA

    在最新发布的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text T...

    代码医生工作室
  • NLP 民工的乐园

    它几乎最全的中文 NLP 资源库,很多包非常有趣,也很实用,可以完全满足大家的收藏癖,如果有帮助,也请分享给你的朋友们。

    somenzz
  • 从深度学习到机器人控制,2017 人工智能新开发工具盘点

    2017 年,在深度学习技术的加持下,CV、NLP、数据分析等领域全面开花,同时大量新开发工具和开源软件的涌现,降低了人工智能开发的门槛,加速了深度学习的普及。...

    AI研习社
  • 谷歌开源 Python Fire;一张图读懂 Python、R 的大数据应用等 | 开发者头条

    谷歌开源 Python Fire NASA 发布 2017-2018 软件目录,供开发者免费使用 一张图看懂大数据中 R 语言的应用 一张图看懂大数据中 Py...

    AI研习社
  • 【科普】精选 7 个生活中的机器学习案例,AI无处不在!

    今天我们就来看看,在日常生活中有哪些最常见的机器学习用例(有时我们甚至没有意识到这些例子涉及机器学习)。本文涵盖了以下常见的机器学习用例:

    昱良
  • Python并不完美,Swift正在成长为深度学习语言

    如果你懂编程,在听到 Swift 时,你可能会想到为 iOS 或 MacOS 开发应用程序。如果你懂深度学习,那么你肯定听闻过 Swift for Tensor...

    Python数据科学
  • Python并不完美,Swift正在成长为深度学习语言

    如果你懂编程,在听到 Swift 时,你可能会想到为 iOS 或 MacOS 开发应用程序。如果你懂深度学习,那么你肯定听闻过 Swift for Tensor...

    机器之心
  • 从 App 描述介绍文字中发掘 Python 文本数据预处理实例

    除了数据清洗和数据探索的主题外,许多有效的NLP(自然语言处理)分析都是依赖于对文本数据的预处理。因此,我决定手把手展现一个对来自苹果App Store简述的文...

    AI研习社
  • 独家 | 5个机器学习开源项目来挑战你的数据科学技能!(附链接)

    5个富有挑战性的机器学习开源项目帮你找到2020的正确打开方式,以下机器学习项目涉及多个领域,包括Python编程及自然语言处理。

    数据派THU
  • 为什么说自然语言处理是人工智能的核心

    关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 如果一台计算机能够欺骗人类,让人相信...

    昱良
  • 如何用Python在豆瓣中获取自己喜欢的TOP N电影信息

    一、什么是 Python Python (蟒蛇)是一门简单易学、 优雅健壮、 功能强大、 面向对象的解释型脚本语言.具有 20+ 年发展历史, 成熟稳定. 具有...

    企鹅号小编
  • 谷歌云重大更新:Text-to-Speech现已支持26种WaveNet语音

    如果你是谷歌云客户,并且正在使用该公司的AI套件来进行文字转语音或语音转文本服务,这有个好消息:谷歌今天宣布了这些方面的重大更新,包括云文本到语音的普遍可用性,...

    AiTechYun

扫码关注云+社区

领取腾讯云代金券