首页标签中文分词

#中文分词

是使用计算机自动对中文文本进行词语的切分

ML基础——让人脑壳疼的中文分词算法

TechFlow-承志

在前文当中,我们介绍了搜索引擎的大致原理。有错过或者不熟悉的同学,可以点击下方的链接回顾一下前文的内容。

9810

干货!三大招教你轻松挖掘客户意见(含Python代码)。

1480

本文采用Python的中文分词包“jieba”(结巴分词)对文本意见进行中文分词,此分词系统的分词精度可达97%以上。同时在分词的过程中,还可以对不用的语料再进...

17830

7.、隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注

mantch

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP

15020

HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注

mantch

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP

15040

详解隐马尔可夫模型(HMM)中的维特比算法

mantch

然而隐马尔可夫模型用于中文分词的效果并不理想,虽然召回了一半的 OOV,但综合 F1 甚至低于词典分词。哪怕升级到二阶隐马尔可夫模型, F1 值依然没有提升。 ...

18320

HanLP《自然语言处理入门》笔记--3.二元语法与中文分词

mantch

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP

11320

HanLP《自然语言处理入门》笔记--2.词典分词

mantch

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP

13920

HanLP《自然语言处理入门》笔记--1.新手上路

mantch

在接下来的章节中,就让我们按照这种由易到难的发展规律去解决第一个NLP问题一中文分词。我们将先从规则系统人手,介绍一些快而不准的算法,然后逐步进化到更加准确的统...

18630

python实现文本分类

py3study

中文分词有其特有的难点,最终完全解决中文分词的算法是基于概率图模型的条件随机场(CRF)。中文分词的工具有很多,但是比较著名的几个都是基于java的,这里推荐p...

22920

中文维基百科文本数据获取与预处理

py3study

最新打包的中文文档下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-art...

26420

分词 – Tokenization

easyAI

分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

17120

ieba库实现词性标注及小说人物角色抽取

冯杰宁

jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单...

17910

后端技术杂谈4:Elasticsearch与solr入门实践

Java技术江湖

本系列文章将整理到我在GitHub上的《Java面试指南》仓库,更多精彩内容请到我的仓库里查看

13910

北大开源分词工具包: 准确率远超THULAC、jieba 分词

Python编程与实战

pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg 具有如下几个特点:

12410

初学者 | 分词的那些事儿

zenRRan

本文谈一谈分词的那些事儿,从定义、难点到基本方法总结,文章最后推荐一些不错的实战利器。

19310

NLP入门实战:一文教会你完整机器处理流程

CSDN技术头条

首先就是歧义问题,不同的分割方式会导致不同的意思。中文分词目前来说基本上分为2种:

20530

NLP入门+实战必读:一文教会你完整机器处理流程

CSDN技术头条

首先就是歧义问题,不同的分割方式会导致不同的意思。中文分词目前来说基本上分为2种:

9520

不知道给女朋友买什么 ?让爬虫告诉你 !

小小詹同学

你是否曾经遇到过要给女朋友、父母、好朋友送礼物却不知道买什么的情况?小编作为一个直男,每次都在给朋友选礼物的事情上费劲脑筋,实在是不知道买什么东西好。但事情总是...

9610

中文预训练模型ZEN开源,效果领域内最佳,创新工场港科大出品

代码医生工作室

而且现在,ZEN开源了。源代码和训练好的模型均已发布,未来还承诺会有更大数据和其他语言版本迭代上新。

18730

lucene全文搜索之二:创建索引器(创建IKAnalyzer分词器和索引目录管理)基于lucene5.5.3

eguid

lucene全文搜索之一中讲解了lucene开发搜索服务的基本结构,本章将会讲解如何创建索引器、管理索引目录和中文分词器的使用。

10610

扫码关注云+社区

领取腾讯云代金券