自然语言处理

58 篇文章
16 人订阅

全部文章

伏草惟存

四川省计算机研究院 · 工程师 (已认证)

朴素贝叶斯一步步轻松学1

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不...

563
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

朴素贝叶斯一步步轻松学3

朴素贝叶斯分类算法模型在中文领域中的应用。我们对新闻语料进行多文本分类操作,本文选择艺术、文学、教育、哲学、历史五个类别的训练文本,然后采用新的测试语料进行分类...

553
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

朴素贝叶斯一步步轻松学2

构建一个快速过滤器来屏蔽在线社区留言板上的侮辱性言论。如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。对此问题建立两个类别: 侮辱类和非侮...

592
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

K-means聚类算法研究

统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更...

633
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

逻辑回归模型算法研究与案例分析

回归:假设现在有一些数据点,我们用一条直线对这些点进行拟合(这条直线称为最佳拟合直线),这个拟合的过程就叫做回归。

1003
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

深度 | 朴素贝叶斯模型算法研究与实例分析

本节介绍朴素贝叶斯分类算法模型在中文领域中的应用。我们对新闻语料进行多文本分类操作,本文选择艺术、文学、教育、哲学、历史五个类别的训练文本,然后采用新的测试语料...

672
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

实现 | 朴素贝叶斯模型算法研究与实例分析

构建一个快速过滤器来屏蔽在线社区留言板上的侮辱性言论。如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。对此问题建立两个类别: 侮辱类和非侮...

994
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

理论 | 朴素贝叶斯模型算法研究与实例分析

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不...

805
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

微博话题爬取与存储分析(上)

本文基于python以新浪微博为数据平台,从数据采集、关键字提取、数据存储三个角度,用最简单的策略来挖掘我们的“黄金”。

1062
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

微博话题爬取与存储分析(下)

本文基于python以新浪微博为数据平台,从数据采集、关键字提取、数据存储三个角度,用最简单的策略来挖掘我们的“黄金”。

682
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

Google Plus 文本提取与分析2

为了进一步对每条记录分析,有必要进行中文分词。文章3中提到11款开放中文分词引擎,从分词效果和调用难度角度考虑,这里采用商业化的BosonNLP工具(关键被他一...

932
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

Google Plus 文本提取与分析3

斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Par...

973
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

Google Plus 文本提取与分析4

特征词/关键词提取最简单最基础的就是TFIDF,记得5年前我同学让我帮做DI-TFIDF的论文,也就只多了个类内离散度(DI),今年阿里校招笔试题都有,用map...

791
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

Google Plus 文本提取与分析5

本文所有数据源自google+,全篇围绕五个方面来进行文本提取和分析,数据获取、中文分词、NLTK、特征词提取、文本相似度。此外,本文还涉及情感词分析,齐普夫定...

722
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

特征值在二次型优化和数据降维中的应用

从线性空间的角度看,在一个定义了内积的线性空间里,对一个N阶对称方阵进行特征分解,就是产生了该空间的N个标准正交基,然后把矩阵投影到这N个基上。N个特征向量就是...

732
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

Python读书笔记:需要注意的70个小问题

4 单双引号括起来的,字符串可以包含引号和撇号。用法:"this's a cup"

872
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

数据分析:基于Python的自定义文件格式转换系统

无论读者现在是做数据挖掘、数据分析、自然语言处理、智能对话系统、商品推荐系统等等,都不可避免的涉及语料的问题即大数据。数据来源无非分为结构化数据、...

1042
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

基于KNN分类算法模型为案例进行机器学习研究

k-近邻(kNN,k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。k-近邻算法的输入为实例的...

832
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

程序员眼中的统计学1

在大学时期我打了三年的暑假工,我的工作就是检测数码产品的屏幕的油墨厚度,每天都有好几万的数据报表,面对着这大量的待处理数据,我们就利用了图表来进行统计。

612
伏草惟存

四川省计算机研究院 · 工程师 (已认证)

程序员眼中的统计学2

均值有两种计算方法:第一种计算方式是:将所有的数字加起来,然后除以数字的个数 。可用记为:µ=∑x/n。另一种计算方法是把每个数的频数考虑进去了的,它表示如下:...

723

扫码关注云+社区