stop-words - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

基于WMD（词移距离）的句子相似度分析简介

word2vec是只有一个隐层的全连接神经网络,对语料中的所有词汇进行训练并生成相应的词向量（Word Embedding）WI 的大小是VxN, V是单词字典的大小, 每次输入是一个单词, N是设定的隐层大小。word2vec的模型通过一种神经网络语言模型（Neural Network Language Model）

04

SparkMllib主题模型案例讲解

一本文涉及到的算法 1， LDA主题模型符号定义文档集合D，m篇，topic集合T，k个主题 D中每个文档d看作一个单词序列< w1,w2,...,wn >，wi表示第i个单词，设d有n个单词。（LDA里面称之为word bag，实际上每个单词的出现位置对LDA算法无影响） D中涉及的所有不同单词组成一个大集合VOCABULARY（简称VOC） LDA符合的分布每篇文章d(长度为)都有各自的主题分布，主题分布式多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数

05

您找到你想要的搜索结果了吗？

是的

没有找到

【论文笔记】中文词向量论文综述（二）

一、Improve Chinese Word Embeddings by Exploiting Internal Structure

03

关于NLP和机器学习之文本处理

https://github.com/kavgan/nlp-text-mining-working-examples/tree/master/text-pre-processing

03

教你在Python中实现潜在语义分析（附代码）

你有没有去过那种运营良好的图书馆？我总是对图书馆馆员通过书名、内容或其他主题保持一切井井有条的方式印象深刻。但是如果你给他们数千本书，要求他们根据书的种类整理出来，他们很难在一天内完成这项任务，更不用说一小时！

03

Python最有用的机器学习工具和库

Python是最好的编程语言之一，在科学计算中用途广泛：计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。

05

【Python环境】Python语言下的机器学习库

Python是最好的编程语言之一，在科学计算中用途广泛：计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。当然，它也有些缺点；其中一个是工具和库过于分散。如果你是拥有unix思维（unix-minded）的人，你会觉得每个工具只做一件事并且把它做好是非常方便的。但是你也需要知道不同库和工具的优缺点，这样在构建系统时才能做出合理的决策。工具本身不能改善系统或产品，但是使用正确的工具，我们可以工作得更高效，生产率更高。因此了解正确的工具，对你的工作领域是非常重要的。这篇文章的目的就是

06

我与Python | 从Hacker到探索Deep Learning

为什么是Python 人生苦短，我用Python... 'Life is short, you need Python!' 进入大学之后，我们逐渐“被教授”了C、C++、Java等编程语言，但为什么我

07

我与Python--从Hacker到探索Deep Learning

进入大学之后，我们逐渐“被教授”了C、C++、Java等编程语言，但为什么我会选择python作为最喜欢的编程语言呢？

03

文本分词和去停止词的一次优化

之前在处理QA语料库的时候，在分词和去停止词的时候消耗时间很长，所以专门搜了一些资料针对这个问题进行了一次优化，总结如下。

01

NLP之tfidf与textrank算法细节对比基于结巴分词

-NLP之tfidf与textrank算法细节对比注：结巴默认在site-packages目录关于结巴分词的添加停用词以及增加词相关操作可参考之前的博客，这里重点说下结巴关键词提取的两个算法 1.tfidf算法官方文档如下： extract_tags(sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False) method of jieba.analyse.tfidf.TFIDF instance Extra

03

NLP之tfidf与textrank算法细节对比基于结巴分词

-NLP之tfidf与textrank算法细节对比注：结巴默认在site-packages目录关于结巴分词的添加停用词以及增加词相关操作可参考之前的博客，这里重点说下结巴关键词提取的两个算法

02

Python实战 | 100毫秒过滤一百字万字文本的停用词

这次我打算用一部127W字的小说——《天龙八部》作为数据示例，这样能更好表现出效率高不高！

01

文本挖掘实战：看看国外人们在冠状病毒隔离期间在家里做什么？

本文通过文本的挖掘，对人们在冠状病毒锁定期间正在做什么以及他们的感觉进行的探索性和情感分析

06

Python的设计模式

行为型模式用于简化类之间的交互。这里提供了三个例子：观察者（observer）、访问者（visitor）、模板（template）

01

Python词频统计的3种方法，针不戳

昨天，我分享了《100毫秒过滤一百万字文本的停用词》，这次我将分享如何进行词频统计。

02

王力宏的瓜很大！我用Python爬取了瓜文评论区，发现更精彩

于是熟练的找到了瓜文出处，基本情况就是力宏前妻忍无可忍，于是发文手撕力宏 ... 博文如下：

02

Python数据挖掘-NLTK文本分析+jieba中文文本挖掘

NLTK的全称是natural language toolkit，是一套基于python的自然语言处理工具集。

01

为西雅图酒店建立基于内容的推荐系统

在冷启动问题是一个众所周知的深入研究的问题推荐系统，其中系统不能够推荐项目给用户。由于三种不同的情况，即新用户，新产品和新网站。

02

永续合约系统开发详细流程丨合约跟单对冲量化系统开发原理及代码

对于自然语言应用程序，文本数据的预处理需要仔细考虑。从丢失的角度来看，从文本数据组成数字矢量可能具有挑战性，当执行看似基本的任务（例如删除停用词）时，有价值的信息和主题上下文很容易丢失，我们将在后面看到。

02

Python 英文分词

Python 英文分词，词倒排索引【一.一般多次查询】 ''' Created on 2015-11-18 ''' #encoding=utf-8 # List Of English Stop Words # http://armandbrahaj.blog.al/2009/04/14/list-of-english-stop-words/ _WORD_MIN_LENGTH = 3 _STOP_WORDS = frozenset([ 'a', 'about', 'above', 'above', 'ac

02

Jieba分词

jieba 是一个中文分词第三方库，被称为最好的 Python 中文分词库。支持三种分词模式：精确模式、全模式和搜索引擎模式，并且支持繁体分词和自定义词典。使用前需要额外安装（对应安装命令改为：pip install jieba）

02

[文本语义相似] 基于Jaccard相似度

文本相似在问答系统中有很重要的应用，如基于知识的问答系统（Knowledge-based QA），基于文档的问答系统（Documen-based QA），以及基于FAQ的问答系统（Community-QA）等。像对于问题的内容，需要进行相似度匹配，从而选择出与问题最接近，同时最合理的答案。本节介绍基于Jaccard相似度。

01

《寄生虫》横扫奥斯卡，Python告诉你这部电影到底好在哪儿？

【导语】：今天我们横扫本届奥斯卡的韩国电影《寄生虫》，Python技术部分可以直接看第四部分。

02

《寄生虫》横扫奥斯卡，Python告诉你这部电影到底好在哪儿？

【导语】：今天我们横扫本届奥斯卡的韩国电影《寄生虫》，Python技术部分可以直接看第四部分。

01

几种简单的文本数据预处理方法

本文将介绍几种简单的文本数据预处理方法，希望与大家共同学习分享。

04

我的第八个项目：做一个web版停用词下载器

停用词是在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）

02

成都核酸系统崩了，东软被市民连夜骂上了热榜第一，我用Python爬取了评论区，发现...

2022 年 9 月 2 日晚上快 11 点了，打开微博一看话题东软登顶微博热榜第一了。

03

【说站】Python如何使用Spacy进行分词

2、导入spacy相关模块后，需要加载中文处理包。然后读小说数据，nlp处理天龙八部小说，包括分词、定量、词性标注、语法分析、命名实体识别，用符号/分隔小说。最后，通过is_stop函数判断单词中的单词是否为无效单词，删除无效单词后，将结果写入txt文件。

05

python停用词表整理_python停用词表

大家好，又见面了，我是你们的朋友全栈君。 📷 stop_words：设置停用词表，这样的词我们就不会统计出来（多半是虚拟词，冠词等等），需要列表结构，所以代码中定义了一个函数来处理停用词表…前言前文给

01

文本挖掘和情感分析的基础示例

经过研究表明，在旅行者的决策过程中，TripAdvisor（猫途鹰，全球旅游点评网）正变得越来越重要。然而，了解TripAdvisor评分与数千个评论文本中的每一个的细微差别是很有挑战性的。为了更彻底地了解酒店客人的评论是否会影响酒店的加班表现，我从TripAdvisor截取了一家酒店 – 希尔顿夏威夷度假村（Hilton Hawaiian Village）的所有英语评论（Web抓取的细节和Python代码在文末）。

01

Python自然语言处理分析倚天屠龙记

转载自：Python中文社区 ID:python-china 最近在了解到，在机器学习中，自然语言处理是较大的一个分支。存在许多挑战。例如：如何分词，识别实体关系，实体间关系，关系网络展示等

06

文本挖掘（一）python jieba+wordcloud使用笔记+词云分析应用

系列介绍：文本挖掘比较常见，系列思路：1-基本情况介绍（分词，词云展示）；2-根据语料库的tf-idf值及创建自己的idf文件；3-基于snownlp语料情感分析；4-基于gensim进行lda主题挖掘分析；

01

Python自然语言处理分析倚天屠龙记

最近在了解到，在机器学习中，自然语言处理是较大的一个分支。存在许多挑战。例如：如何分词，识别实体关系，实体间关系，关系网络展示等。

05

绘图系列|R-wordcloud2包绘制词云

前段时间读完大刘的流浪地球，本来想着写点东西... 结果“懒癌”了，今天就先弄个词云凑合吧( ╯□╰ )。

02

开发 | 手把手教你用 TensorFlow 实现文本分类（上）

由于需要学习语音识别，期间接触了深度学习的算法。利用空闲时间，想用神经网络做一个文本分类的应用，目的是从头到尾完成一次机器学习的应用，学习模型的优化方法，同时学会使用主流的深度学习框架（这里选择te

09

用Python绘制了若干张词云图，惊艳了所有人

在数据可视化图表中，词云图的应用随处可见。它通常是对输入的一段文字进行词频提取，然后以根据词汇出现频率的大小集中显示高频词，简洁直观高效，今天小编就来分享一下在Python如何绘制出来精湛的词云图。

01

手把手教你用 TensorFlow 实现文本分类（上）

由于需要学习语音识别，期间接触了深度学习的算法。利用空闲时间，想用神经网络做一个文本分类的应用，目的是从头到尾完成一次机器学习的应用，学习模型的优化方法，同时学会使用主流的深度学习框架（这里选择te

05

怎么用Python画出好看的词云图？

相信很多人在第一眼看到下面这些图时，都会被其牛逼的视觉效果所吸引，这篇文章就教大家怎么用Python画出这种图。

02

Python生成圣诞节词云-代码案例剖析

这段代码使用了jieba进行中文分词，结合stylecloud库生成了一个基于指定配色方案的圣诞主题词云图。以下是对代码的解释：

03

清理文本数据

当你从教育实践中学习数据科学时，你将看到大多数数据都是从多个来源、多个查询中获得的，这可能会导致一些不干净的数据。

01

使用word2vec和xgboost寻找Quora上的相似问题

Changing the world, one article at a time. Sr. Data Scientist, Toronto Canada. Opinion=my own.

04

文本挖掘|不得不知的jiebaR包，切词分词？

基于文本分析的场景有词云图、基于距离的文本聚类、基于监督的文本分类、情感分析等等。不管是文档库，文章、段落或句子，针对文本挖掘的基础都集中于词的分析，即针对文档库/段落/句子等的分词（切词）。词是很多中文自然语言处理的基础，分词有助于提取文档的特征，对后续的分类模型构建有很大影响。jiebaR包的切词手段有多种，比如基于最大概率法mp，隐马尔科夫hmm，最大概率法+隐马尔科夫混合法mix，查询法query。jiebaR 包参考链接: http://qinwenfeng.com/jiebaR/。

03

《囧妈》口碑扑街？Python告诉你观众这次为何不买账了

【导语】：今天我们就来聊聊另类春节档的唯一一部电影《囧妈》，Python技术部分可以直接看第三部分。

02

盘点一个英文文本中统计关键词的方法

前几天在Python最强王者交流群【Wendy Zheng】问了一个英文文本中统计关键词的问题，这里拿出来给大家分享下。

02

爬取林丹和赵雅淇的微博评论，看看网友都说了些什么

7 月 4 日，林丹在微博上宣布了自己退役的消息，7 月 6 日，林丹出轨女主赵雅淇发文诉委屈，先简单看一下他们发的微博。

03

文本预处理常用的几个套路

最近做 Sentiment Analysis 的问题，用 IMDB，Twitter 等 Dataset，拿到原始的一条条文本，直接喂给 Model 肯定不行，需要进行对文本进行预处理。预处理的精细程度很大程度上也会影响模型的性能。这篇就记录一些预处理的方法。

02

Python 词云生成

https://www.lfd.uci.edu/~gohlke/pythonlibs/

06

《囧妈》口碑扑街？Python告诉你观众这次为何不买账了

导读：今天我们就来聊聊另类春节档的唯一一部电影《囧妈》，Python技术部分可以直接看第三部分。

01

《囧妈》口碑扑街？Python告诉你观众这次为何不买账了

[ 导语 ]今天我们就来聊聊另类春节档的唯一一部电影《囧妈》，Python技术部分可以直接看第三部分。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

热门标签

活动推荐

运营活动

活动名称

广告关闭