是什么让这个语料库中的文本变得小写，我怎么才能把它变成大写？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

用Spark做数据科学

我们与Exaptive的数据科学家Frank Evans就Spark在数据科学中的地位进行了非常愉快的交流。

R文本挖掘-中文分词Rwordseg

本文主要介绍了如何使用 R 语言对中文文本进行分词和词频统计。首先介绍了 R 语言中的 tm 包和 Rwordseg 包，然后通过一个示例展示了如何使用这两个包进行中文分词和词频统计。最后，介绍了一些常用的分词方法，并给出了一个使用 wordcloud 包进行词云展示的示例。

【NLTK基础】一文轻松使用NLTK进行NLP任务(附视频)

NLTK作为文本处理的一个强大的工具包，为了帮助NLPer更深入的使用自然语言处理(NLP)方法。本公众号开更Natural Language Toolkit（即NLTK）模块的“ Natural Language Processing”教程系列。

黑科技 | 用Python只花十五分钟完成正则表达式五天任务量

数据清理是很多机器学习任务上我们遇到的首要问题。本文介绍的 FastText 是一个开源 Python 库，可用于快速进行大规模语料库的文本搜索与替换。该项目的作者表示，使用正则表达式（Regex）需要 5 天的任务在新的方法中只需要 15 分钟即可完成。项目链接：https://github.com/vi3k6i5/flashtext 自然语言处理领域的开发者在处理文本之前必须对数据进行清理。有些时候，此类工作是由关键词替换完成的，就像吧「Javascript」替换成「JavaScript」。另一些

资源 | 十五分钟完成Regex五天任务：FastText，语料库数据快速清理利器

选自FreeCoderCamp 作者：Vikash Singh 机器之心编译参与：李泽南、刘晓坤数据清理是很多机器学习任务上我们遇到的首要问题。本文介绍的 FastText 是一个开源 Python 库，可用于快速进行大规模语料库的文本搜索与替换。该项目的作者表示，使用正则表达式（Regex）需要 5 天的任务在新的方法中只需要 15 分钟即可完成。项目链接：https://github.com/vi3k6i5/flashtext 自然语言处理领域的开发者在处理文本之前必须对数据进行清理。有些时候，此

011

GPT-4「荣升」AI顶会同行评审专家？斯坦福最新研究：ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

LLM在飞速进步的同时，人类也越来越难以区分LLM生成的文本与人工编写的内容，甚至分辨能力与随机器不相上下。

自然语言处理常用资源笔记分享

有什么问题请致邮：wujunchaoIU@outlook.com,我会第一时间为你解答

数据可视化|如何用wordcloud绘制词云图？

词云图中的每个字的大小与出现的频率或次数成正比，词云图的统计意义不是特别大，主要是为了美观，用于博客和网站比较常见。

授人以渔：分享我的文本分类经验总结

在我们做一个项目或业务之前，需要了解为什么要做它，比如为什么要做文本分类？项目开发需要，还是文本类数据值得挖掘。

资源 | 你是合格的数据科学家吗？30道题测试你的NLP水平

选自Analyticsvidhya 作者：Shivam Bansal 机器之心编译参与：黄小天、李亚洲、Smith 近日，analyticsvidhya 上出现了一篇题为《30 Questions to test a data scientist on Natural Language Processing [Solution: Skilltest – NLP]》的文章，通过 30 道题的测试，帮助数据科学家了解其对自然语言处理的掌握水平。同时文章还附上了截至目前的分数排行榜，最高得分为 24（超过 25

自然语言处理简明教程自然语言处理简介Natural Language Tool Kit (NLTK)正则表达式文本清理文本分类分类器示例饭店评论

现在，让我们先从介绍自然语言处理(NLP)开始吧。众所周知，语言是人们日常生活的核心部分，任何与语言问题相关的工作都会显得非常有意思。希望这本书能带你领略到 NLP 的风采，并引起学习 NLP 的兴趣。首先，我们需要来了解一下该领域中的一些令人惊叹的概念，并在工作中实际尝试一些具有挑战性的 NLP 应用。

用Python从头开始构建一个简单的聊天机器人(使用NLTK)

我相信你一定听说过Duolingo:一款流行的语言学习应用。它以其创新的外语教学风格而广受欢迎，其概念很简单：一天五到十分钟的互动训练就足以学习一门语言。

【NLTK基础】一文轻松使用NLTK进行NLP任务(附视频)

手把手教你NumPy来实现Word2vec

Word2Vec被认为是自然语言处理（NLP）领域中最大、最新的突破之一。其的概念简单，优雅，（相对）容易掌握。Google一下就会找到一堆关于如何使用诸如Gensim和TensorFlow的库来调用Word2Vec方法的结果。另外，对于那些好奇心强的人，可以查看Tomas Mikolov基于C语言的原始实现。原稿也可以在这里找到。

如何将任何文本转换为图谱

此图由作者使用本文分享的项目生成。几个月前，基于知识的问答（KBQA）还只是新奇事物。如今，对于任何人工智能爱好者来说，使用检索增强生成（RAG）实现KBQA已经轻而易举。看到自然语言处理领域的可能性如此迅速地扩展，令人着迷，而且每天都在变得更好。在我的最后一篇文章中，我分享了一种递归的RAG方法，用于根据大量文本语料库回答复杂查询的多跳推理式问答实现。

NLP之tfidf与textrank算法细节对比基于结巴分词

-NLP之tfidf与textrank算法细节对比注：结巴默认在site-packages目录关于结巴分词的添加停用词以及增加词相关操作可参考之前的博客，这里重点说下结巴关键词提取的两个算法 1.tfidf算法官方文档如下： extract_tags(sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False) method of jieba.analyse.tfidf.TFIDF instance Extra

NLP之tfidf与textrank算法细节对比基于结巴分词

-NLP之tfidf与textrank算法细节对比注：结巴默认在site-packages目录关于结巴分词的添加停用词以及增加词相关操作可参考之前的博客，这里重点说下结巴关键词提取的两个算法

上海大学建了一个“突发事件语料库”，包括地震、恐怖袭击等5大类

作者 | 阿司匹林出品 | 人工智能头条（公众号ID：AI_Thinker）本体最初是一个哲学上的概念，十多年前被引入计算机领域中作为知识表示的方法并被广泛使用。本体对于探索人的认知原理、发展自然语言理解技术和人机交互技术有重要意义。要理解这些话语文本, 就必须知道这些事件类丰富的内容, 这些内容的绝大部分是不可能在话语文本中叙述的, 而是作为共同知识预先存在于每个交流者的头脑中。事件本体正是为计算机建造这样的共同知识。研究本体，必然要先构建语料库。几年前，上海大学语义智能实验室为了开展文本事件抽

上海大学建了一个“突发事件语料库”，包括地震、恐怖袭击等5大类

本体最初是一个哲学上的概念，十多年前被引入计算机领域中作为知识表示的方法并被广泛使用。本体对于探索人的认知原理、发展自然语言理解技术和人机交互技术有重要意义。

一周论文 | 基于知识图谱的问答系统关键技术研究#4

作者丨崔万云学校丨复旦大学博士研究方向丨问答系统，知识图谱领域问答的基础在于领域知识图谱。对于特定领域，其高质量、结构化的知识往往是不存在，或者是极少的。本章希望从一般文本描述中抽取富含知识的句子，并将其结构化，作为问答系统的知识源。特别的，对于不同的领域，其“知识”的含义是不一样的。有些数据对于某一领域是关键知识，而对于另一领域则可能毫无意义。传统的知识提取方法没有考虑具体领域特征。本章提出了领域相关的富含知识的句子提取方法，DAKSE。DAKSE 从领域问答语料库和特定领域的纯文本文档中学习富

NLP入门之N元语法模型

编辑文章在上边我们知道其实当今的自然语言处理的主流趋势是统计自然语言处理,而统计自然语言处理的基本目的就是结合语料库中的一些数据对于某些未知的数据进行处理,从而根据这些数据分布得到一些推论,大家想一

NLP入门之N元语法模型

在上边我们知道其实当今的自然语言处理的主流趋势是统计自然语言处理,而统计自然语言处理的基本目的就是结合语料库中的一些数据对于某些未知的数据进行处理,从而根据这些数据分布得到一些推论,大家想一想,我们在

「Adobe国际认证」平面设计师的，终极排版术语综合指南，都包含了哪些设计要点？

如果您是新媒体或者自媒体专员，没有理由不了解以下术语。如果您只是想了解更多有关平面设计的知识，也欢迎来到终极排版术语综合指南。

重磅 | 谷歌开源大规模语言建模库，10亿+数据，探索 RNN 极限

【新智元导读】谷歌今天宣布开源大规模语言建模模型库，这项名为“探索RNN极限”的研究今年 2 月发表时就引发激论，如今姗姗来迟的开源更加引人瞩目。研究测试取得了极好的成绩，另外开源的数据库含有大约 1

想用R和Python做文本挖掘又不知如何下手？方法来了！

📷 大数据文摘作品，转载要求见文末作者 | Karlijn Willems 编译团队 | 饶蓁蓁，Mirra，apple黄卓君文本挖掘应用领域无比广泛，可以与电影台本、歌词、聊天记录等产生奇妙的化学反应,电影对白、歌词和聊天记录等文本中往往藏着各种有趣的故事。想要开始文本挖掘，但是使用的教程过于复杂？找不到一个合适的数据集？大数据文摘的这篇文章将会引导你学习8个技巧和诀窍，希望能够激励你开始文本挖掘的进程并且保持兴趣。 1、对文章产生好奇在数据科学中，几乎做所有事情的

自然语言处理实战--文末送书

1950年，艾伦·图灵（Alan Turing）发表了一篇题为“ 计算机机械与智能（Computing Machinery and Intelligence） ” 的文章，提出了著名的“图灵测试（Turing Test）”。这当中涉及了自动解释和自然语言的生成，作为判断智能的条件，这就是自然语言处理（Natural Language Processing，NLP）发展的开端。

程序员的英语学习指南

对程序员来说，“渣英语”可是限制自己更上一层楼的重要阻碍。不仅阅读最新英文研究与教程困难，去国际顶会与别人开口交流也成了问题。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐