首页
学习
活动
专区
圈层
工具
发布

R包之tm:文本挖掘包

://mirror.bjtu.edu.cn/cran/web/packages/tm/tm.pdf 简介 tm 即text mining,是用来做文本挖掘的一个R包,是一个进行自然语言处理的基础包。...安装 该包的安装方法是install.packages("tm") 数据输入—文集(corpus) 文集代表一个文档集,通常一个文件就是一个文档。多个文档构成一个文集。...language 指明文本的语言 因此,对于包tm目录下的texts/txt目录下的文本文件可以这样做成一个文集 library(tm)#> Loading required package: NLPtxt...是一个修改文档内容的方便的函数,tolower可以是任何其他的字符串修改函数 移除停用词 reuters tm_map(reuters, removeWords, stopwords("english...有了矩阵以后,可以有很多R函数可以作用于它,但是tm包提供了一些常用的函数,比如你想找到那些至少 出现了10次的单词,使用findFreqTerms()函数 findFreqTerms(dtm,10)

2.2K80
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

    ︱文本挖掘套餐包之——XML+tm+SnowballC包 笔者寄语:文本挖掘、情感分析是目前非结构数据非常好用、有效的分析方式。...包)、格式转化 tm包可以实现:建立语料库、创建文档-词频矩阵、去噪(还有Rwordseg包是中文分词包) SnowballC包可以实现:提取词干 本篇暂时不介绍XML包的数据爬取,先来看后面两个包的实现...本文以一个案例介绍SnowballC包+tm包,使用的数据是R语言中自带的数据集,案例部分来源于参考西门吹风博客。...reuters tm_map(reuters, removeWords, stopwords("english"))#去停用词 tm包调用SnowballC可以词干化,函数名字叫:stemDocument; 记号化在tm包中叫做getTokenizers函数。

    1.4K40

    R语言进行中文分词,并对6W条微博聚类

    由于我是64位机,但是配置的rj包只能在32bit的R上使用,而且Rwordseg包貌似不支持最新版本的R(3.01),所以请在32bit的R.exe中运行如下语句安装0.0-4版本: install.packages...因为我蛋疼的发现对整个向量执行时,还是会出现识别人名的现象…… 运行完后请detach()包,removeWords()函数与tm包中的同名函数冲突。...由于tm包中的停用词()都是英文(可以输入stopwords()查看),所以大家可以去网上查找中文的停用词(一般700多个的就够了,还有1208个词版本的),用removeWords函数去除语料库中的停用词...由于tm包是对英文文档就行统计挖掘的,所以生成TDM时会对英文文档进行分词(即使用标点和空格分词),之前Rwordseg包做的就是将中文语句拆分成一个个词,并用空格间隔。...tm包默认TDM中只保留至少3个字的词(对英文来说比较合适,中文就不适用了吧……),wordLengths = c(1, Inf)表示字的长度至少从1开始。

    2.1K61

    关于R安装中文分词包安装不上的问题install.packages(tm)

    使用默认方法安装相关R中文文本挖掘包(tmcn、Rwordseg、Rweibo)时,会出现安装失败。合适的方法是:通过源代码安装相关包的程序:手工下载源代码及其依赖,然后编译安装。...首先是基础性的tm包。tm包是R文本挖掘的通用包。直接使用install.package即可安装。...install.packages("tm") tmcn、Rwordseg、Rweibo是李舰等人开发的中文文本挖掘包。三个网页(官网)中提供了包说明与安装方法。但经测试,其中的安装方法不可用。...正确的安装方法为: 先下载tmcn、[Rwordseg]、Rweibo 的源码。 tmcn无依赖关系,直接使用。...该包需要预先安装Java环境。如果未曾安装Java,请先安装Java,安装Java(及PATH的配置)过程不再赘述。

    1.3K70

    关于R安装中文分词包安装不上的问题install.packages(tm)

    使用默认方法安装相关R中文文本挖掘包(tmcn、Rwordseg、Rweibo)时,会出现安装失败。合适的方法是:通过源代码安装相关包的程序:手工下载源代码及其依赖,然后编译安装。...首先是基础性的tm包。tm包是R文本挖掘的通用包。直接使用install.package即可安装。...本帖隐藏的内容 1 install.packages("tm")tmcn、Rwordseg、Rweibo是李舰等人开发的中文文本挖掘包。三个网页(官网)中提供了包说明与安装方法。...但经测试,其中的安装方法不可用。正确的安装方法为:先下载tmcn、[Rwordseg]、Rweibo的源码。tmcn无依赖关系,直接使用。...该包需要预先安装Java环境。如果未曾安装Java,请先安装Java,安装Java(及PATH的配置)过程不再赘述。

    91320

    【译文】用R创建云词

    在这篇文章中,我会向大家展示如何利用文本数据在R中建立云词。我们会使用一个包含20万个问题的数据集,而这数据集可以在这里下载(感谢reddit网站的用户trexmatt给我们提供的数据集)。...我们会使用这三个包:tm, SnowballC 和 wordcloud。 首先,我们要加载所需的包和读取数据。...) jeopCorpus tm_map(jeopCorpus, removeWords, stopwords(‘english’)) 再下一步,我们会提取词干。...函数中写上这些词语,操作如下: jeopCorpus tm_map(jeopCorpus, removeWords, c(‘the’, ‘this’, stopwords(‘english’)))...品言译,陆勤审,PPV课原创翻译文章,禁止转载,转载需获得PPV课和作者的授权 原文链接:http://datascienceplus.com/building-wordclouds-in-r/ 投稿须知

    1.1K30

    ChAMP R包安装中的事故

    ChAMP 包提供了完整的分析illumina甲基化芯片的pipeline, 和普通的Bioconductor 包的安装一样,代码只有简单的两行 source("http://bioconductor.org.../biocLite.R") biocLite("ChAMP") 我用的电脑是windows 操作系统,64位的R-3.4.3,安装过程中除了网速较慢,花费一点时间安装之外,并没有出现任何的问题。...dll 文件就是windows操作系统下的动态链接库,在加载R包的过程中,如果这个R包有对应的动态链接库,那么就会加载进来。...解决方案就是设置环境变量R_MAX_NUM_DLLS, 不管是什么操作系统,R语言对应的环境变量都可以在.Renviron文件中进行设置。...ChAMP的功能确实是更加的强大和完整,同时也意味它的依赖包会特别的多,从而出现dll文件达到上限的错误。本文记录的解决方案,适合于任何操作系统,希望可以帮助到大家。

    2.6K20

    原来JVM中的堆栈TM这么简单!

    那个我们熟悉的gc(垃圾回收站)负责把那些不再被引用(reference)的对象从heap memory中清理掉,这也是gc的职责所在。在heap空间里创建的任何对象都是全局访问的。...这个stack里边包含了方法里边那些定义的值,这些值随着一次方法执行完毕后就消失了;还包含了引用地址。这个引用地址就是对存放在heap memory中的一个链接。...你可以理解为关系数据库里边的外键,nosql中的外链。总之你理解就行。stack memory由于她是个stack结构。所以呢,他也遵循LIFO,就是后进先出的顺序。...2 只要是对象的创建,都是被存储到heap space中,同时stack中有这个对象的引用地址。stack memory中只包含基本类型变量和存储在heap space中的对象的引用变量。...3 存储在heap中的对象是全局都可以访问的,然而stack memory不能被其他线程访问。

    1.6K90

    R语言与机器学习(分类算法)朴素贝叶斯算法

    (所以在文本分类时能够用关键词就更好了) R语言中Naive Bayes的实现函数 R的e1071包的naiveBayes函数提供了naive bayes的具体实现,其用法如下: ##...., data = Titanic) m R中的文本处理工具 在介绍贝叶斯文本挖掘之前,我想我们先得把R处理文本的一些工具简单的介绍一下,比如处理文本的tm包,R语言处理正则表达式之类的...,关于tm包你可以参阅的是tm的帮助文档《Introduction to the tm Package Text Mining in R》,关于正则表达式可以参阅furtherreading 的《文本(...)在tm 包里,这些函数都归到信息转化里面,其主要函数就是tm_map(),这个函数可以通过maps 方式将转化函数实施到每一个单词上。...对于分类而言,我们使用tm包来做naive Bayes多少有些高射炮打蚊子的意思,因为这里面除了去除停止词外我们几乎没有用到tm的更多不能利用base包实现的东西了(比如词类统计可以使用table,字典的查询可以使用

    2.2K40

    Bioconductor 中的 R 包安装教程(续一)

    这是《Bioconductor 中的 R 包安装教程》的第二篇,完整的文章可以点击阅读原文查阅。...安装新版本的 Bioconductor R 包 Bioconductor 是与特定版本的 R 绑定的,正常来说当 Bioconductor 的包都来自同一版本时,它们的效果最佳。...以 DiffBind 包为例,DiffBind==3.4.0 是基于 Bioconductor==3.14(对应 R-4.1)开发的;我们在 Bioconductor==3.13(对应 R-4.0)中执行...源码方式安装 如果想要在 Bioconductor==3.13(对应 R-4.0)中安装 DiffBind==3.4.0,可以直接通过源码包的方式安装: > packageurl 的是清华大学的,第二行,设定 install.packages 从 CRAN 和 Bioconductor 中搜索包,其实你还可以让它支持比如 R-Forge 以及各种第三方的仓库。

    8.2K10
    领券