开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >文档术语矩阵之间的“差异”

问文档术语矩阵之间的“差异”
EN

Stack Overflow用户

提问于 2016-03-31 22:52:00

回答 1查看 594关注 0票数 2

假设我有一组100文档，70谈到政治，30谈到数学(我知道这是一个奇怪的组合)。我的目标是通过多维尺度分析、网络分析、som等方法在xy上表示它们。当我考虑整个文档时，我喜欢这样做：

我制作了一个包含100个元素的语料库(docs)；
从语料库中创建文档术语矩阵(dtm)；
通过dtm，我创建了一个距离矩阵(dist)，它涉及组成文档的术语或文档本身(根据我想要表示的内容)。

显然，我可以为这两种不同的图形，但我想做一些不同的事情。我有三个身体(docs_tot，docs_P，docs_M)和三个文档术语矩阵(dtm_tot，dtm_P，dtm_M)。

解决办法：

1)表示xy上的文档总数，不同的是政治文档和数学文档。通过这种方式，我可以看到它们是否代表xy上的自然星系团。

2)对差异进行网络分析。是否有一种概念性的方法来细分，例如，dtm_P和dtm_tot，因为知道dtm_P只有一个子集(70)的dtm_tot文档(100)？

term-document-matrix

EN

回答 1

Stack Overflow用户

发布于 2016-03-31 23:07:24

这听起来像是您可能会考虑使用comparison.cloud()。下面是wordcloud包帮助页面中的一个示例：

library(tm)
library(wordcloud)
data(SOTU)
corp <- SOTU
corp <- tm_map(corp, content_transformer(tolower))
corp <- tm_map(corp, removeNumbers)
corp <- tm_map(corp, function(x)removeWords(x,stopwords()))
corp <- tm_map(corp, removePunctuation)
term.matrix <- TermDocumentMatrix(corp)
term.matrix <- as.matrix(term.matrix)
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011")
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)

这也适用于两个以上的组，如所示，例如here。

希望这能有所帮助。

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36349818

复制

相关文章

java解析xml工具类[通俗易懂]

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/143972.html原文链接：https://javaforall.cn

全栈程序员站长

2022/08/31

1.4K0

Java XML解析工具类

xml java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/162472.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/16

1.3K0

java 解析处理XML字符串

String text = "<members> <member>sitinspring</member> </members>"; org.dom4j.Document document = DocumentHelper.parseText(text); String text1 = document.selectSingleNode("/members/member").getText(); System.out.println(text1); <dependency> <groupId>ja

前Thoughtworks-杨焱

2021/12/08

4720

java解析XML格式字符串

一个字符串 <message>HELLO!</message>,怎样解析得到HELLO！? 正则表达式可以轻松解决，但是节点多了就搞不定了。 1、使用JDOM String xml = "<mess

matinal

2020/11/27

1.9K0

Java解析XML字符串「建议收藏」

xml https java 网络安全腾讯云测试服务

在网上找了很多Java语言解析XML字符串的资料，很多内容写得很繁复，没有普适性，遂自己动手写了一个用Java解析XML的工具类。话不多说，直接看下面代码：

全栈程序员站长

2022/09/05

7090

xml解析---Java解析xml文件

xml 数据库 sql

dom4j解析xml文件、之前用下面的方法，90M的xml，500万行，解析完插入数据库，单线程，不到1小时搞定，而只是解析数据，只用了7秒。

IT云清

2019/01/22

7.1K0

java 解析xml报文(字符串)「建议收藏」

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/135916.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/05

1.9K0

JAVA解析XML格式字符串「建议收藏」

xml https java 网络安全编程算法

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/140692.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/01

2.2K0

Java解析XML字符串格式「建议收藏」

xml java api https 网络安全

dom4j是一个Java的XML API，是jdom的升级品，用来读写XML文件的。dom4j是一个十分优秀的JavaXML API，具有性能优异、功能强大和极其易使用的特点，它的性能超过sun公司官方的dom技术，同时它也是一个开放源代码的软件，可以在SourceForge上找到它。在IBM developerWorks上面还可以找到一篇文章，对主流的Java XML API进行的性能、功能和易用性的评测，所以可以知道dom4j无论在哪个方面都是非常出色的。如今可以看到越来越多的Java软件都在使用dom4j来读写XML，特别值得一提的是连Sun的JAXM也在用dom4j。

全栈程序员站长

2022/09/05

1K0

xml解析工具-jdom

编程算法 xml java

前言：近期接触SSH框架的时候，经常得配置一下xml文件；今天闲来没事就挖挖xml解析的原理供大伙儿分享。本文主要通过一个简单的例子解析一个xml文件。明白其中缘由之后，大家想定义自己的xml也绝非难事~

云海谷天

2022/08/09

7510

Java 解析 XML[通俗易懂]

编程算法 xml xslt & xpath node.js express

JAXP是JavaSE的一部分,在javax.xml.parsers包下,分别针对dom与sax提供了如下解析器:

全栈程序员站长

2022/09/05

1.9K0

xml解析---Java解析xml文件 /江格式解析

本文源于：http://www.cnblogs.com/Qian123/p/5231303.html点击这里

IT云清

2019/01/22

4K0

字符串解析成XML

xml map 遍历递归字符串

用户3519280

2023/07/07

1520

Python解析XML字符串

# -*- coding: utf-8 -*- import xml.sax import xml.sax.handler class XMLHandler(xml.sax.handler.ContentHandler): def __init__(self): self.buffer = "" self.mapping = {} def startElement(se

py3study

2020/01/10

1.4K0

java 解析 XML实例

java xml servlet

package com.hseact.fecp.servlet; import java.io.IOException; import javax.xml.parsers.DocumentBuilder; import javax.xml.parsers.DocumentBuilderFactory; import javax.xml.parsers.ParserConfigurationException; import org.json.JSONObject; import org.json.XM

庞小明

2018/03/07

1.4K0

Java解析XML文件

编程算法 ide java xml c++

1.DOM方式解析XML Dom解析是将xml文件全部载入到内存，组装成一颗dom树，然后通过节点以及节点之间的关系来解析xml文件,与平台无关,java提供的一种基础的解析XML文件的API,理解较简单，但是由于整个文档都需要载入内存,不适用于文档较大时。

全栈程序员站长

2022/08/18

1.9K0

[ java 工具类] xml字符串解析成Map(DOM解析)

java xml go hashmap

package com.tencent.jungle.wechat.util; import com.google.inject.Singleton; import org.w3c.dom.Document; import org.w3c.dom.Node; import org.w3c.dom.NodeList; import org.xml.sax.InputSource; import javax.xml.parsers.DocumentBuilder; import javax.xml.pars

Tencent JCoder

2018/12/14

3.3K0

java xml解析框架_JAVA解析xml的五种方式对比

xml java api 编程算法 javascript

本篇文章主要对比Java即系xml的五种方式，这五种方式各有利弊，大家可以看情况采用哪一种。

全栈程序员站长

2022/09/05

1.7K0

tinyXml直接解析XML字符串

xml element return 性能字符串

tinyxml性能太差了,小文件还行,大文件痛苦死了 pugixml是一个不错的选择

用户3519280

2023/07/06

2970

Java解析XML的实践

xml api java 腾讯云测试服务

通过这段代码，重点是需要理解他的解析过程，就可以根据实际用到的XML格式，写出对应的解析逻辑。

bisal

2023/02/16

1K0

相似问题

是否可以以编程方式更改全局偏移表/GOT或过程链接表/PLT？

38

过程链接表和调用关系表

11

用于链接表中行的存储过程

10

防止GDB中的PLT (过程链接表)断点

46

EF和链接表

21

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例