nlp 数据增强 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

如何从斯坦福自然语言处理工具中获得增强的依赖关系解析？

、、

我们正在尝试对来自波兰语的数据训练斯坦福神经网络依赖解析器(使用.conllu格式的通用依赖树库)。数据已经被标记化和注释，所以我们既没有训练标记器，也没有训练核心NLP提供的解析器。但我们也希望训练解析器来重新生成增强的通用依赖关系，这些依赖关系也在树库中表示。到目前为止，我还没有在NNDEP和核心NLP的文档和常见问题解答中找到这样做的方法，尽管据我所知，使用Stanford NLP解析器是可能的。是增强的依赖关系解析只适用于英语(或其他官方支持的语言)，还是我只是

浏览 36提问于2019-03-17得票数 0

1回答

如何获得通用依赖？

、

stanfordnlp/CoreNLP如何获得通用依赖，而不是像从命令行在线演示那样进行增强？在"stanford-parser-full-2016-10-31“中，我尝试命令行： java -mx1000m -cp "$scriptdir/:" edu.stanford.nlp.parser.lexparser.LexicalizedParser-sentences newline -outputFormat "typedDependencies" -originalDependenci

浏览 3提问于2017-08-11得票数 0

1回答

在Stanford coreNLP中，基本依赖项和增强依赖项产生不同的结果

、、、

基本依赖项和增强依赖项对于特定依赖项是不同的结果。我使用以下代码来获得增强的依赖项。val lp = LexicalizedParser.loadModel("edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz")val rawWords = edu.stanford.nlp.ling

浏览 19提问于2017-08-29得票数 0

回答已采纳

2回答

如何在具有多个不平衡类的数据集中执行文本分类

、

我对NLP完全陌生，我的任务是在包含193 K记录的数据集上执行文本分类。班级数为107班。记录数量最多的类包含> 16k项，而频率较低的类仅包含5个条目。由于保密要求，已对类名进行了编辑。做文本增强是否有意义，还是应该在模型评估阶段实施某种形式的加权？如果是，您将推荐哪些文本增强/称量工具或程序？

浏览 0提问于2021-09-16得票数 5

2回答

空间相似性警告：“基于空向量评估Doc.similarity。”

、、、、

我正在尝试使用FAQ数据集进行数据增强。我用Wordnet检查与Spacy的相似性，用大多数相似的词来改变单词，特别是名词。我使用多个for循环来遍历数据集。import spacyfrom nltk.corpus import wordnet as wnfor question in quest

浏览 0提问于2019-04-30得票数 6

回答已采纳

1回答

如何使用spaCy创建新实体并仅从关键字列表中学习

、、、、

我创建了下面的培训数据，如下所示： ('Dermaptera',{'entitiesif 'ner' not in nlp.pipe_names: nlp.add_pipe(ner) # oth

浏览 0提问于2018-05-29得票数 14

1回答

如何使用使用Java的斯坦福NLP工具生成通用依赖关系？

、、

我们使用以下命令从命令行创建了解析树： java -mx1g -cp "*" edu.stanford.nlp.parser.lexparser.LexicalizedParser -sentencesnewline -tokenized -tagSeparator / -tokenizerFactory edu.stanford.nlp.process.WhitespaceTokenizer -tokenizerMethodnewCoreLabelTokenizerFactory edu/stanford/

浏览 3提问于2015-12-14得票数 1

2回答

连续训练监督学习问题

、、、、

注意，我主要处理文本数据(NLP问题)。我们根本不能无限地接受新数据

浏览 0提问于2020-08-06得票数 1

2回答

Apache Stanbol情感分析

、

我已经将“情感-词-分类器”引擎添加到增强器链中，我还添加了所有必需的链，以便能够提取标记及其词性标签。这是我的增强器链的组成：opennlp-sentence ( required , OpenNlpSentenceDetectionEngine)opennlp-token ( required , OpenNlpTokenizerEngine

浏览 1提问于2014-06-12得票数 2

2回答

在不平衡的数据集上需要增加多少数据？

、、

假设我有一个包含正反两句的数据集，我需要训练一个转换器(比如BERT)来进行二进制分类。问题是有100句否定句和2000句肯定句。有用于NLP数据增强的库，如：https://github.com/makcedward/nlpaug为了使失衡比1在像我这样的高度不平衡的数据集中，我必须用每句话来生成19个

浏览 0提问于2021-09-17得票数 0

1回答

如何使用Java在MongoDB中使用AND和OR子句执行查询？

、、、

ArrayList<>(); criteria1.add(new Document("fetchStatus", new Document("$gte", FetchStatus.PROCESSED_NLP.getID

浏览 1提问于2016-04-20得票数 4

回答已采纳

1回答

Microsoft Visual Studio正在更改我的参数

例如，有问题的参数是-nlp:"<u>"，Visual Studio正在将其更改为-nlp:"<u xmlns="http://schemas.microsoft.com/developer/msbuild预期的结果是保持键入的内容不变：-nlp:"<u>"。这是一个例子，但实际上有两个参数会受到这种影响。通过添加相同的字符串，两者都得到了“增强”。如果我使用其他值，它们总是以相同的方式受到影响

浏览 28提问于2019-06-27得票数 1

回答已采纳

5回答

在python中使用coreNLP类型化依赖项

、、、

('in', '7', 'case') 生成它的代码：stanfordnlp.download('en') doc = nlp("Barack Obama was not born in Hawaii")a.p

浏览 0提问于2019-06-10得票数 6

回答已采纳

2回答

如何使用batchSize限制Solr中的数据端口

、、

我需要从mysql数据库导入大量数据和索引文档(大约1000个文档)。在索引过程中，我需要通过向外部Apache Stanbol服务器发送增强请求来对字段进行特殊处理。我已经在solrconfig.xml中配置了我的数据端口处理程序，以便在更新链中使用StanbolContentProcessor，如下所示；这是否可以使用数据配置中dataSource

浏览 3提问于2013-11-26得票数 1

2回答

如果列值满足语句，如何提取整个数据帧行？

、、、

我有一个包含2列的数据帧： +-----------+----------++-----------+----------+nlp = detect 这是可行的，但仅将推文添加到temp_list temp_list = [row for row in df['Tweet'] if nlp(row)=='de'] 但是，我想要的是，如果语言检测算法将其标记为德语，则

浏览 15提问于2019-12-14得票数 2

回答已采纳

1回答

在NLP中使用数据增强技术效果低的原因是什么？

、、

我在我的数据集上使用了数据增强技术，以便有更多的数据需要训练。我的数据是文本，所以数据增强技术是基于随机插入词，随机交换和同义词替换。我所用的算法在其他数据集中表现良好，但在我的实验中，它的精度比原来的实验要低。有什么逻辑的解释吗？

浏览 0提问于2019-11-01得票数 1

回答已采纳

1回答

neo4j - graphaware插件

、、

我下载了graphaware nlp、open-nlp、framework的插件，并将jar文件复制到插件目录中。.2=com.graphaware.nlp.module.NLPBootstrapper at com.graphaware.nlp.processor.opennlp.OpenNLPPipeline.(TextProcessorsManager.java:60) at com.graphaware.nlp.proc

浏览 4提问于2017-11-07得票数 0

1回答

如何回忆像人类一样古老的学习

然而，好的是，如果需要在未来，我们再次看到的数据，我们不需要从零开始学习它。我们只是回忆一下。对于机器学习模型，有人能建议如何构建这样的体系结构吗？我理解LSTM的概念，但这是一个非常基本的单位。对于像NLP这样的情况，我们需要大型模型，我在这里寻求建议，如何解决这个问题。

浏览 0提问于2022-10-12得票数 1

2回答

读取所有XML文件以生成数据

、、、

我问了一个关于将xml数据读取给熊猫数据的问题。我的文件夹中有以下文件，并希望像上面那样读取每个文件，并为每一行创建一个表示该文件的数据框架。我可以通过以下函数读取所有文件，但不知道如何使用所有文件生成数据帧。/trainset/20091541.xmlTaxonomy_NLP/public_dat/trainset/

浏览 4提问于2022-05-23得票数 0

1回答