使用NLP分析从文本中删除特殊字符_使用Apache Tika从文本/PDF中删除特殊字符_从字符串中删除特殊字符 - 腾讯云开发者社区

这样的文本在这里，我想创建一个关键字过滤，并从字符串中删除无意义的特殊字符。

浏览 48提问于2021-08-05得票数 0

1回答

调用nlp时出现Python Spacy错误: UnicodeDecodeError：'ascii‘编解码器无法解码字节0xe2

、、、

Python3.6:我在pandas df中的一列文本上使用Spacy。文本中确实有“特殊字符”，我需要保留它们。出于某种原因，nlp需要使用unicode。我从下面的nlp得到一个错误：import spacy df['Tex

浏览 19提问于2019-08-15得票数 0

1回答

有办法从文本文件中删除特殊字符吗？

、

我试图从命令行中进行一些基本的文本分析，但是每当我尝试运行一个命令时，我会得到以下内容: tr:非法字节序列。我已经把问题的范围缩小到文本中的特殊字符(‘，ˆ，吲哚等)。我能做些什么从文本中删除这些特殊字符吗？我可以使用命令行吗？还是我要运行一个脚本？

浏览 2提问于2017-01-22得票数 2

回答已采纳

1回答

Solr NLP整数的配置

、、、

我希望在SOLR中使用OpenNLP。我已经看过SOLR wiki和其中给出的所有配置。是否有一些特殊的请求处理程序需要编写？如果没有，那么可以在模式和配置文件中进行哪些配置来启动和运行SOLR NLP集成。提前谢谢。

浏览 2提问于2013-09-19得票数 0

2回答

我应该删除法语的特殊字符和撇号吗？

、、、

我正在做一个法语文本预处理任务，以准备数据来训练一个NLP模型。但我不知道是否最好删除法语的特殊字符和撇号，或者保留它们。boulot je veut démissionnerMalgre que jai tellement aime ce boulot je veut demissionner删除URL和电

浏览 0提问于2022-12-29得票数 0

回答已采纳

2回答

使用spacy从dataframe中提取实体

、、

import pandas as pddfimport spacydoc = nlp(df)Got：：TypeEr

浏览 20提问于2020-02-07得票数 2

1回答

如何使用Google Cloud Natural Language分析重音字符

、、

我正在尝试使用python client on Python3 (collab)来分析带有重音字符的文本。我正在设置类型为PLAIN_TEXT的document对象。# Run a sentiment analysis request on text client) retu

浏览 4提问于2019-05-23得票数 0

2回答

在C#/.NET中删除字符串数组中重复的短语

、、、

我正在使用Lucene来搜索和索引页面，不幸的是，它爬行页面并吸收了许多常见的文本，例如语言选择器“美国，巴西等”。显示并稀释我的搜索结果。我想计算常见的单词和短语，如果很多文档包含“如何帮助”，我想从索引中删除它。这似乎是一个已经解决的NLP，有没有一种方法可以分析本质上是一个字符串数组，并删除不断出现的短语？

浏览 1提问于2013-12-07得票数 1

1回答

如何使用DataFrame从Pandas DataFrame中提取命名实体

、、、

我试图使用问题的第一个答案提取命名实体，代码如下所示 doc = nlp(i)df = df[df.iloc[:,0].notna()] 从</em

浏览 2提问于2020-12-18得票数 2

回答已采纳

1回答

基于spaCy的令牌化

、、、、

我是Python的新手，我希望在这里为我的文本分析项目找到帮助。我试图标记从python中的excel导入的几个文本元素。每个文本元素都位于单独的行中。df2 = df['Textelements'] doc = nlp(d

浏览 2提问于2022-08-13得票数 1

2回答

替换字符串中不需要的特殊字符，在两个数字之间保留特殊字符。

、、

嗨，我正在做一个NLP项目，在那里我需要从文本中识别实体/组织名称。但是，字符串中的单词与(_：，)字符连接在一起，如下所示：我想按以下方式清理字符串：我们删除了两个单词之间的特殊字符( and :and，and:0-9)，但保留了772到520之间的符

浏览 2提问于2018-09-08得票数 0

回答已采纳

1回答

我试着用西班牙语对文本进行NLP分析。所以，为了做柠檬化，我使用Spacy，因为NLTK没有西班牙语版本的引理。斯派西的问题是，我对我能通过莱马提泽传递的字数有限制： ValueError:长度为6095095的 E088文本超过最大值1000000。解析器和NER模型在输入中每10万个字符需要大约1GB的临时内存。这意味着长文本可能会导致内存分配错误。如果您没有使用解析器或NER，那么增加nlp.max_leng

浏览 16提问于2021-11-07得票数 2

1回答

重转换txt文件(从Windows到Unix)

、、、

我的大学项目是用Java编写的，从Twitter上获取推文并对其进行分析。在第一阶段，我使用tweet；我必须在Windows机器上这样做，在我把它放到我的Linux服务器程序上之后，我用它来分析带有用户反馈系统的tweet。当我在Linux机器上打开txt文件时，它会问我是否想在UTF-8中进行转换，然后单击“是”。但是，由于这种操作，有些特殊字符的格式不正确。我知道不可能重新转换这些字符，因为任何特殊字符都是它们

浏览 0提问于2017-05-10得票数 0

1回答

R中的Kmeans聚类和文本挖掘

、、

我使用streamR和parseTweets函数将其加载到R中。我需要对这些数据进行Kmeans聚类。首先，我需要清理和准备数据，但数据是数字和字符的混合，它不允许我这样做：(例如)内容转换到tolower。*library(streamR)install.package

浏览 1提问于2016-11-26得票数 0

2回答

基于字典的NLTK标记器

、、、、

我想使用NLTK和Stanford-NLP来标记文本中的位置字符串我不需要做任何语义分析，只需要根据我的位置字典来标记位置。想法？

浏览 4提问于2013-09-07得票数 4

2回答

使用Python进行文本分类

、、

我正在使用NLP和SkLearn在Python中执行与文本分类相关的任务。我需要从我的文本中删除随意的单词。我知道我可以用nlp删除停止词和标点符号。但是我要问的是关于完全随机的字符串，比如('ncdjbcjdkckdvcj'，'khsjgcgjcbjbcj'，'jsbjsgucgugcus')，一个你完全随机输入的字符串。请注意，我的<e

浏览 0提问于2019-01-15得票数 1

1回答

每当字符串中有任何数字时，spacy doc.char_span就会引发错误。

、、、、

我将字符串及其令牌偏移保存到JSON文件中。 training_data = json.loads(file.read()) 我也尝试过将alignment_type从strictspan = doc.char_span(start, end, label, alignment_mode

浏览 14提问于2022-11-18得票数 0

回答已采纳

1回答

文本挖掘、NLP与诸如令牌化、离题化、停止词删除等任务之间的联系如何？

、、

我对大数据和文本挖掘的整个世界都很陌生。但有一件事我还是不明白。NLP、文本挖掘与标记化、柠檬化、停止字删除等任务之间的联系。我指的是这两份文件，例如： https://www.elderresearch.com/wp-content/uploads/2020/10/Whitepaper_这个_七_实践_区域_的_文本_分析_第二章_2_Excerpt.pdf

浏览 0提问于2021-08-04得票数 1

1回答

如何使用Hibernate分析器？

、、、、

我试图在hibernate查询中搜索特殊字符，我使用QueryParser.escape(String searchTerm)将一个'\‘字符放在所有特殊字符的前面，以正确地转义它们。但是，我发现用来标记的标准分析器从索引中删除了这些特殊字符，所以即使您正确地转义了术语“abc-def”，如果您尝试并搜索它，也必须搜索'abc def‘。那么，

浏览 1提问于2013-08-14得票数 1

回答已采纳

1回答

我如何从法庭报告中提取合法赔偿的理由？

、、、

例如，让我们把这些判决(从法庭报告中)和我想做一个算法，从这句话中提取出合法赔偿的动机。输出可以是字符串或字符串列表，这并不重要。因为我不是NLP专家(但我已经做过一个关于情感分析的项目，所以我知道一些关于NLP的东西)，而且有这么多的文章，我不知道从哪里开始。我正在研究法语文本，但我可以不用写英文文本了。

浏览 0提问于2020-01-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云