腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
NLP
分析
从
文本
中
删除
特殊
字符
这样的
文本
在这里,我想创建一个关键字过滤,并从
字符
串
中
删除
无意义的
特殊
字符
。
浏览 48
提问于2021-08-05
得票数 0
1
回答
调用
nlp
时出现Python Spacy错误: UnicodeDecodeError:'ascii‘编解码器无法解码字节0xe2
、
、
、
Python3.6:我在pandas df
中
的一列
文本
上
使用
Spacy。
文本
中
确实有“
特殊
字符
”,我需要保留它们。出于某种原因,
nlp
需要
使用
unicode。我从下面的
nlp
得到一个错误:import spacy df['Tex
浏览 19
提问于2019-08-15
得票数 0
1
回答
有办法
从
文本
文件
中
删除
特殊
字符
吗?
、
我试图从命令行中进行一些基本的
文本
分析
,但是每当我尝试运行一个命令时,我会得到以下内容: tr:非法字节序列。我已经把问题的范围缩小到
文本
中
的
特殊
字符
(‘,ˆ,吲哚等)。我能做些什么
从
文本
中
删除
这些
特殊
字符
吗?我可以
使用
命令行吗?还是我要运行一个脚本?
浏览 2
提问于2017-01-22
得票数 2
回答已采纳
1
回答
Solr
NLP
整数的配置
、
、
、
我希望在SOLR中
使用
OpenNLP。我已经看过SOLR wiki和其中给出的所有配置。是否有一些
特殊
的请求处理程序需要编写?如果没有,那么可以在模式和配置文件中进行哪些配置来启动和运行SOLR
NLP
集成。提前谢谢。
浏览 2
提问于2013-09-19
得票数 0
2
回答
我应该
删除
法语的
特殊
字符
和撇号吗?
、
、
、
我正在做一个法语
文本
预处理任务,以准备数据来训练一个
NLP
模型。但我不知道是否最好
删除
法语的
特殊
字符
和撇号,或者保留它们。boulot je veut démissionnerMalgre que jai tellement aime ce boulot je veut demissionner
删除
URL和电
浏览 0
提问于2022-12-29
得票数 0
回答已采纳
2
回答
使用
spacy
从
dataframe中提取实体
、
、
import pandas as pddfimport spacydoc =
nlp
(df)Got::TypeEr
浏览 20
提问于2020-02-07
得票数 2
1
回答
如何
使用
Google Cloud Natural Language
分析
重音
字符
、
、
我正在尝试
使用
python client on Python3 (collab)来
分析
带有重音
字符
的
文本
。我正在设置类型为PLAIN_TEXT的document对象。# Run a sentiment analysis request on text client) retu
浏览 4
提问于2019-05-23
得票数 0
2
回答
在C#/.NET
中
删除
字符
串数组
中
重复的短语
、
、
、
我正在
使用
Lucene来搜索和索引页面,不幸的是,它爬行页面并吸收了许多常见的
文本
,例如语言选择器“美国,巴西等”。显示并稀释我的搜索结果。我想计算常见的单词和短语,如果很多文档包含“如何帮助”,我想从索引
中
删除
它。这似乎是一个已经解决的
NLP
,有没有一种方法可以
分析
本质上是一个
字符
串数组,并
删除
不断出现的短语?
浏览 1
提问于2013-12-07
得票数 1
1
回答
如何
使用
DataFrame
从
Pandas DataFrame中提取命名实体
、
、
、
我试图
使用
问题的第一个答案提取命名实体,代码如下所示 doc =
nlp
(i)df = df[df.iloc[:,0].notna()]
从</em
浏览 2
提问于2020-12-18
得票数 2
回答已采纳
1
回答
基于spaCy的令牌化
、
、
、
、
我是Python的新手,我希望在这里为我的
文本
分析
项目找到帮助。我试图标记
从
python
中
的excel导入的几个
文本
元素。每个
文本
元素都位于单独的行
中
。df2 = df['Textelements'] doc =
nlp
(d
浏览 2
提问于2022-08-13
得票数 1
2
回答
替换
字符
串
中
不需要的
特殊
字符
,在两个数字之间保留
特殊
字符
。
、
、
嗨,我正在做一个
NLP
项目,在那里我需要从
文本
中
识别实体/组织名称。但是,
字符
串
中
的单词与(_:,)
字符
连接在一起,如下所示:我想按以下方式清理
字符
串:我们
删除
了两个单词之间的
特殊
字符
( and :and,and:0-9),但保留了772到520之间的符
浏览 2
提问于2018-09-08
得票数 0
回答已采纳
1
回答
如何在spaCy
中
处理非常长的文档?
、
、
我试着用西班牙语对
文本
进行
NLP
分析
。所以,为了做柠檬化,我
使用
Spacy,因为NLTK没有西班牙语版本的引理。斯派西的问题是,我对我能通过莱马提泽传递的字数有限制: ValueError:长度为6095095的 E088
文本
超过最大值1000000。解析器和NER模型在输入
中
每10万个
字符
需要大约1GB的临时内存。这意味着长
文本
可能会导致内存分配错误。如果您没有
使用
解析器或NER,那么增加
nlp
.max_leng
浏览 16
提问于2021-11-07
得票数 2
1
回答
重转换txt文件(
从
Windows到Unix)
、
、
、
我的大学项目是用Java编写的,
从
Twitter上获取推文并对其进行
分析
。在第一阶段,我
使用
tweet;我必须在Windows机器上这样做,在我把它放到我的Linux服务器程序上之后,我用它来
分析
带有用户反馈系统的tweet。当我在Linux机器上打开txt文件时,它会问我是否想在UTF-8
中
进行转换,然后单击“是”。但是,由于这种操作,有些
特殊
字符
的格式不正确。我知道不可能重新转换这些
字符
,因为任何
特殊
字符
都是它们
浏览 0
提问于2017-05-10
得票数 0
1
回答
R
中
的Kmeans聚类和
文本
挖掘
、
、
我
使用
streamR和parseTweets函数将其加载到R
中
。我需要对这些数据进行Kmeans聚类。首先,我需要清理和准备数据,但数据是数字和
字符
的混合,它不允许我这样做:(例如)内容转换到tolower。*library(streamR)install.package
浏览 1
提问于2016-11-26
得票数 0
2
回答
基于字典的NLTK标记器
、
、
、
、
我想
使用
NLTK和Stanford-
NLP
来标记
文本
中
的位置
字符
串我不需要做任何语义
分析
,只需要根据我的位置字典来标记位置。 想法?
浏览 4
提问于2013-09-07
得票数 4
2
回答
使用
Python进行
文本
分类
、
、
我正在
使用
NLP
和SkLearn在Python
中
执行与
文本
分类相关的任务。我需要从我的
文本
中
删除
随意的单词。我知道我可以用
nlp
删除
停止词和标点符号。但是我要问的是关于完全随机的
字符
串,比如('ncdjbcjdkckdvcj','khsjgcgjcbjbcj','jsbjsgucgugcus'),一个你完全随机输入的
字符
串。请注意,我的<e
浏览 0
提问于2019-01-15
得票数 1
1
回答
每当
字符
串中有任何数字时,spacy doc.char_span就会引发错误。
、
、
、
、
我将
字符
串及其令牌偏移保存到JSON文件
中
。 training_data = json.loads(file.read()) 我也尝试过将alignment_type
从
strictspan = doc.char_span(start, end, label, alignment_mode
浏览 14
提问于2022-11-18
得票数 0
回答已采纳
1
回答
文本
挖掘、
NLP
与诸如令牌化、离题化、停止词
删除
等任务之间的联系如何?
、
、
我对大数据和
文本
挖掘的整个世界都很陌生。但有一件事我还是不明白。
NLP
、
文本
挖掘与标记化、柠檬化、停止字
删除
等任务之间的联系。我指的是这两份文件,例如: https://www.elderresearch.com/wp-content/uploads/2020/10/Whitepaper_这个_七_实践_区域_的_
文本
_
分析
_第二章_2_Excerpt.pdf
浏览 0
提问于2021-08-04
得票数 1
1
回答
如何
使用
Hibernate
分析
器?
、
、
、
、
我试图在hibernate查询
中
搜索
特殊
字符
,我
使用
QueryParser.escape(String searchTerm)将一个'\‘
字符
放在所有
特殊
字符
的前面,以正确地转义它们。但是,我发现用来标记的标准
分析
器
从
索引
中
删除
了这些
特殊
字符
,所以即使您正确地转义了术语“abc-def”,如果您尝试并搜索它,也必须搜索'abc def‘。那么,
浏览 1
提问于2013-08-14
得票数 1
回答已采纳
1
回答
我如何
从
法庭报告中提取合法赔偿的理由?
、
、
、
例如,让我们把这些判决(
从
法庭报告
中
)和我想做一个算法,从这句话中提取出合法赔偿的动机。输出可以是
字符
串或
字符
串列表,这并不重要。 因为我不是
NLP
专家(但我已经做过一个关于情感
分析
的项目,所以我知道一些关于
NLP
的东西),而且有这么多的文章,我不知道
从
哪里开始。我正在研究法语
文本
,但我可以不用写英文
文本
了。
浏览 0
提问于2020-01-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
NLP小白入门篇:莫愁前路,一文读懂语料预处理
使用NLPAUG 进行文本数据的扩充增强
python自然语言处理:(三)加工原料文本
女人的嘴,骗人的鬼?ELMo教你用算法分辨女人心
基础入门:如何用自然语言分析大型数据集?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券