腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
NLTK
从
段落
中
删除
重复
的
句子
?
python-3.x
、
nlp
、
nltk
我有一个巨大
的
文档,里面有很多
重复
的
句子
,比如(页脚文本,带有字母数字字符
的
超链接),我需要去掉那些
重复
的
超链接或页脚文本。我已经尝试了下面的代码,但不幸
的
是没有成功。请复习并提供帮助。from
nltk
.tokenize import sent_tokenizefor sentence in corpus: words =sentences_with_dups.append
浏览 16
提问于2020-06-12
得票数 1
1
回答
用BeautifulSoup
删除
分页符
python
、
html
、
beautifulsoup
、
nltk
我
使用
BeautifulSoup
从
html文档中提取文本,然后将文本传递给
NLTK
进行一些分析。HTML文件中有分页符。分页会导致连续
段落
被分割。bs4 import BeautifulSouptxt = (soup.get_text())分割
的
段落
如下每个
段落
由几个
段落
组成由单词组成
的
句子</
浏览 2
提问于2016-11-06
得票数 1
回答已采纳
0
回答
如何
使用
NLTK
重写一个
句子
或
段落
python
、
nlp
、
nltk
我正在尝试
使用
NLTK
重新组织语法正确
的
句子
或
段落
。我知道文章旋转器,但它们通常只是将单词替换为它们
的
同义词。那么,有没有一种方法可以很容易地
使用
NLTK
生成与原始
句子
结构不同但本质上具有相同含义
的
句子
?例如,“
如何
从
网站获得被动收入”“你
如何
从
网站获得剩余收入”“这就是你
如何
从
网站获得剩余收
浏览 5
提问于2016-07-11
得票数 1
1
回答
NLTK
:
如何
保持对原文
的
引用
nltk
我想给你发短信 但是,上面的步骤
删除
了信息/令牌。
如何
保留对原始文本
的
引用,以便知道这些元素最初显示在何处,以便引用正确
的
段落
?
浏览 7
提问于2017-02-05
得票数 0
回答已采纳
5
回答
将HTML解析成
句子
--
如何
处理表/列表/标题/等等?
python
、
html
、
nlp
、
nltk
、
text-segmentation
如何
将包含自由文本、列表、表格、标题等
的
HTML页面解析成
句子
? 词类:文档
中
每个单词
的
句
浏览 10
提问于2012-06-30
得票数 8
1
回答
将文本blob转换为
句子
python
、
nltk
是否可以
使用
nltk
将一段文本转换为
句子
。例如: sen = 'this is a test sentence1 this is a test sentence 2 this is a test'Sentence 2 : this
浏览 18
提问于2021-02-06
得票数 0
1
回答
nltk
语句标记器,将新行视为
句子
边界。
python
、
nlp
、
nltk
、
tokenize
我
使用
nltk
的
PunkSentenceTokenizer将文本标记为一组
句子
。然而,标记器似乎并不将新
段落
或新行视为新
句子
。>>> from
nltk
.tokenize.punkt import PunktSentenceTokenizer>Sentence 3.')我也想把新
的</e
浏览 0
提问于2015-03-13
得票数 19
回答已采纳
1
回答
是否可以将
nltk
.tree.Tree.draw()输出写入文件
python
、
parsing
、
tree
、
nlp
、
nltk
在问这个问题之前,我先看了一下这些( ,),它们都不是我
的
用例。我想要一个文件(文本/图
浏览 1
提问于2018-08-16
得票数 1
1
回答
用拥抱脸赫尔辛基模式
从
英语翻译到意大利语没有完全翻译
python-3.x
、
neural-network
、
nlp
、
huggingface-transformers
、
machine-translation
我是一个新手,正在浏览拥抱脸库,尝试数据输入任务
的
翻译模式,并将文本
从
英语翻译成意大利语。我根据文档尝试
的
代码:from typing import List 这里有两个问题: 只翻译和附加部分文本,也就是说,如果
段落
长度超过某一长度,它就截断<
浏览 6
提问于2021-07-01
得票数 1
1
回答
从
文本语料库中分离非结构化
句子
python
、
python-2.7
、
text
、
nltk
我正在做一个项目,在这个项目中我必须
从
文本语料库中分离出合适
的
句子
。我尝试过
使用
NLTK
句子
标记器,但它似乎可以根据句点(“.”)对
句子
进行标记化。所以我在想,有没有办法将表格数据,短语
从
文本文件中分离出来?<?xml version='1.0' encoding='UTF-8'?DOCTOR"/>
浏览 2
提问于2017-05-31
得票数 2
2
回答
用Python提取包含一个单词
的
句子
..。以及它周围
的
句子
?
python
、
regex
、
nlp
、
nltk
、
text-segmentation
在提取包含一个单词
的
特定
句子
(如和)时,有很多问题,而且我有足够
的
初学者经验,可以自己完成
NLTK
和SciPy
的
操作。在这个例子
中
,目标词是“the”。如果我想提取目标
句子
(我能做什么?
浏览 4
提问于2014-05-22
得票数 2
回答已采纳
2
回答
Doc2Vec
段落
输入
nlp
、
gensim
我理解doc2vec是
如何
工作
的
,但我不清楚在数据
中
输入数据
的
最佳实践。我真的很喜欢足球。佩顿·曼宁是个伟大
的
球员.如果我们按原样将其输入算法,“Peyton”
的
窗口可能包括“爱”、“足球”、“曼宁”、“曾经”。有什么建议吗?
浏览 0
提问于2017-11-29
得票数 0
2
回答
从
文本文件
中
随机选择
句子
,找到一致
的
ID号
python
、
regex
、
random
、
linguistics
在这些文本文件
中
,数据排列如下: Blockquote> 因此,有数百个
段落
,每个
段落
的
开头都是一个六位数,前面是"##“。这个数字对应于判决
的
出处。我需要从这些文件
中
随机抽取
句子
,并从这些文件<em
浏览 1
提问于2016-03-22
得票数 3
回答已采纳
1
回答
使用
NLTK
快速
删除
命名实体
python
、
optimization
、
nltk
、
named-entity-recognition
我编写了几个用户定义
的
函数来
从
文本
句子
/
段落
列表
中
删除
Python
中
的
命名实体(
使用
NLTK
)。我遇到
的
问题是我
的
方法非常慢,特别是对于大量数据。有没有人有一个建议,
如何
优化它,让它运行得更快?(text) to
浏览 0
提问于2017-05-03
得票数 2
1
回答
用于
删除
重复
句子
的
python脚本
python
、
nltk
我
的
脚本
的
目的是进入一个目录,遍历目录
中
的
文件,
从
每个文件
中
删除
重复
的
句子
,并将每个文件
的
结果保存到一个新
的
命名文件
中
。 这是一个带有大写字
的
句子
。这是一个带有单词环境
的
句子
。这是一个带有单词环境
的
句子
。这是一
浏览 2
提问于2018-01-27
得票数 0
2
回答
从一组文档中分类标注
句子
的
最佳方法
machine-learning
、
nlp
、
classification
、
nltk
我有一个分类问题,我需要找到最好
的
方法来解决它。我有一套培训文档,文档
中
的
一些
句子
和/或
段落
都有标记。并不是所有的
句子
/
段落
都有标签。一个
句子
或
段落
可能有多个标签/标签。我想做
的
是做一些模型,如果给出一个新
的
文件,它将为文件
中
的
每一个
句子
/
段落
提供建议
的
标签。理想情况下,
浏览 0
提问于2013-09-19
得票数 7
8
回答
如何
计算一个文件
中
的
句子
、单词和字符
的
数量?
python
、
nltk
我编写了以下代码来标记来自文件samp.txt
的
输入
段落
。有人能帮我找出并打印出文件
中
的
句子
、单词和字符
的
数量吗?为此,我在python中
使用
了
NLTK
。>>>import
nltk
.data>>>f=open('samp.txt')>&
浏览 0
提问于2011-02-22
得票数 8
1
回答
Python
NLTK
移除不属于URL
的
内部标点符号
python
、
nltk
我在Python中
使用
NLTK
,我在尝试
从
文本
中
删除
内部标点符号时遇到了问题,因为在句点之后应该有一个空格来开始一个新
句子
。 这里有几个例子: 'on.How‘ 'time.Jerry‘ “我?
如何
删除
上述示例
中
的
标点符号,同时在stackoverflow.com或
nltk
.org等URL中保留标点符号? 谢谢!
浏览 36
提问于2020-05-01
得票数 0
回答已采纳
3
回答
使用
Python
从
电子邮件
中
仅提取完整
的
集合?
python
、
nlp
、
extract
、
html-email
、
text-processing
我有数以千计
的
电子邮件存储在纯文本或HTML
中
。所有的纯文本电子邮件
的
格式基本相同,因此只提取实际
的
电子邮件消息非常简单。Python有没有某种方法来识别与正文或完整
句子
相似的内容?我已经尝试
使用</
浏览 0
提问于2013-06-25
得票数 1
1
回答
句子
标记器
中
的
停止词
python
、
nlp
我
使用
停止词和
句子
标记器,但当我打印过滤
的
句子
,给我
的
结果,包括停止词。问题是它不能忽视输出
中
的
停顿。
如何
删除
句子
标记器
中
的
句号?myfile1 = open(userinput1).read() word1 =
nltk
.sent_tok
浏览 1
提问于2017-04-23
得票数 0
回答已采纳
点击加载更多
相关
资讯
如何使用Python从列表中删除指定的元素
如何使用 Python从Redis 中删除 4000万 KEY
终于有人把机器学习中的文本摘要解释清楚了!
神级程序员花了三个礼拜来整理的资料!带来Python NLP入门教程!
在VBA中如何使用动态数组,以及利用动态数组去除重复值的方法
热门
标签
更多标签
云服务器
ICP备案
即时通信 IM
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券