如何使用NLTK从段落中删除重复的句子？

文章/答案/技术大牛

发布

1回答

python-3.x、nlp、nltk

我有一个巨大的文档，里面有很多重复的句子，比如(页脚文本，带有字母数字字符的超链接)，我需要去掉那些重复的超链接或页脚文本。我已经尝试了下面的代码，但不幸的是没有成功。请复习并提供帮助。from nltk.tokenize import sent_tokenizefor sentence in corpus: words =sentences_with_dups.append

浏览 16提问于2020-06-12得票数 1

1回答

用BeautifulSoup删除分页符

python、html、beautifulsoup、nltk

我使用BeautifulSoup从html文档中提取文本，然后将文本传递给NLTK进行一些分析。HTML文件中有分页符。分页会导致连续段落被分割。bs4 import BeautifulSouptxt = (soup.get_text())分割的段落如下每个段落由几个段落组成由单词组成的句子</

浏览 2提问于2016-11-06得票数 1

回答已采纳

0回答

如何使用NLTK重写一个句子或段落

python、nlp、nltk

我正在尝试使用NLTK重新组织语法正确的句子或段落。我知道文章旋转器，但它们通常只是将单词替换为它们的同义词。那么，有没有一种方法可以很容易地使用NLTK生成与原始句子结构不同但本质上具有相同含义的句子？例如，“如何从网站获得被动收入”“你如何从网站获得剩余收入”“这就是你如何从网站获得剩余收

浏览 5提问于2016-07-11得票数 1

1回答

NLTK:如何保持对原文的引用

nltk

我想给你发短信但是，上面的步骤删除了信息/令牌。如何保留对原始文本的引用，以便知道这些元素最初显示在何处，以便引用正确的段落？

浏览 7提问于2017-02-05得票数 0

回答已采纳

5回答

将HTML解析成句子--如何处理表/列表/标题/等等？

python、html、nlp、nltk、text-segmentation

如何将包含自由文本、列表、表格、标题等的HTML页面解析成句子？词类：文档中每个单词的句

浏览 10提问于2012-06-30得票数 8

1回答

将文本blob转换为句子

python、nltk

是否可以使用nltk将一段文本转换为句子。例如： sen = 'this is a test sentence1 this is a test sentence 2 this is a test'Sentence 2 : this

浏览 18提问于2021-02-06得票数 0

1回答

nltk语句标记器，将新行视为句子边界。

python、nlp、nltk、tokenize

我使用nltk的PunkSentenceTokenizer将文本标记为一组句子。然而，标记器似乎并不将新段落或新行视为新句子。>>> from nltk.tokenize.punkt import PunktSentenceTokenizer>Sentence 3.')我也想把新的</e

浏览 0提问于2015-03-13得票数 19

回答已采纳

1回答

是否可以将nltk.tree.Tree.draw()输出写入文件

python、parsing、tree、nlp、nltk

在问这个问题之前，我先看了一下这些( ，)，它们都不是我的用例。我想要一个文件(文本/图

浏览 1提问于2018-08-16得票数 1

1回答

用拥抱脸赫尔辛基模式从英语翻译到意大利语没有完全翻译

python-3.x、neural-network、nlp、huggingface-transformers、machine-translation

我是一个新手，正在浏览拥抱脸库，尝试数据输入任务的翻译模式，并将文本从英语翻译成意大利语。我根据文档尝试的代码：from typing import List 这里有两个问题：只翻译和附加部分文本，也就是说，如果段落长度超过某一长度，它就截断<

浏览 6提问于2021-07-01得票数 1

1回答

从文本语料库中分离非结构化句子

python、python-2.7、text、nltk

我正在做一个项目，在这个项目中我必须从文本语料库中分离出合适的句子。我尝试过使用NLTK句子标记器，但它似乎可以根据句点(“.”)对句子进行标记化。所以我在想，有没有办法将表格数据，短语从文本文件中分离出来？<?xml version='1.0' encoding='UTF-8'?DOCTOR"/>

浏览 2提问于2017-05-31得票数 2

2回答

用Python提取包含一个单词的句子..。以及它周围的句子？

python、regex、nlp、nltk、text-segmentation

在提取包含一个单词的特定句子(如和)时，有很多问题，而且我有足够的初学者经验，可以自己完成NLTK和SciPy的操作。在这个例子中，目标词是“the”。如果我想提取目标句子(我能做什么？

浏览 4提问于2014-05-22得票数 2

回答已采纳

2回答

Doc2Vec段落输入

nlp、gensim

我理解doc2vec是如何工作的，但我不清楚在数据中输入数据的最佳实践。我真的很喜欢足球。佩顿·曼宁是个伟大的球员.如果我们按原样将其输入算法，“Peyton”的窗口可能包括“爱”、“足球”、“曼宁”、“曾经”。有什么建议吗？

浏览 0提问于2017-11-29得票数 0

2回答

从文本文件中随机选择句子，找到一致的ID号

python、regex、random、linguistics

在这些文本文件中，数据排列如下： Blockquote> 因此，有数百个段落，每个段落的开头都是一个六位数，前面是"##“。这个数字对应于判决的出处。我需要从这些文件中随机抽取句子，并从这些文件<em

浏览 1提问于2016-03-22得票数 3

回答已采纳

1回答

使用NLTK快速删除命名实体

python、optimization、nltk、named-entity-recognition

我编写了几个用户定义的函数来从文本句子/段落列表中删除Python中的命名实体(使用NLTK)。我遇到的问题是我的方法非常慢，特别是对于大量数据。有没有人有一个建议，如何优化它，让它运行得更快？(text) to

浏览 0提问于2017-05-03得票数 2

1回答

用于删除重复句子的python脚本

python、nltk

我的脚本的目的是进入一个目录，遍历目录中的文件，从每个文件中删除重复的句子，并将每个文件的结果保存到一个新的命名文件中。这是一个带有大写字的句子。这是一个带有单词环境的句子。这是一个带有单词环境的句子。这是一

浏览 2提问于2018-01-27得票数 0

2回答

从一组文档中分类标注句子的最佳方法

machine-learning、nlp、classification、nltk

我有一个分类问题，我需要找到最好的方法来解决它。我有一套培训文档，文档中的一些句子和/或段落都有标记。并不是所有的句子/段落都有标签。一个句子或段落可能有多个标签/标签。我想做的是做一些模型，如果给出一个新的文件，它将为文件中的每一个句子/段落提供建议的标签。理想情况下，

浏览 0提问于2013-09-19得票数 7

8回答

如何计算一个文件中的句子、单词和字符的数量？

python、nltk

我编写了以下代码来标记来自文件samp.txt的输入段落。有人能帮我找出并打印出文件中的句子、单词和字符的数量吗？为此，我在python中使用了NLTK。>>>import nltk.data>>>f=open('samp.txt')>&

浏览 0提问于2011-02-22得票数 8

1回答

Python NLTK移除不属于URL的内部标点符号

python、nltk

我在Python中使用NLTK，我在尝试从文本中删除内部标点符号时遇到了问题，因为在句点之后应该有一个空格来开始一个新句子。这里有几个例子： 'on.How‘ 'time.Jerry‘ “我?如何删除上述示例中的标点符号，同时在stackoverflow.com或nltk.org等URL中保留标点符号？谢谢!

浏览 36提问于2020-05-01得票数 0

回答已采纳

3回答

使用Python从电子邮件中仅提取完整的集合？

python、nlp、extract、html-email、text-processing

我有数以千计的电子邮件存储在纯文本或HTML中。所有的纯文本电子邮件的格式基本相同，因此只提取实际的电子邮件消息非常简单。Python有没有某种方法来识别与正文或完整句子相似的内容？我已经尝试使用</

浏览 0提问于2013-06-25得票数 1

1回答

句子标记器中的停止词

python、nlp

我使用停止词和句子标记器，但当我打印过滤的句子，给我的结果，包括停止词。问题是它不能忽视输出中的停顿。如何删除句子标记器中的句号？myfile1 = open(userinput1).read() word1 = nltk.sent_tok

浏览 1提问于2017-04-23得票数 0

回答已采纳

点击加载更多