我发现了各种工具来提取英语中的动词和名词短语,包括在stackoverflow中的一些问题中。然而,我发现的技术似乎只适用于英文文本。我尝试过spacy和textblob,但它们不会返回任何葡萄牙语文本(在英语中完全有效)。 以下是我在葡萄牙语中尝试过的方法: doc.noun_chunks中的Spacy to extract specific noun phrase块在英语中可以完美地工作,但是有人知道葡萄牙语已经存在的技术吗?我在找所有我知道的地方。
对不起,如果这似乎是一个愚蠢的问题,但我对Python和SpaCy还不熟悉。
我有一个包含客户投诉的数据框架。看起来有点像这样:
df = pd.DataFrame( [[1, 'I was waiting at the bus stop and then suddenly the car mounted the pavement'],
[2, 'When we got on the bus, we went upstairs but the bus braked hard and I fell'],
我在一个NLP项目中使用spacy。使用Spacy创建文档时,可以通过以下方式查找文本中的名词块(也称为“名词短语”):
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(u"The companies building cars do not want to spend more money in improving diesel engines because the government will not subsidise such engines anymore.")
for chunk
我想打印依赖图的子树。对于句子"I turn the red meat“和起始词meat-NN,输出应该是:"the red meat”。
现在我是这样做的
protected String printSubGraph(IndexedWord startingWord, SemanticGraph graph) {
Iterable<SemanticGraphEdge> outiter = graph.outgoingEdgeIterable(startingWord);
// set the default bounds to the start
我想从一个句子中提取“所有”名词短语。我在想我怎么能做到。我有以下代码:
doc2 = nlp("what is the capital of Bangladesh?")
for chunk in doc2.noun_chunks:
print(chunk)
输出:
1. what
2. the capital
3. bangladesh
预期:
孟加拉国首都
我试过了spacy和StackOverflow的答案。什么都没用。似乎只有cTakes和Stanford core NLP才能给出这样复杂的NP。
任何帮助都是非常感谢的。
我想知道我们如何提取中心名词?我使用了一个不起作用的选民解析器,但我想我必须使用依赖解析器。我运行了这个演示代码,但它给了我一个错误的答案。
public class dependencydemo {
public static void main(String[] args) throws IOException {
PrintWriter out;
if (args.length > 1) {
out = new PrintWriter(args[1]);
} else {
out = new PrintWriter(System.
如何使用Stanford Parser提取包含特定单词的名词短语。我可以使用这篇文章中写的代码来提取名词短语:
但是,我需要获取包含特定单词的名词短语,但是这并不像进行字符串搜索那么简单,因为该单词可以在句子中出现两次。因此,我需要提取包含句子特定顺序的特定单词的名词短语。假设我有这样一句话:
String some_sentence = "The dog ran after the intruding bigger dog";
狗出现了两次,第一次作为句子中的第二个单词,第二次作为句子中的最后一个单词。如何提取包含第一次出现的狗的名词短语?
我是自然语言处理的新手,我需要从text.So中提取名词短语我已经使用了open nlp的组块解析器来解析我的文本,以获得树structure.But我无法从树结构中提取名词短语,open nlp中是否有任何正则表达式模式,以便我可以使用它来提取名词短语。
下面是我使用的代码
InputStream is = new FileInputStream("en-parser-chunking.bin");
ParserModel model = new ParserModel(is);
Parser parser = ParserFactory.create
在自然语言处理过程中,判断当前句子是否有“线索”的逻辑应该是什么?这需要在分析时从前一句中提取出来。
我不知道如何恰当地描述这个问题,或者NLP的哪个子主题被称为NLP,所以我想举一个例子。
如果前一句是Find me an Italian restaurant in New York city
现在的句子是What's the weather there tomorrow
解析器应该如何理解当前句子中的there指的是前一句中提到的New york。
PS -我对NLP相当陌生,所以请在这里解释一下。
我遇到了大量关于从文本中提取名词短语的材料。名词短语被定义为由可选的JJ修饰的相邻的NN/NNS/NNP/NNPS。很容易注意到,提取名词短语是为了获得关于文本全部内容的感觉,且可以生成单词的标签/云,或者显示文本语料库的名词短语的分布。
另一方面,需要提取动词短语的场景是什么?存在哪些业务问题,需要提取动词短语?
谢谢Abhishek S
如何使用数据集从句子中提取短语,该数据集包含句子的某些集合和相应的标签,格式为
Sentence1:I want to play cricket
Label1: play cricket
Sentence2: Need to wash my clothes
Label2: wash clothes
我曾尝试将分块与nltk一起使用,但我不能将训练数据与分块一起使用。
我使用StringTokenizer成功地将句子拆分成单词。
有没有工具可以把像Projektüberwachung这样的复合词拆分成Projekt和überwachung,甚至
拆分复合词的原因是我想做一个文本提取。我想把像这些Projektplanung und -überwachung这样的短语转换成Projektplanung和Projektüberwachung两部分。拆分复合词是我的第一步。
使用spacy来标记化抓取的推文。我知道我们可以根据词性进行过滤。我正在过滤专有名词,但它仍然将名字和姓氏分解为两个标记。我将使用这些标记进行网络分析,因此我希望将适当的名称放在一起。
这是我现在拥有的代码:
uniquewords = {}
for tweetzipfile in tweetzipfiles:
zf = zipfile.ZipFile(tweetzipfile)
for i, obj in enumerate(zf.infolist()):
tweetjson = json.load(zf.open(obj))
tweetText = tweetjs
如果我有下面的代码,我将如何使它生成Answer= 5 and Answer2= 10?。我的目标是?- test(Data),lpsolve(Data, [Answer1,Answer2]).
:-use_module(library(clpfd)).
test([the, variable, X, is, five,fullstop,
the,variable, Y, is, ten, fullstop]).
lpsolve(Data, [Answer,Answer2]):- sentence(Answer, Data,[]).
sen