TextBlob转换器无法检测数据帧中的不同语言

TextBlob是一个Python库，用于处理文本数据的自然语言处理任务，包括文本分类、情感分析、词性标注、名词短语提取等。然而，TextBlob转换器无法直接检测数据帧中的不同语言。

要解决这个问题，可以借助其他语言检测工具来辅助。一种常用的方法是使用langdetect库，它可以根据文本的特征判断其所属的语言。可以通过安装langdetect库并使用其detect()函数来检测数据帧中的不同语言。

以下是一个示例代码：

from langdetect import detect

def detect_language(text):
    try:
        return detect(text)
    except:
        return "Unknown"

# 假设df是一个包含文本数据的数据帧
df['language'] = df['text'].apply(detect_language)

这段代码将会在数据帧的每一行文本上应用detect_language函数，将检测到的语言结果存储在名为'language'的新列中。

对于不同语言的处理，可以根据具体需求采取不同的策略。例如，可以使用不同的自然语言处理模型或算法来处理不同语言的文本数据。

腾讯云提供了一系列与自然语言处理相关的产品和服务，包括文本翻译、语音识别、智能闲聊等。您可以参考腾讯云自然语言处理产品文档来了解更多详情：腾讯云自然语言处理产品

请注意，以上答案仅供参考，具体的解决方案可能因实际情况而异。

HTTPError: HTTP错误429:请求太多

、、

我有一个dataframe，其中一个列在每一行上都有一个字符串列表。平均而言，每个列表有150个单词，每个字约6个字符。数据文件的700行中的每一行都是关于一个文档的，每个字符串都是这个文档的一个单词；因此，基本上我已经标记了文档的单词。我想检测每个文档的语言，为了做到这一点，我首先尝试检测文档中每个单词的语言。为此，我做了以下工作： from textblob import TextBlob def lang_detect(document): lang_count = {} for word in document: if len(word)

浏览 1提问于2019-05-17得票数 12

1回答

在python - textblob.exceptions中使用textblob进行转换时出现问题

、、、

我正在尝试使用Pypdf2从pdf中提取文本，并使用Textblob进行翻译。 import PyPDF2 as pdf from docx import Document from textblob import TextBlob Arquivo = 'teste.pdf' lgout = input('\nPara qual língua traduzir? ex: pt, en, es: ') lgin = input('\nQual língua é o documento? ex: pt, en, es: ') with open(

浏览 6提问于2020-05-18得票数 0

4回答

Python翻译API错误

、、

我在WindowsPython2.7.10中使用textblob已经有一段时间了，而且出乎意料的是，它停止了工作。使用两个独立的虚拟机进行测试以及在OS上进行测试都会产生相同的错误。测试来自的简单片段 from textblob import TextBlob en_blob = TextBlob(u'Simple is better than complex.') print(en_blob.translate(to='es')) 产生一个错误：文件"test.py"，第3行，在打印(en_blob.transla

浏览 8提问于2016-02-15得票数 4

1回答

如何在python中的单独列的数据帧中插入pos标签？

、、、

我已经使用TextBlob标记了我的输入文本，并将其导出为文本文件。它给了我三个信息: POS，Parse Chunker和Deep Parsing。此标记的输出格式为: Technique:Plain/NNP/B-NP/O and/CC/I-NP/O。我希望将其安排在一个数据帧中，每个数据帧都有单独的列。这是我正在使用的代码。 import pandas as pd import csv from textblob import TextBlob with open('report1to8_1.txt', 'r') as myfile: r

浏览 20提问于2019-04-21得票数 0

回答已采纳

1回答

离线语言检测库或脚本

、、、

我的Python服务之一是使用textblob进行语言检测。上个月，Google对textblob调用的API服务做了一个破变。已经提供了更新textblob以使其再次工作的步骤。但我已决定，我希望我的服务不容易受到第三方破坏的变化。因此，我正在寻找一个离线解决方案。这是目前正在讨论的职能。对此没有太大影响： def is_english(text): blob = TextBlob(text) language = blob.detect_language() return language == "en" 解决办法应：能够确定一页文本(~300字

浏览 0提问于2021-10-31得票数 1

回答已采纳

1回答

对数据帧的每一行应用中的文本二进制大对象

、、

我有一个数据框，其中有一个列，其中包含文本。我想要应用textblob并计算每行的情感值。 text sentiment 这太棒了伟大的电影伟大的故事当我执行以下代码时： df['sentiment'] = list(map(lambda tweet: TextBlob(tweet), df['text'])) 我得到了错误： TypeError: The `text` argument passed to `__init__(text)` must be a string, not <class 'float&#

浏览 0提问于2017-04-19得票数 10

回答已采纳

1回答

如何从pandas数据帧中的文本字符串中提取所有形容词？

、

我正在将CSV加载到pandas数据框中。数据框中的一列是“评论”，它包含文本字符串。我需要在数据帧的所有行中标识此列中的所有形容词，然后创建一个新列“形容词”，其中包含该评论中所有形容词的列表。我已经尝试使用TextBlobs，并且能够使用发布的代码标记每个案例的词性。 import pandas as pd from textblob import TextBlob df=pd.read_csv('./data.csv') def pos_tag(text): try: return TextBlob(text).tags except

浏览 26提问于2019-07-11得票数 2

回答已采纳

1回答

Pandas Dataframe使用TextBlob翻译功能的问题

、、、

我试图使用TextBlob翻译功能将非英语语言转换成英语。我的数据集是基于Pandas数据框架的。我知道它在非Pandas数据帧上下文中工作。例如, what=TextBlob("El apartamento de Evan esta muy bien situado, con fcil acceso al cualquier punto de Manhattan gracias al metro.") whatt=what.translate(to= 'en') print (whatt) 但是基于Pandas数据框架，TextBlob转换不能正常工作。我

浏览 4提问于2021-01-14得票数 1

回答已采纳

1回答

用textblob拼写意大利语文本

、、

我想用textblob来拼写意大利语的文本，但我只找到了英语的代码。怎么能做到呢？这是来自textblob导入TextBlob文本= "I‘m going to schol“text = TextBlob( text ) print(text.correct())的英语代码。

浏览 0提问于2019-03-29得票数 0

回答已采纳

1回答

Dataframe pandas中的POS标签-Textblog

、、

我正在尝试对数据帧中存在的文本执行POS标记。我尝试使用TextBlob，但是没有得到想要的结果。我希望得到的结果是“应该创建一个包含所有标记的新列”。例如：“我喜欢stackoverflow”，我的新列POS_tagged应该有('I'，'PRP')，(' like '，'VBP')，('stackoverflow'，'JJ') 我试过使用Textblob，但它只适用于一句话。它不适用于一系列的句子。 def postag(sentence1): blob=TextBlob(sentence1)

浏览 3提问于2018-03-28得票数 1

1回答

将TextBlob情感分析结果拆分为两个单独的列- Python Pandas

、、

from textblob import TextBlob def sentiment_calc(text): try: return TextBlob(text).sentiment except: return None test_df['sentiment score'] = test_df['text'].apply(sentiment_calc) test_df 我最近在我的数据集上运行了一段代码，以使用TextBlob包实现情感分析。运行之后，我的sentiment列在下面有以下输出(我做了一个下面

浏览 0提问于2017-11-05得票数 2

1回答

Python:法语中的NLTK和TextBlob

、、

我正在使用NLTK和TextBlob查找文本中的名词和名词短语： from textblob import TextBlob import nltk blob = TextBlob(text) print(blob.noun_phrases) tokenized = nltk.word_tokenize(text) nouns = [word for (word, pos) in nltk.pos_tag(tokenized) if is_noun(pos)] print(nouns) 如果我的文本是英文的，它可以工作得很好，但是如果我的文本是法语的，它就不再好了。我无法找到如何使此代码

浏览 1提问于2017-02-06得票数 5

1回答

Pandas中的Apply方法无法处理函数

、、

我是第一次接触熊猫。以下是名为sub_set的数据帧的文本: Id是新闻的id，text列包含新闻： Id text 1 the news is really bad. 2 I do not have any courses. 3 Asthma is very prevalent. 4 depression causes disability. 我将在"text“列中计算每条新闻的情绪。我需要创建一个列来包含情感分析的结果。这是我的代码： from

浏览 26提问于2019-04-18得票数 0

3回答

如果某些行缺少列中的值，如何应用TextBlob？

、、、

我有一个数据帧，看起来像这样： Text 0 this is amazing 1 nan 2 wow you are great 我希望将dataframe的一个单元格中的每个单词都迭代到textblob中，以获得新列中的极性。但是，有很多行都有nan。我认为这会导致TextBlob在新列中为所有行实现0.0的极性分数，甚至是那些包含文本的行。如何对列中的每个文本运行TextBlob.sentiment.polarity，并使用极性得分创建新列？新的df应该如下所示： Text sentiment 0 this

浏览 8提问于2018-08-17得票数 2

回答已采纳

1回答

运行python程序时的ImportError

、

我已经尝试了所有的导入方法并升级了库，但是仍然无法克服这个错误。我已经以编程方式下载和安装了所有的nltk和语料库数据，并且它在python中工作，但是我得到了错误。 Traceback (most recent call last): File "spark.py", line 7, in <module> from textblob_aptagger import PerceptronTagger File "/usr/local/lib/python2.7/dist-packages/textblob_aptagger/__in

浏览 7提问于2016-03-10得票数 1

回答已采纳

1回答

将Textblob安装到Python3.5.2

、、

我按照https://textblob.readthedocs.io网站的说明安装了Textblob。它在python2.7中运行得很好，但我无法让它在python3.5.2上工作。我试着使用各种命令来安装它，但是它没有工作。

浏览 0提问于2018-02-22得票数 1

2回答

WPF:什么会导致绑定源不更新？

、

我有一种情况，我不确定如何调试。我希望有人能建议为什么它可能不工作，并为我指出正确的方向。我有一个来自数据库的TIFF图像，它被公开为System.Data.Linq.Binary类型的属性。我希望在ItemsControl中显示该TIFF图像中的各个帧，因此我编写了一个转换器，该转换器采用二进制数据类型并返回BitmapFrames的ObservableCollection。我使用转换器以及"Mode=TwoWay"和"UpdateSourceTrigger=PropertyChanged"将ItemsControl.ItemsSource绑定到二进制属性。

浏览 0提问于2009-10-31得票数 1

回答已采纳

1回答

对CSV中的每个单元格迭代语言检测代码，并在下一列中打印结果

、

我写了一个程序，当我的输入是硬编码的时候，它会在检测到我的输入后返回我的语言。我希望在迭代CSV单元格后得到相同的结果，并在下一列中打印相应的语言。我创建了一段代码，当输入是硬编码的时候，它可以检测语言。我现在有一个excel工作表，其中包含一些ID和不同语言的文本。我希望我的程序逐个读取excel单元格，并在相邻的列中打印结果。 from textblob import TextBlob import pycountry b = TextBlob("Si esta yayo si esta yayo alla voy ") iso_code = b.detect_lang

浏览 13提问于2019-02-14得票数 1

回答已采纳

1回答

如何在不覆盖先前值的情况下将循环写入数据帧

、、

基本上，我希望程序运行数据帧中的行。问题是，当将每行的每个处理值写入csv文件时，这些值将在所有行中复制，循环中的最后一行结果将覆盖其余的值。这是我的代码： #Import the libraries from textblob import TextBlob import pandas as pd read=pd.read_csv('HR.csv',delimiter=',',skip_blank_lines=False,skiprows=1,names=['Comments','Score','Sentiment

浏览 2提问于2020-02-09得票数 0

3回答

标记数据帧中的每一行- for循环不起作用

、、、

我正在尝试对熊猫数据帧中的句子进行标记化，但我遇到了一些问题我知道这段代码只隐藏一行 TextBlob(df['H'][0]).words 但是，当我试图在for循环中应用它时，我得到了一个错误 for i, row in df.H(): ifor_val = TextBlob(df['H'][i]).words df.at[i,'ifor'] = H 错误消息: TypeError：'Series‘对象不可调用编辑： data = {'H':['the quick brown fox jumps over t

浏览 3提问于2019-04-09得票数 2

1回答

TextBlob转换器无法检测数据帧中的不同语言

、

我使用TextBlob运行语言翻译器。它可以从字符串转换而来。但是，我尝试为dataframe中的数据循环执行textblob转换器，在dataframe中，dataframe中可能混合了不同的语言(en和es)。我使用的代码是： for content in data: blob = TextBlob(content) for i in data: blob = TextBlob(i) blob.translate(from_lang = 'en', to = 'es') 错误是： 83 result = res

浏览 2提问于2019-10-15得票数 0

回答已采纳

3回答

textblob错误“列表”对象没有属性“条带”

、、

我正在用TextBlob翻译一些文字，直到今天我测试了它，它的工作很好.我使用python 3 textblob版本: 0.15.3。有没有新的更新或者类似的东西？

浏览 9提问于2021-03-18得票数 2

回答已采纳

3回答

在用nltk训练我自己的分类器之后，如何在textblob中加载它？

、、、

在textblob中内置的分类器非常愚蠢。它是关于电影评论的，所以我在我的上下文中创建了大量的例子(57,000个被归类为正面或负面的故事)，然后用nltk.训练它--我试着用textblob来训练它，但是它总是失败的： with open('train.json', 'r') as fp: cl = NaiveBayesClassifier(fp, format="json") 它将运行数小时，并以内存错误结尾。我查看了源代码，发现它只是使用nltk并包装它，所以我使用了它，它起作用了。 nltk训练集的结构需要一个元组列表，第一部分

浏览 2提问于2018-06-13得票数 6

回答已采纳

1回答

如何正确地进行情感分析？

如何正确地对300-600字的文本进行情感分析？如果我使用TextBlob并清理我的数据和删除停止词(扩展单词和逗号backslash..etc)，是否需要将文本标记为句子，然后转换为单词，然后执行柠檬化，然后应用textblob对数据进行符号化？因为我想我在某个地方读到了textblob在调用TextBlob()时所做的所有这些以及pos标记？

浏览 0提问于2021-12-05得票数 1

1回答

在Windows上安装带有Conda的TextBlob

、、

textblob上现有的问题没有提到conda，所以请尝试新的问题。我尝试加载/安装TextBlob 但是只支持OSX 所以我试着用来代替它，但还是没什么好结果 C:\Users\kumar\AppData\Local\Continuum\Anaconda3>conda install -c textblob正在获取程序包元数据：...Could未连接到无法连接到错误:找不到： /win-64/ 谢谢！

浏览 1提问于2015-07-31得票数 2

1回答

在Panda的数据框中只打印了118行

、、、、

我曾尝试使用tweepy和panda的数据帧从特定日期抓取twitter数据。但打印出来的最新数据只有118行。如何通过使用此代码来抓取所有数据？另一个问题是我不能过滤两个特定日期之间的数据，例如: 2019-01-01到2020-01-01。这个特殊任务的代码是什么？请帮帮我，我非常需要这个解决方案。下面是我的代码： import tweepy import re import pandas as pd import itertools import collections import nltk from nltk.corpus import stopwords import matplo

浏览 1提问于2021-01-04得票数 0

1回答

Spyder变量资源管理器中的OverflowError

、、、

我想在Spyder的Variable Explorer中查看熊猫数据帧。当我单击变量资源管理器窗口中的数据帧'Name‘时，将执行一系列文件(spyder_kernel.py、datapub.py、datapub.py和serialize.py)，这些文件是anaconda包的一部分。但是，在执行serialize.py时，会显示以下消息： serialize_object buffers.insert(0, pickle.dumps(cobj, PICKLE_PROTOCOL)) OverflowError:无法序列化大于4 GiB的字节对象数据帧也不会显示。有什么解决方案吗？谢

浏览 1提问于2019-01-11得票数 0

3回答

确定文本语言和纠正python中的打字错误的最佳算法是什么？

、、、、

我正在寻找算法，可以告诉我文本的语言(例如，你好-英语，Bonjour -法语，Servicio -西班牙语)，并纠正英文单词的打字错误。我已经探索了谷歌的TextBlob，它是非常相关的，但它得到了“太多的请求”的错误，只要我的代码开始执行。我也开始探索Polyglot，但我在Windows上下载这个库时遇到了很多问题。 TextBlob的代码 *import pandas as pd from tkinter import filedialog from textblob import TextBlob import time from time import sleep colnames

浏览 37提问于2019-11-18得票数 1

3回答

textblob.exceptions.NotTranslated:转换接口原封不动地返回输入字符串

我正在尝试通过textblob将非英语文本翻译成英语。我阅读了文档，并尝试处理可能的异常，如下所示： txt=" " for word in text.split(): try: w=TextBlob(word) w=w.translate(to='en') except TranslatorError(TextBlobError): word=" " #replace word with space txt=txt+word except NotTran

浏览 1提问于2018-12-23得票数 1

2回答

如何从推文的csv中识别西班牙语和英语文本？

、、

我正在尝试创建一个列，用于从包含多行tweet的数据帧中识别英语和西班牙语tweet。理想情况下，英语的推文应该被归类为1，而西班牙语的推文将被标记为0。最终目标是能够从我的数据框中过滤出西班牙语推文，以便将英文推文保存到新的CSV中。我研究了使用Textblob、langdetect和fastText，但我找到的所有内容都给出了一次只在一个文本字符串上运行代码的说明。有没有一种简单的方法可以使用Python对整个数据帧按语言(英语/西班牙语)进行分类？

浏览 0提问于2020-09-15得票数 1

1回答

使用textblob或spacy更正法语中的拼写

、、、

我想纠正法语文本中拼写错误的单词，似乎spacy是最准确和最快的软件包，但它太复杂了，我尝试使用textblob，但我不能用法语单词来纠正它在英语中工作得很好，但当我尝试用法语做同样的事情时，我得到了同样的拼写错误的单词 #english words from textblob import TextBlob misspelled=["hapenning", "mornin", "windoow", "jaket"] [str(TextBlob(word).correct()) for word in misspelled]

浏览 2提问于2019-11-04得票数 3

1回答

使用TextBlob执行情感分析的缺点和潜在问题是什么？如何解决这些问题呢？

、、

我知道TextBlob会忽略它不认识的单词，它会考虑那些它可以分配极性和平均值的单词和短语，以获得最终分数。还有没有其他我不知道的问题和缺陷？另外，我想知道如何修复它们。考虑到我们可以通过字典和机器学习来使用TextBlob，我认为一个解决方案可能是使用更大的字典并改进训练集。我的直觉正确吗？

浏览 58提问于2021-06-15得票数 0

回答已采纳

1回答

我能用VaderSentiment计算英语以外语言的极性和主观性吗？

、、

我试图创建一个nlp项目来计算非英语文本的极性和主观性，这样我就可以使用两个工具：Vader - Textblob。在我做了大量的研究之后，我发现Vader对于社交媒体来说更有效率和更准确。我的问题是:为了计算套接字，我可以在vader中添加语言吗？还是他们给维德的包是多语言的？对于这个项目，我从csv文件中读取，并将其导入数据熊猫，而不是预处理和清理文本，然后对其进行分析以提取情感。我会感谢你的帮助。

浏览 8提问于2020-04-30得票数 0

回答已采纳

1回答

在Anaconda环境中安装textblob.download_corpora时出错

、、

我正在我的Anaconda环境中安装和使用textblob。我遵循的指示，我成功地安装了pip install -U textblob 在步骤2中，运行python -m textblob.download_corpora时会出现多个错误。其中一个是带有错误消息的Windows弹出：序数242不能位于动态链接库libiomp5md.dll中。在终端机上，我还遇到了两个错误：英特尔MKL错误:操作系统无法运行%1. mkl_intel_thread.dll。英特尔MKL致命错误:无法加载mkl_intel_thread.dll。

浏览 0提问于2019-11-06得票数 0

1回答

在Python中使用Lambda表达式进行情感分析

、、

我正在尝试使用TextBlob在Power BI中执行情感分析。我想使用lamdba表达式，因为它似乎比在Power BI中运行迭代循环快得多。例如，使用文本Blob： dataset['Polarity Score'] =dataset['Comment'].apply(lambda x: TextBlob(str(x).lower()).sentiment.polarity) 创建名为“极性分数”的Power BI数据列，其中包含来自TextBlob的数值。我想用TextBlob.classify()函数做类似的事情。但是，我不知道如何传递分类器的第二

浏览 33提问于2020-02-18得票数 0

回答已采纳

1回答

如何在Textblob python语言检测库中进行语言扩展

、

我需要一个语言检测脚本。我尝试了Textblob库，它现在给了我这个语言的两个字母缩写。我怎样才能得到完整的语言扩展？这将检测语言的两个字母缩写的语言。 from textblob import TextBlob b = TextBlob("cómo estás") language = b.detect_language() print(language) 实际结果: es 预期结果:西班牙文我有这个链接上的语言及其缩写的列表。

浏览 0提问于2019-02-04得票数 1

回答已采纳

1回答

在本地主机上运行python时导入错误

、、、

我已经为python安装了"textblob“包，它可以在机器上工作。 constantinopolis@constantinopolis:~$ python Python 2.7.10 (default, Oct 14 2015, 16:09:02) [GCC 5.2.1 20151010] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> from textblob import

浏览 2提问于2015-12-11得票数 1

回答已采纳

2回答

Spacy - NLTK:语言检测

、

我目前正在做一个项目，处理一堆社交媒体帖子。这些帖子有些是英文的，有些是西班牙语的。我当前的代码运行得相当流畅。然而，我在问自己，Spacy/NLTK是否会自动检测它必须为每个帖子使用哪种语言的词干/停用词等(取决于它是英语帖子还是西班牙语帖子)？目前，我只是将每个帖子解析为词干分析器，而没有明确指定语言。这是我当前脚本的一个片段： import re import pandas as pd !pip install pyphen import pyphen !pip install spacy import spacy !pip install nltk import nltk fro

浏览 39提问于2020-03-24得票数 0

2回答

如何维护分句成词时的索引，并将情感极性重新应用于每个单词？

、、、、

我有一个数据格式的句子如下所示： text 0 this is great! 1 how dare you?! 我可以成功地使用TextBlob.words ()将每个句子分解成单独的单词。一个例子就是 a = TextBlob('moon is big') print(a) WordList(['moon','is','big']) WordList创建一个列表类型blob.Wordlist来保存每个单词。我可以将dataframe中的句子分解为单个单词，并使用以下代码将其保存在一个变量中：

浏览 0提问于2018-08-28得票数 2

回答已采纳

1回答

Python NLP:使用TextBlob、StanfordNLP或Google Cloud识别句子的时态

、、、、

(注:我知道以前有关于这个问题的帖子(例如here或here，但它们相当老了，我认为在过去几年中，NLP取得了相当大的进展。) 我正在尝试使用Python中的自然语言处理来确定句子的时态。有没有一个简单易用的包呢？如果没有，我需要如何在TextBlob、StanfordNLP或Google Cloud Natural Language API中实现解决方案？ TextBlob似乎最容易使用，我设法列出了POS机标签，但我不确定如何才能将输出转换为“时态预测值”或简单地对时态进行最佳猜测。此外，我的文本是西班牙语，所以我更喜欢使用支持西班牙语的GoogleCloud或StanfordNLP

浏览 16提问于2019-09-06得票数 1

2回答

TextBlob没有返回中字符串的正确实例数

、、

为了我实验室的一个项目，我在分析Twitter的数据。我们捕捉到的推文中都有“性”这个词，这是我们过滤TwitterStreamer的关键字。我把CSV转换成CSV，所有的tweet数据(json )都存放在一个熊猫DB中，并保存了“text”列，以隔离tweet文本。 import pandas as pd import csv df = pd.read_csv('tweets_hiv.csv') saved_column4 = df.text print saved_column4 结果是正确的输出： 0

浏览 6提问于2015-07-15得票数 1

回答已采纳

1回答

nltk UnicodeDecodeError -与ntpath.py文件连接

、、、、

Python版本： 2.7 Windows版本：Windows 7 64位系统的语言：俄语我有一个问题还没有在网上解决。这是我的代码： import textblob text = "I love people" text = TextBlob(text) print text.sentiment 我得到了与nltk方法连接的以下错误： Traceback (most recent call last): File "C:\Users\Александр\Desktop\TextBlob.py", line 1, in <module

浏览 3提问于2016-11-01得票数 0

回答已采纳

1回答

Python TextBlob翻译问题

、、、

我正在用Python，TextBlob和NLTK做一个快速的情绪分析控制台应用程序。目前我使用的是西班牙语维基文章的链接，所以我不需要翻译它，我可以使用nltk西班牙语停用词列表，但是如果我想让这段代码在不同语言的链接上工作呢？如果我使用textFinal=TextBlob(texto)下面的行TextFinal=TextFinal.translate(to="es") (下面的代码)，我会得到一个错误，因为它不能将西班牙语翻译成西班牙语。我能通过使用try/catch来防止这种情况吗？有没有办法让代码尝试翻译成不同的语言(以及使用不同的停用词列表)，这取决于im提供给

浏览 15提问于2019-03-15得票数 2

回答已采纳

1回答

使用sparklyr将Spark数据帧转换为R中的术语文档矩阵

、、、、

我在R中有一个代码，它需要缩放以使用大数据。我使用Spark来做这件事，似乎最方便的包是sparklyr。但是，我无法从Spark数据帧创建TermDocument矩阵。任何帮助都是最好的。 input_key是具有以下模式的数据帧。 ID Keywords 1 A,B,C 2 D,L,K 3 P,O,L 我在R中的代码如下。 mycorpus <- input_key corpus <- Corpus(VectorSource(mycorpus$Keywords)) path_matrix <- TermDocumentMatrix(corpus)

浏览 12提问于2017-02-17得票数 2

1回答

如何在其他语言中使用grep删除单词？

、

我尝试使用希腊语的grep从数据帧中删除字符串。 df <- data.frame(freetext = c("Εδώ και αρκετό καιρό που συνεχίζουν","και τώρα που έγιναν")) df <- df_text[!grepl("και|που", df),] 错误是 Error in `$<-.data.frame`(`*tmp*`, text, value = character(0)) : replacement has 0 rows, data has 2 语言有

浏览 8提问于2019-01-13得票数 1

回答已采纳

1回答

如何找到不在文本文件中的字符串？

我有一个名为$tokens的字符串列表。我有一小块叫做$textblob的文字。我需要找到$tokens中任何地方都找不到的$textblob。我可以接近它，但是我无法理解语法(我对Powershell还很陌生)。我想应该是这样的： $tokens @ Where-Object $textblob -NotMatch $_ 但是，当然，这是行不通的。Where对象的第一个参数需要是$_。

浏览 1提问于2021-05-05得票数 0

回答已采纳

3回答

wpf元素名作为IValueConverter的参数

、、、

我试图获得wpf中给定元素名的多语言翻译(“标签或标题”)字符串值。例如，对于元素名称"txtDescription“；我的IValueConverter实现将返回"Description”；对于另一种语言，将返回不同的翻译字符串(即西班牙语的描述符)，而翻译字符串将是Text=.同样的元素。我是初学wpf的，我无法使它发挥作用。是否有任何优雅的方式，以类似的方式，如下所示。 <TextBlock Name="txtDescription" Text="{Binding Converter={StaticResource MultiLingual

浏览 3提问于2015-05-12得票数 0

回答已采纳

1回答

在Ubuntu中的文本文件中使用的默认编码是什么？

、、

我在Ubuntu中创建了一个普通的文本文件"input.txt“。我给它添加了一些数据。我的问题是：在Ubuntu中的文本文件中使用的默认编码是什么？我如何找到它的编码技术？有办法改变编码技术吗？

浏览 0提问于2020-11-14得票数 2

1回答

如何在没有管理员的情况下安装Textblob for Python？

、、

我没有管理员权限，所以我下载了Textblob并在我的程序中为它设置了路径，现在我得到了错误“看起来你缺少一些这个功能所需的数据。要下载必要的数据，只需运行 python -m textblob.download_corpora" 我不能下载这个，因为我没有管理员权限，有没有其他方式使用textblob？

浏览 7提问于2017-08-04得票数 0

1回答

使用FeatureUnion向来自不同列的countvectorizer添加功能

、、、、

我目前正在尝试添加一个额外的功能到一个countvectorizer矩阵，这个矩阵是用scikit-learn创建的。工作流程如下:我有一个dataframe，它包含一个包含文本的列和一个包含附加特性的列。我首先将我的数据分成训练数据帧和测试数据帧。然后，我在训练数据的文本列上应用countvectorizer。然后，我用计数分解器矩阵作为输入来拟合RandomForest分类器。我现在试图确定的是，我想使用矩阵和数据帧中另一列中的附加功能来运行RandomForest分类器。我怎样才能做到最好呢？我已经读到过scikit功能联合，但无法在我的数据框架中使用不同的列。下面是一个代码

浏览 22提问于2021-01-25得票数 0

回答已采纳