从googletrans导入转换器导入熊猫作为pd导入xlrd导入csv导入请求input = pd.read_excel(r'C:\AWS\daily.xls') limit = len(input.index) for i in range(0,limit):Translator = Translator() a= input.iloci,0 language = translator.detect(a)
#print(language)
if language.lang == 'en':
print(language.lang)
pri
我有一个dataframe,其中一个列在每一行上都有一个字符串列表。
平均而言,每个列表有150个单词,每个字约6个字符。
数据文件的700行中的每一行都是关于一个文档的,每个字符串都是这个文档的一个单词;因此,基本上我已经标记了文档的单词。
我想检测每个文档的语言,为了做到这一点,我首先尝试检测文档中每个单词的语言。
为此,我做了以下工作:
from textblob import TextBlob
def lang_detect(document):
lang_count = {}
for word in document:
if len(word)