假设我们有一个包含以下内容的文本文件:"Je suis un beau homme .“
另一句是:“我是个勇敢的人”
第三篇文章用德语写成:"Guten morgen. Wie geht's ?“
我们如何编写一个函数来告诉我们:这么大的概率,第一个文件中的文本是英文的,第二个是法语的,等等。
欢迎链接到书籍/开箱即用的解决方案。我用Java编写,但如果需要,我可以学习Python。
我的评论
我需要补充一个小小的评论。文本可能包含不同语言的短语,作为整体的一部分,也可能是错误的结果。在经典文学中,我们有很多例子,因为贵族成员是多语言的。因此,概率更好地描述了情况
我正在用ruby on rails创建一个快速的应用程序,在做了大量的搭建和验证之后,我对RoR中嵌入的一些特性非常满意……但我住在墨西哥,我的所有用户都希望应用程序是西班牙语的。因此,我注意到有很多用英语编写实际文本的函数,例如time_ago_in_words以及脚手架和验证产生的所有错误。
在我自己做这些事情之前(比如在php中),我想知道是否有某种语言文件我可以编辑(甚至可以下载一个西班牙语的)。毕竟,我正在阅读的书籍和我学习这个新框架的教程(和网络广播)都是英文的(并且没有包括这个问题)。
当我运行以下代码下载英文模型时,我按照上的说明使用蟒蛇安装了spaCy
python -m spacy download en
我得到以下错误。
/anaconda3/bin/python: No module named spacy.__main__; 'spacy' is a package and cannot be directly executed
因此,我必须更改字母"ı“,因为它不是英文字符。例如,我应该将"sanmayın.mp3”更改为"sanmayin.mp3“。我该怎么做呢?
from os import rename, listdir
fnames = listdir('.')
for fname in fnames:
print fname
fname.replace('ý','i')
好的,我知道为什么它不能工作了,listdir给出了所有的英文名称,所以python认为ı就是i,我怎么才能让它在UTF8中工作呢
我有一个大小为2x400000的text.csv文件,如下所示:
col 1 col2
0 text text
1 text text
2 text text
...
399999 text text
400000 text text
每一栏都需要从英文翻译成法文,然后再翻译成英文。我试着用Google翻译手工完成这个操作,但是我的文件大小是60 MB,Google翻译只支持1MB以下的文件。
这个Eng > Fr
我需要取消翻译python中的消息。我的源码是英文的,我用gettext翻译这个字符串,比如说法语。我需要“返回”到英文的原始字符串。这在某种程度上是可能的吗?
原因如下:我在用户界面中显示了一些消息,因此需要对消息进行翻译。相同的函数将该消息记录在数据库中(用于调试)。我想在db中以其原始形式(英文)存储消息。
举个例子:
alert_please( _("message to be shown and stored") )
这里的定义是:
def alert_please(translated_message):
show_the_message(translated