首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

解决PDF文件复制后多余空行,并实现自动翻译

最前

作为一名英语并不好的小白,近期苦于阅读英文文献,常常要用到机器翻译。然而,从PDF文件中复制内容,往往会出现多余的换行情况,强迫症患者表示这很难受,如下图所示:

并且这样多余的换行出现一定程度上影响了翻译的结果,也不利于中文阅读,影响看论文的速度,

解决方案

1. 利用Python将多余的换行去除掉

该功能参考了CSDN作者YLPGG的思路,使用时仅需复制需要翻译的内容到程序中,可复制多段文字,然后在内容后输入一个#(井字符号),再回车即可,代码如下:

2. 利用Python访问API获取翻译结果,代码如下:

2.1 百度翻译API

使用前需在百度翻译开放平台注册开发者账号,每个月有200w字符的免费翻译额度,超出后按照49元/百万字符支付当月全部翻译字符数费用,应该个人使用200w字符是够用的,论文狂魔除外。

其它翻译API待更新

最后

已知Bug

由于识别段落换行和多余换行区别的局限性,如果正巧某行文字的最后一个字符为“.”(英文句号),则会被认为是正常的段落换行,导致分段错误,但不影响句子的完整性。

部分英语文献中可能含有特殊字符,会导致翻译API返回错误,在程序中会被直接跳过,但大部分正常文献都没有问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180812G10NC900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券