首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python热文Top10,精选自1000篇文章

▌No.3 使用 Python 提取超级马里奥背景元素 这篇文章 reddit 编程板块发布的第一天被顶了 970 次,引发了 49 次跟帖讨论,非常值得一读。...文章主要介绍了使用计算式视觉技术的条件下如何提取超级马里奥游戏中每一阶段的背景图像上的元素,并附有详细的源码解析接口介绍,是一篇非常“硬核”的博文。...▌No.7 Python,SciPy NumPy 的数据科学及线性代数基础 这篇文章通过浅显易懂的语言为读者介绍了在数据科学入门过程涉及到的一些线性代数统计学的知识,以及如何用 SciPy...PyFPDF Python 创建 PDF 这篇教程详细介绍了如何使用 PyFPDF Python 创建 PDF,并提供了详细的代码解析。...如果你有用 python 生成 PDF 的打算,这篇文章非常值得一读。该系列的第二篇文章介绍了使用 pdfrw 生成 PDF 的方法。

59560

超全必读!事件抽取综述(上)

事件抽取可处理各种类型的文本,如(在线)新闻消息、博客手稿。本文献回顾了用于各种事件抽取目的的文本挖掘技术。它提供了关于如何根据用户、可用内容使用场景选择特定事件抽取技术的一般指南。...A Survey of Textual Event Extraction from Social Networks, 2017[4] 过去的十年社交网络上挖掘文本内容以抽取相关数据有用的知识已成为无所不在的任务...因此,总结了文本数据的事件抽取技术,划分成数据驱动、知识驱动混合方法三类,并对这些方法进行了定性评价。此外,还讨论了从文本语料库抽取事件的常见决策支持应用。...数据集 英文数据集 ACE2005 English Corpus[6] ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语汉语训练数据集。...KBP包括为KBP开发特定组件功能的组件跟踪,以及称为“冷启动”的端到端KB构建任务,该任务通过技术成熟集成选定的组件从头开始构建KB。

4K21
您找到你想要的搜索结果了吗?
是的
没有找到

斯坦福的Stanford.NLP.NET:集合多个NLP工具

文本的基础上,你可以使用仅仅两行代码来运行整个工具。它的分析为更高级别特定领域的文本理解应用提供了基础。...两者都可以作为性能良好的统计解析系统使用解析器,有一个 GUI(Java)可用于查看解析器的短语结构树输出。 该解析器不仅有英文版本,还适用于一些其他语言。...完整版下载包含三个训练过的英语标签器模型,一个阿拉伯语标签器模型,一个汉语标签器模型,一个德语标签器模型。两种版本都包括相同的源代码其它必需的文件。...The Stanford Word Segmenter(斯坦福词汇分割器)现在支持阿拉伯语中文。它所提供的分割方法已经大量应用中广泛应用,并且表现不俗。...例如,如果你使用了 Stanford NLP 网站的 Stanford CoreNLP 3.3.1 版, NuGet ,它的版本为 3.3.1.x 版,其中 x 只对应 NuGet,该位数字被用作标记

1.6K80

Github Star 11.5K项目再发版:AAAI 2021 顶会论文开源,80+多语言模型全新升级

精度可比的基础上,与先前的SOTA算法相比,经过飞桨预测引擎加速后处理优化后,预测效率翻倍。...多语言支持种类提升至80+种:基本覆盖国际主流语言种类,开源测试集MLT2017评估,中文、韩文、日文、拉丁语系、阿拉伯语系,识别效果均显著优于EasyOCR,开源SOTA效果。...动态图模式下,代码编写运行方式符合Python程序员的习惯,易于调试,但在性能方面, Python执行开销较大,与C++有一定差距。 相比动态图,静态图部署方面更具有性能的优势。...飞桨动态图中新增了动态图转静态图的功能,支持用户使用动态图编写组网代码。预测部署,飞桨会对用户代码进行分析,自动转换为静态图网络结构,兼顾了动态图易用性和静态图部署性能两方面优势。...值得一提的是,目前已经有全球开发者通过PR或者issue的方式为PaddleOCR提供多语言的字典语料,PaddleOCR上已经完成了全球80+ 主流语言的广泛覆盖:包括中文简体、中文繁体、英文、法文

1.1K20

资源 | 斯坦福大学发布Stanford.NLP.NET:集合多个NLP工具

文本的基础上,你可以使用仅仅两行代码来运行整个工具。它的分析为更高级别特定领域的文本理解应用提供了基础。...两者都可以作为性能良好的统计解析系统使用解析器,有一个 GUI(Java)可用于查看解析器的短语结构树输出。 该解析器不仅有英文版本,还适用于一些其他语言。...完整版下载包含三个训练过的英语标签器模型,一个阿拉伯语标签器模型,一个汉语标签器模型,一个德语标签器模型。两种版本都包括相同的源代码其它必需的文件。...The Stanford Word Segmenter(斯坦福词汇分割器)现在支持阿拉伯语中文。它所提供的分割方法已经大量应用中广泛应用,并且表现不俗。...例如,如果你使用了 Stanford NLP 网站的 Stanford CoreNLP 3.3.1 版, NuGet ,它的版本为 3.3.1.x 版,其中 x 只对应 NuGet,该位数字被用作标记

1.4K60

Python自然语言处理工具小结

适合用来进行信息检索提取,问题处理,回答问题等任务。从英文文本,它能提取出主动宾元组,形容词、名词动词短语,人名、地名、事件,日期时间,等语义信息。...简单的示例程序:Stanford POS Tagger : 采用Java编写的面向英文、中文、法语、阿拉伯语、德语的命名实体识别工具。...下载安装包后解压后,内容如下图所示: 使用时将fudannlp.jar以及lib的jar部署于项目中的lib里面。...存放着源码;PDF文档中有着比较详细的介绍自然语言处理基础知识的讲解。...初始运行程序时初始化时间有点长,并且加载模型占用内存较大。进行语法分析感觉分析的结果不是很准确。

1.3K70

GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等

文件,并提取摘要和翻译 crazy_functions\代码重写为全英文_多线程.py 将Python源代码文件的中文内容转化为英文 crazy_functions\图片生成.py 根据激励文本使用...库来提取PDF文档的文本内容,对每个PDF文件分别进行处理并生成中英文摘要。...函数中使用了多线程处理输入输出,并且将结果写入到文件。...程序启动需要加载ChatGLM的模型tokenizer,需要一段时间。配置文件config.py设置参数会影响模型的内存显存使用,因此程序可能会导致低配计算机卡死。...文件名 功能简述 代码重写为全英文_多线程.py 将Python源代码文件的中文内容转化为英文 图片生成.py 根据激励文本使用GPT模型生成相应的图像 对话历史存档.py 将每次对话记录写入Markdown

2.2K30

【Science】无监督式机器翻译,不需要人类干预和平行文本

“想象一下,你给一个人很多中文书籍大量的阿拉伯语书籍,这些书之间没有重叠,但这个人必须学会把中文翻译成阿拉伯语。这似乎是不可能的,对吧?”...如果只是两种常见的语言,比如英语法语的翻译中使用这一技术,效果还是不错的,因为许多文档都以这两种语言存在。但是,对于罕见的语言或者那些虽然常见,但是缺乏平行语料库的语言来说,它的运行就不是很好。...这两篇使用非常相似的方法的新论文也可以句子层面进行翻译。它们都使用两种训练策略,称为反向翻译去噪(Back translation and Denoising)。...谷歌翻译使用有监督的方法,同类测试上的得分是40多左右,人类水平是50分左右。但是,这些方法都比词对词的翻译要好。...除了能够没有多个平行文本的语言之间进行翻译之外,ArtetxeLample都表示,如果平行文本都是同一类型,比如新闻报道,那么它们的系统可以帮助像英文法文这样常见的配对,但是您想要翻译新的领域的文本

64590

Python办公自动化 | word 文本转 excel

近日有工作上的需求,需要梳理数据元目录的多个数据项,数据项条目可能达到1000多个,可以说这个工作量非常巨大,源文件是 word 版本的,无法进行筛选标记(即使用颜色或者字体去标记之后,每次也需要肉眼去看某一项到底有没有梳理过...),如果是 excel 版本就不一样了,已梳理未梳理的可以很简单的完成分类,并且其他文件进行比对,用以核实是否已经梳理过。...问题来了:如何进行 word 文本转 excel? word 版本文件是这样的: 可以看出,文件具有4层目录,每一个数据项又包含了定义、英文缩写、数据格式、说明等内容。...pdfplumber 读取成功并写入txt 最后,我又发现了 pdfplumber 他可以完美解析中文,太棒了 查看 page_text 数据类型,发现是 str ,就是返回的全部的文本内容,是一个很长很长的字符串...\tmp.txt") file = f.readlines() 使用正则表达式识别文本、OrderedDict封装文本 定义正则表达式 pattern 这里定义多个 pattern 表达式用于识别标题和文本内容

1K20

干货 | 国际化探索之路-Trip.com如何走进阿拉伯市场

阿拉伯语是仅次于英语法语之外最多国家使用的官方语言,流通于中东、北非、非洲等地区。...举个栗子(如图1),英文汉字的书写、阅读顺序是从左到右,文本左对齐。而阿拉伯文书写阅读顺序从右往左,文本右对齐,标点符号文字的最左侧。 ?...图6 图标无需镜像规则 阿拉伯数字与英文字母 阿拉伯数字英文的展示同样遵循以上规则:属于是国际通用的,展示都无需镜像。例如航司名称,邮箱,网址,电话号码账号密码: ?...为了让空值页动效更富有生命力,我们动效设计时,展开了对现实世界骆驼动态的探索与研究,通过让尾巴具有纵深感的甩动,并结合气泡及枣椰树二维空间的移动,整个画面更富有生命力层次感。...四、技术适配方案 4.1 Android 4.1.1 QuickStart 系统历史:Android从4.1版本开始提供文本双向展示的支持,但是当RTLLTR语言混排,还是无法达到我们的预期

4K41

源代码特洛伊木马攻击

,中文直译作 “双向文本”,意思是一些语言是从左到右的,而另一些则是是从右到左的(如:阿拉伯语),如果同一个文件里,即有从左向右的文本也有从右向左文本两种的混搭,那么,就叫bi-direction。...添加新的字符集字符编码使许多其他从左到右的脚本能够得到支持,但不容易支持从右到左的脚本,例如阿拉伯语或希伯来语,并且将两者混合使用更是不可能。...通过双向文本支持,可以同一页面上混合来自不同脚本的字符,而不管书写方向如何。 双向文本支持是计算机系统正确显示双向文本的能力。...对于Unicode来说,其标准为完整的 BiDi 支持提供了基础,其中包含有关如何编码显示从左到右从右到左脚本的混合的详细规则。你可以使用一些控制字符来帮助你完成双向文本的编排。...其中PDF版的文章也给了这么一个示例: 通过双向文本可以把下面这段代码: 伪装成下面的这个样子: 图 2 'alice'被定义为价值 100,然后是一个从 Alice 减去资金的函数。

83330

(含源码)「自然语言处理(NLP)」Question Answering(QA)论文整理(三)

阿拉伯语开放域问答系统(SOQAL)由两部分组成:(1)使用分层TF-IDF方法的文档检索器;(2)使用预先训练的双向变换器BERT的神经阅读理解模型。 ? ? ?.../1810.00494v1.pdf Code: https://github.com/yongqyu/ranking_paragraphs_pytorch 论文简述: 由于开放域QA需要从文本语料库检索相关文档来回答问题...为此本文引入段落Ranker,它对检索到的文档段落进行排序,以获得较高的答案召回率较少的噪声。实验发现使用段落Ranker对段落进行排序并聚合答案,四个开放域QA数据集上的得到了比较好的结果。...通过SQuADopenCuratedTrec以高达97倍的速度进行推理,不仅显著提高了短语检索的准确性(超过4%),而且优于所有其他(基于流水线的)开放域QA方法,从而证明了所学习稀疏表示的有效性.../1912.13337v1.pdf Code: None 论文简述: 开放域问答(QA)涉及到一些潜在的知识推理挑战,但模型接受基准任务培训是否真正学习了这些知识?

82820

影响众多编程语言、引发供应链攻击,剑桥大学发布「木马源」漏洞

(如阿拉伯语希伯来语)脚本显示顺序。...然而,也有一些脚本(如阿拉伯语或希伯来语)显示文本的自然顺序是从右往左。当混合具有不同显示顺序的脚本,必须有一种确定性的方法来解决方向冲突。...语法依从性 大多数设计良好的编程语言不允许源代码中使用任意控制字符,因为它们被视为影响逻辑的 token。因此,源代码随机放置 Bidi 覆盖字符通常会导致编译器或解释器语法错误。...他们使用了两个看起来相似但实际上不同的 H,蓝色的拉丁语 H 红色的西里尔字母Н。当进行编译,该程序输出文本「Goodbye, World!」。...对于这种攻击,你可以使用改变方向来改变注释字符串的呈现方式,例如「This is okay」只是一种呈现形式,但「This is」okay 才是它在代码的存在方式。

84310

GPT-4又帮了我一个小忙

使用 LangChain.js 构建 LLM 应用程序,您将学习人工智能开发中常见的元素,包括: (i) 使用数据加载器从 PDF、网站和数据库等常见来源提取数据 (ii) 提示,用于提供 LLM...GPT-4 给了我完美可执行代码: 你可以使用Python来读取这两个文本,然后把它们结合在一起,输出最终的格式。...以下是一个简单的Python脚本,它将执行这个任务: # 假设第一个文本储存在english_subtitles.srt,第二个文本储存在translated_texts.json # 读取SRT...(SRT格式) 读取翻译后的文本(JSON格式) 遍历SRT文件的每一行,当遇到时间轴或序号,保持原样输出 当遇到英文文本,用对应的中文翻译替换 将最终结果写入新的SRT文件 确保你的文件名与脚本的文件名相匹配...此外,确保你有权限读取写入这些文件。 ok,继续学习去了,88

11210

Python 创建和修改 PDF 文件

本教程,您将学习如何: 从 PDF 读取文本PDF拆分为多个文件 连接和合并PDF 文件 PDF 文件旋转裁剪页面 使用密码加密和解密PDF文件 从头开始创建PDF 文件 注意:本教程改编自...with 然后,with块内,使用 .pdfPDF 标题页数写入文本文件output_file.write()。 最后,您使用for循环遍历 PDF 的所有页面。...当您使用密码加密 PDF 文件并尝试打开它,您必须提供密码才能查看其内容。这种保护扩展到 Python 程序读取 PDF。...设置字体属性 您还可以文本写入Canvas. 要更改字体字体大小,您可以使用.setFont(). ...结论: Python 创建和修改 PDF 文件 本教程,您学习了如何使用PyPDF2reportlab包创建和修改 PDF 文件。

12.3K70
领券