首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【自力更生】scf-add:为用Python编写腾讯云函数服务SCF代码提供便捷的pypi库添加方式

出于业务需要,在函数服务的代码中要进行HTTP调用,自然而然会想到使用知名的requests库,然而SCF的Python环境除了标准库之外只有COS的库,无奈只好手动下载requests库及其依赖,好在使用pip download <package>命令可以直接下载pypi库的wheel文件,再配合wheel unpack <pacakge.wheel>命令,可以方便的把需要的库及其依赖的源代码下载下来,再加上一些后续的处理(wheel文件解压之后有两个子文件夹,一个代码文件夹,一个包发行说明文件夹,需要再进行一下文件夹的移动),我写了一个简单的添加pypi库的命令scf-add(https://github.com/duyixian1234/scf_add)。

012

Python读取PDF内容

1,引言 晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。 从而产生了一个问题:用Python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。 2,把pdf转换成文本的Python源代码 下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)

03
领券