当它们在同一个类中时，如何使用漂亮的汤提取数据(文本)？_漂亮的汤分页，在next_page类中find_all找不到文本。还需要从URLS提取数据 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

python 爬取菜单生成菜谱，做饭买菜不用愁

前几天小编在家当主厨，从买菜到端上桌的全部流程都有小编操办，想着就弄一些简单一些的菜，就没有多想，可当小编去到超市站在一堆菜的面前却不知所措了，看着花花绿绿，五颜六色的菜不知道买什么，做什么菜。于是小编突发奇想，自己丰衣足食，弄一个菜谱生成器，随机生成 “三菜一汤”，完美解决买菜难的问题~

01

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

---- 新智元报道编辑：LRS 好困【新智元导读】ImageNet排行榜又双叒叕被刷新啦！不过这回，新霸主谷歌没有提出新模型，只靠微调「几个」模型就做到了第一，论文通篇都是实验分析，这也引起了网友的争议：全靠财大气粗！最近，谷歌又靠着强大的计算资源豪横了一把，而且还顺手捎上了一位Meta AI的朋友。不得不说，这两个「冤家」的合作可不多见。论文链接：https://arxiv.org/abs/2203.05482 研究团队提出了一种称为「模型汤」的概念，通过在大型预训练模型下使用不同

05

您找到你想要的搜索结果了吗？

是的

没有找到

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

---- 点击上方↑↑↑“OpenCV学堂”关注我来源：公众号新智元授权【导读】ImageNet排行榜又双叒叕被刷新啦！不过这回，新霸主谷歌没有提出新模型，只靠微调「几个」模型就做到了第一，论文通篇都是实验分析，这也引起了网友的争议：全靠财大气粗！最近，谷歌又靠着强大的计算资源豪横了一把，而且还顺手捎上了一位Meta AI的朋友。不得不说，这两个「冤家」的合作可不多见。论文链接：https://arxiv.org/abs/2203.05482 研究团队提出了一种称为「模型汤」的概念，通过在

02

基于k-means++和brich算法的文本聚类

分词和过滤停用词，这里分词有两步，第一步是对停用词进行分词，第二步是切分训练数据。

01

独家 | 手把手教你如何用Python从PDF文件中导出数据（附链接）

有很多时候你会想用Python从PDF中提取数据，然后将其导出成其他格式。不幸的是，并没有多少Python包可以很好的执行这部分工作。在这篇贴子中，我们将探讨多个不同的Python包，并学习如何从PDF中提取某些图片。尽管在Python中没有一个完整的解决方案，你还是应该能够运用这里的技能开始上手。提取出想要的数据之后，我们还将研究如何将数据导出成其他格式。

03

第一个爬虫——豆瓣新书信息爬取

本文记录了我学习的第一个爬虫程序的过程。根据《Python数据分析入门》一书中的提示和代码，对自己的知识进行查漏补缺。

03

学AI的高中生还有5秒钟到达战场，请90后叔叔阿姨做好准备

这本给高中生的人工智能选修教材让许多人惊诧：现在高中生都这么前沿了么？甚至在海外，也有许多网友将其视为中国AI进一步崛起的一个证明。

01

网页解析之Beautiful Soup库运用

今日分享：Beautiful Soup库简单应用一句话来理解 Beautiful Soup库就是：它是解析遍历维护标签树的功能库。以下是BeautifulSoup库的文档链接：官方链接https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 中文链接https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 下面根据一个示例来了解学习BeautifulSoup库： >>> import req

07

Java设计模式（六）----适配器模式

适配器模式 1、概述 2、适配器模式的用途 3、模式中的角色 4、实现方式 5、类适配器和对象适配器的权衡 6、缺省适配模式 1、概述　适配器模式把一个类的接口变换成客户端所期待

08

Java设计模式（五）----原型模式

原型模式(Prototype) 一、概述二、结构三、浅度克隆和深度克隆　浅度克隆　深度克隆一、概述　定义：原型模式属于对象的创建模式。通过给出一个原型对象来指明所有创建的对象的类型，然后用复制这个原型对象的办法创建出更多同类型的对象。简言之：就是复制粘贴。这就是选型模式的用意。二、结构原型模式主要用于对象的复制，它的核心是就是类图中的原型类Prototype。Prototype类需要具备以下两个条件： 1、实现Cloneable接口。在java语言有一个

09

竞赛 | 中国健康信息处理大会（CHIP2022）发布评测任务

每天给你送来NLP技术干货！ ---- 来自：中国中文信息学会第八届中国健康信息处理大会（CHIP2022）是中国中文信息学会医疗健康与生物信息处理专业委员会开展的“以信息处理技术助力探索生命之奥秘、提高健康之质量、提升医疗之水平”为主旨的年度会议。CHIP是中国健康信息处理领域的重要会议，是世界各地学术界、企业界和政府部门的研究人员和从业人员分享创意，进一步推广领域研究成果和经验的重要平台。CHIP2022官网链接为：http://cips-chip.org.cn ，将于2022年10月22-24日，在

02

SegLink++：基于实例感知与组件组合的任意形状密集场景文本检测方法

本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。该论文提出一种对文字实例敏感的自下而上的文字检测方法，解决了自然场景中密集文本和不规则文本的检测问题。该论文提出的Instance-aware Component Grouping（ICG）方法，能够在自下而上的文字检测方法的基础上大大提高密集文本检测的效果。在该论文提出的一个商品密集文本检测数据集DAST1500上，该方法的结果明显优于同时期的其他文字检测方法。

01

网络设备硬核技术内幕路由器篇 6 汤普金森漫游网络世界(中)

“你的麻烦在于，”绿洲精灵轻叹了一口气。“有TCAM红字的箱子里边，是路由器的数据库。”

01

吴恩达《ML Yearning》| 端到端的深度学习

MachineLearning YearningSharing 是北京科技大学“机器学习研讨小组”旗下的文献翻译项目，其原文由Deep Learning.ai 公司的吴恩达博士进行撰写。本部分文献翻译工作旨在研讨小组内部交流，内容原创为吴恩达博士，学习小组成员只对文献内容进行翻译，对于翻译有误的部分，欢迎大家提出。欢迎大家一起努力学习、提高，共同进步！

01

KDD 2020 全部大奖出炉！杜克大学陈怡然组获最佳学生论文奖

第 26 届 ACM SIGKDD 知识发现和数据挖掘会议（KDD 2020）将于太平洋标准时间 8 月 23 日 - 27 日以虚拟线上方式召开。今日KDD 2020公布了最佳论文奖、最佳学生论文奖等多个奖项。

02

【深度】Peacock：大规模主题模型及其在腾讯业务中的应用

如果用户最近搜索了“红酒木瓜汤”，那么应该展示什么样的广告呢？从字面上理解，可能应该返回酒水或者水果类广告。可是你知道吗？“红酒木瓜汤”其实是一个民间丰胸秘方。如果机器能理解这个隐含语义，就能展示丰胸或者美容广告——这样点击率一定很高。在广告、搜索和推荐中，最重要的问题之一就是理解用户兴趣以及页面、广告、商品等的隐含语义。让机器能自动学习和理解人类语言中近百万种语义，以及从海量用户行为数据中归纳用户兴趣，是一个已经持续了20年的研究方向，称为主题建模（Latent Topic Modeling）。目前业界

06

关于NLP和机器学习之文本处理

https://github.com/kavgan/nlp-text-mining-working-examples/tree/master/text-pre-processing

03

python读取表格的时候表格信息发生了改变，例如名字列、金额列与原表格有出入

前几天在Python最强王者交流群【wen】问了一个Pandas数据处理的问题，一起来看看吧，下图是他的代码。

02

汤晓鸥与MIT、宾大教授共话AI：热潮终将退去，人工智能的中国式文艺复兴

📷 大数据文摘作品记者：龙牧雪 “《前任3》票房赚了18亿，那是一个前任6亿啊！” 中国香港中文大学信息工程系教授、商汤科技联合创始人汤晓鸥昨天在《麻省理工科技评论》与DeepTech深科技主办的新兴科技峰会EmTech China上，保持了“被科研耽误的段子手”的特性，如此调侃道。你没进错场，汤晓鸥演讲的主题是人工智能，不是娱乐新闻。但是他的演讲自带段子手属性，还两次晒了自家娃，引发全场爆笑，简直让文摘菌回忆起了自己养蛙时候的心情。 📷 下面，文摘菌就带大家回顾一下汤晓鸥

08

Transformer多轮对话改写实践

本文介绍了多轮对话存在指代和信息省略的问题，同时提出了一种新方法-抽取式多轮对话改写，可以更加实用的部署于线上对话系统，并且提升对话效果。

04

Pandas针对某列的百分数取最大值无效？（下篇）

前几天在Python白银交流群【上海新年人】问了一个Pandas数据提取的问题，问题如下：大佬们,我发现个问题,请教一下,我把某一列譬如0.001什么的，转化了1%以后再对某列做print(df[df.点击 == df['点击'].max()]，最大值明明有15%的却显示不出来，只显示出来10%以下的，是什么原因啊？

01

【Node.js丨主题周】Chrome V8 与 Node.js

Chrome V8 简称 V8，是由谷歌开源的一个高性能 JavaScript 引擎。该引擎采用 C++ 编写，Google Chrome 浏览器用的就是这个引擎。V8 可以单独运行，也可以嵌入 C++ 应用当中。

01

我跪了！OpenAI 发布 DALL·E 2，AI 化身「现实主义画师」，有详细论文

作者 | Ailleurs、钱磊编辑 | 陈彩娴大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗？当时，DALL·E 的画风是这样的：只要「阅读」文本，DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。就在今天！时隔一年后，OpenAI 结合 CLIP，又发布了 DALL·E 的第二个版本——DALL·E 2.0！

02

我跪了！OpenAI发布DALL·E 2！AI化身「现实主义画师」，有详细论文！

只要「阅读」文本，DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。

02

绘制图表（2）：再次实现

通过编写这个原型，我们学到了什么呢？我们学到了使用ReportLab进行绘图的基本知识，还知道了如何提供数据，以便使用提取的数据轻松地绘制图表。然而，这个程序存在一些缺陷。为将折线放在正确的位置，我对值和时间戳作了权宜性修改。另外，这个程序并没有从任何地方获取数据，换而言之，它从程序本身包含的列表中获取数据，而不是从外部来源读取数据。

02

我跪了！OpenAI 发布 DALL·E 2，AI 化身「现实主义画师」，有详细论文

作者 | Ailleurs、钱磊，本文转自AI科技评论大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗？当时，DALL·E 的画风是这样的：只要「阅读」文本，DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。就在今天！时隔一年后，OpenAI 结合 CLIP，又发布了 DALL·E 的第二个版本——DALL·E 2.

03

爬虫系列：读取文档

上一篇文章我们介绍了如何通过 MySQL 存储 Python 爬虫采集的内容，以及使用Python 与 MySQL 交互，这篇文章我们介绍如何通过 Python 读取文档。

02

让机器搞懂100万种隐含语义，腾讯Peacock大规模主题模型首次全揭秘

编者按：LDA是一个简洁、优雅、实用的隐含主题模型，腾讯效果广告平台部（广点通）的工程师们为了应对互联网的大数据处理，开发了大规模隐含主题模型建模系统Peacock，通过并行计算对10亿x1亿级别的大规模矩阵进行分解，从而从海量样本数据中学习10万到100万量级的隐含语义。Peacock已应用在腾讯的文本语义理解、QQ群的推荐、用户商业兴趣挖掘、相似用户扩展、广告点击率转化率预估等多个业务数据中。本文节选自Peacock团队的论文《Peacock：大规模主题模型及其在腾讯业务中的应用》，分享了广点通Peac

04

Java设计模式（七）----装饰模式

装饰模式一、概述二、装饰模式的结构三、具体案列四、装饰模式与类继承的区别五、装饰模式的特点：六、装饰模式、适配器模式、代理模式区别一、概述 1.装饰模式(Decorator)的定义：又名包装(Wrapper)模式，装饰模式以对客户端透明的方式扩展对象的功能，是继承关系的一个替代方案。 2.装饰模式以对客户端透明的方式动态的给一个对象附加上更多的责任。换言之客户端并不会觉

07

搜狐文本匹配算法大赛方案总结

在自然语言理解中，自然语言推理（Nature Language Inference，NLI）被认为是一个非常基础但重要的研究任务。它要求机器去理解自然语言的深层次语义信息，进而做出合理的推理。更具体的推理任务，则是判断句子关系，即对于给定的两个句子，判断它们含义是否一致。

02

90.94%准确率！谷歌刷新ImageNet新纪录！Model soups：提高模型的准确性和稳健性

将它扩展到多个图像分类以及自然语言处理任务中，也能提高模型的分布外性能，并改善新下游任务的零样本性能。

02

学Py日记——关于网络爬虫的一些总结

学习Python网络爬虫近3周时间了，也分别针对“命运共同体”、“京东米酒”和“猎聘网Python招聘”3个事件进行了爬取和数据分析，有了初步的知识积累。现做简单总结，以资深化理解。

03

【深度学习】90.94%准确率！谷歌刷新ImageNet新纪录！Model soups：提高模型的准确性和稳健性

将它扩展到多个图像分类以及自然语言处理任务中，也能提高模型的分布外性能，并改善新下游任务的零样本性能。

03

墨奇科技汤林鹏：如何用 AI 技术颠覆指纹识别？

随着深度学习等AI技术的成熟，生物识别成为了关注度较高的领域，指纹、人脸、虹膜等识别技术，正在越来越多的场景中得到应用。根据前瞻产业研究院的数据，目前中国生物识别技术的市场规模已超过300亿元，到2023年，这一数字将达到379亿元。虽然人脸识别、虹膜识别近几年大有成为「后起新贵」之势，但指纹识别凭借其“证据之王”的权威性和较高的安全性，仍然占据整个生物识别领域的半壁江山（52%）。

01

数据库信息速递 AI推动数据库发展的10种方法（译）

尽管生成式人工智能充满闪光和魅力，但这个新时代最大的变革可能深埋在软件堆栈中。人工智能算法在人们的视线之外，正在一次一个数据库地改变世界。他们正在颠覆那些在无尽的常规表格中跟踪世界数据的系统，用复杂、自适应且看似直观的新型人工智能功能取代它们。

02

Java设计模式（十二）----享元模式

享元模式一、概念二、享元的用途三、结构和分类 1、单纯享元模式　 2、复合享元模式四、享元模式的优缺点一、概念　Flyweight在拳击比赛中指最轻量级，即“蝇量级”或“雨量级”，这里选择使用“享元模式”的意译，是因为这样更能反映模式的用意。享元模式是对象的结构模式。享元模式以共享的方式高效地支持大量的细粒度对象。也就是说在一个系统中如果有多个相同的对象，那么只共享一份就可以了，不必每个都去实例化一个对象。二、享元的用途在java应用中,会出现许多St

06

人脸识别系列四 | DeepID1算法

这是人脸识别系列的第5篇文章，前4篇文章可以在公众号的人脸识别栏里找到，这篇文章主要是解析CVPR 2014年的经典人脸识别论文DeepID1算法。论文的地址如下：http://mmlab.ie.cuhk.edu.hk/pdf/YiSun_CVPR14.pdf 。

02

JupyterLab: 神器Jupyter Notebook的进化版，结合传统编辑器优势，体验更完美

01 前言作者：Rene Draschwandtner 编译：HuangweiAI 近年来，Jupyter Notebook作为一种以交互和良好的布局方式显示代码和结果的工具受到了广泛的关注。它当然

03

情感语音合成技术难点突破与未来展望

回放链接：https://www.livevideostack.cn/video/sillon/

03

网络设备硬核技术内幕路由器篇 7 汤普金森漫游网络世界(下)

上回说到，由于路由器转发平面找不到汤普金森先生对应的FIB表项，把汤普金森先生送去了主控板。

02

谷歌创造ImageNet1K新纪录：性能不佳的微调模型不要扔，求一下平均权重就能提升性能

丰色发自凹非寺量子位 | 公众号 QbitAI 如何最大限度地提升模型精度？最近，谷歌等机构发现：性能不好的微调模型先不要扔，求一下平均权重！就能在不增加推理时间以及内存开销的情况下，提高模型的准确性和鲁棒性。比如，研究人员就使用该方法创造了ImageNet1K的新纪录：90.94%。将它扩展到多个图像分类以及自然语言处理任务中，也能提高模型的分布外性能，并改善新下游任务的零样本性能。而这个方法还有一个有趣的名字，叫Module soup—— 是不是让人一下子就让人联想到了斐波那契汤的

03

Python 操作BeautifulSoup4

BeautifulSoup4是爬虫里面需要掌握的一个必备库，通过这个库，将使我们通过requests请求的页面解析变得简单无比，再也不用通过绞尽脑汁的去想如何正则该如何匹配内容了。（一入正则深似海虽然它使用起来效率很高效哈）

01

用BeautifulSoup来煲美味的汤

许多人喜欢在介绍正则表达式以后才来介绍本篇BeautifulSoup的用法，但是我觉得BeautifulSoup比正则表达式好用，而且容易上手，非常适合小白入门爬虫，并且可以利用学到的这个知识立即去爬取自己想爬的网站，成就感满满的。好了话不多说，立即进入今天的介绍吧。

03

这个烂大街的用户消费分析案例，我用了点不一样的pandas技巧

这是一个关于在线音乐零售平台的用户消费分析案例，在网上到处可见，听闻不少培训机构也用于数据分析案例。我大概看了一些其他的文章，基本是千篇一律。

05

设计模式 -- 模板方法模式

烹饪中，一般工序步骤为，准备食材、烹饪食材、上餐三个步骤，在这三个步骤中准备食材和上餐大同小异，最大区别在于第二步烹饪食材，是兰州牛肉面还是山西刀削面

01

Go 能拯救已经失败的可视化编程？

在计算中，可视化编程语言（VPL）允许用户通过图形化操作程序元素而不是通过文本指定来创建程序。但一直以来，除了在一些非常有限的领域外，可视化编程都未成功。对此，有人认为文本编程语言混淆了编程的本质，也有网友表示为支持编程而开发的工具并不重要，那么可视化编程的出路到底在哪里？

06

Python NLP 入门教程

本文简要介绍Python自然语言处理(NLP)，使用Python的NLTK库。NLTK是Python的自然语言处理工具包，在NLP领域中，最常使用的一个Python库。什么是NLP？简单来说，自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)的实际应用例子，如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词，以及生成语法正确完整句子和段落。这并不是NLP能做的所有事情。 NLP实现搜索引擎: 比如谷歌，Yahoo等。谷歌搜索引擎知道你

06

今天起，种草小红书的多模态AI技术

机器之心报道编辑：思在人工智能领域，存在着这样一种技术，它像人类利用视觉、嗅觉、味觉、听觉等多感官理解现实世界一样，希望充分利用文本、图像、语音和视频等多种模态，这就是「多模态学习」。多模态学习的研究时间不算太长，但应用前景非常广泛，比如电商购物平台中的以图搜图的检索技术、智能家居以及车载智能助手的语音交互等。不过要说多模态技术真正实现了落地似乎还太早，从多模态数据标注到跨模态转化，该领域都面临着众多挑战。这就需要研究社区和业界持续探索新的发展方向和技术范式。作为国内独特的以图文和短视频内容为主的社

02

HarmonyOS学习路之开发篇—AI功能开发（关键字提取）

在日常生活中充满了各种各样的信息，这些信息千变万化。文本语言作为信息传递的一种载体，同样面临有用信息和无用信息糅杂在一起的问题。关键字提取帮助用户在众多文本信息中快速提取出关键信息和核心内容，节省时间提高效率。

01

当年要是会这手脚本生成，HSRP改VRRP的操作何至于那么痛苦？

当时我要是能想到这个技术，100多个VLAN的HSRP改VRRP脚本也就不至于搞得那么痛苦了。当时一个VLAN一个VLAN的改，不仅是费时费力，而且还让同事帮忙核对了两遍。就这样，拿到现场去实施的时候，还是发现有十几个VLAN在做HSRP改VRRP的时候出现了错误。结果是搞得头晕眼花想呕吐，脚本排版也不漂亮，还在客户那里留了个做事不细致的坏印象。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭