开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >我正在抓取一个常见问题页面，我需要在FAQ页面中找到哪个标签有答案

问我正在抓取一个常见问题页面，我需要在FAQ页面中找到哪个标签有答案
EN

Stack Overflow用户

提问于 2018-02-12 21:39:04

回答 1查看 894关注 0票数 0

import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd                     
import re
req = requests.get('https://www.godrejproperties.com/nricorner/nri-faqs')
soup = BeautifulSoup(req.text, "html5lib")

ist1=[]
for elem in soup(text=re.compile(r'\s*((?:how|How|Can|can|what|What|where|Where|describe|Describe|Who|who|When|when|Why|why|Should|should|is|Is|I|Do|do|Are|are|Will|will)[^.<>?]*?\s*\?)')):
    print elem.parent
    list1.append(elem.parent)

x=str(list1[1])
tag=x[x.find("<")+1:x.find(">")]
print tag

Ques = []
for header in soup.find_all(tag):
    list_=[header]
    ffff=re.findall(r'\s*((?:how|How|Can|can|what|What|where|Where|describe|Describe|Who|who|When|when|Why|why|Should|should|is|Is|I|Do|do|Are|are|Will|will)[^.<>?]*?\s*\?)',str(list_))
    #print(ffff)
    #print (len(ffff))
    if len(ffff)>0:
        Ques.append(ffff)
Ques = np.array(Ques)
print(Ques)

类似地，我需要在FAQ页面中找到答案，我需要创建一个算法，它将捕获包含标签答案的内容，并将其保存在列表中。以后我需要一对问答

腾讯云大数据新春特惠

从基础引擎到开发治理平台，再到数据应用，赋能企业数字化转型。大数据产品9.9元起！

EN

回答 1

Stack Overflow用户

发布于 2018-02-12 21:49:59

您可以使用xpath获取详细信息。正如您可以看到的html结构，所有的问题和答案都是手风琴。所以基本上我们需要通过属性来遍历它。对于直接的答案，我们可以使用下面的xpath位置

//*@class=“用户界面-手风琴内容用户界面-助手-重置用户界面-小部件-内容用户界面-角落底部”

但您需要聪明，因为这可能导致其他手风琴来您的捕获数据，所以验证数据根据问题id，这也反映在答案id。

//*@class=“用户界面-手风琴标题用户界面-状态-默认用户界面-角落-所有ui-手风琴图标”

您还可以使用xpath或css选择器，例如：

甚至要通过文章

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48760129

复制

相关文章

win和linux的php异或运算结果不同

作者：matrix 被围观: 3,383 次发布时间：2015-06-17 分类：兼容并蓄零零星星 | 3 条评论 »

HHTjim 部落格

2022/09/26

2.6K0

win和linux的php异或运算结果不同

bat批处理命令根据不同的操作系统设置不同的电源使用方案

公司最近发现电费高了，经查看原来是有部分同事下班电脑不关……那么问题来了，我们如何通过技术手段来避免这个问题呢？直接下发策略远程关机是可以的，但怕有误伤；准备推送策略让电脑休眠，毕竟能省一点是一点吗，接着发现这得每天推送一次脚本，并且遇到加班的同事策略就显得呆板了，无法在错过执行时间后继续运行；又考虑了下，想办法更改终端的电源方案，控制显示器关机和睡眠时间，这样只要符合策略系统自己就执行了；继续完善，xp和win7系统更改电源方案命令还不一样；最后决定通过360天擎平台推送批处理脚本，然后脚本根据操作系统执行对应的命令，这样终端电源方案被改了，只要满足对应策略，终端就会自动关闭显示器，进入休眠或者睡眠模式。

吾爱运维

2022/10/05

2.3K0

bat批处理命令根据不同的操作系统设置不同的电源使用方案

批处理for命令的用法_cmd批处理命令

编程算法 windows

语法 for {%variable|%%variable} in (set) do command [ CommandLineOptions]

全栈程序员站长

2022/11/07

2.3K0

批处理for命令的用法_批处理for命令详解

for %variable in (set) do command [command-parameters]

全栈程序员站长

2022/10/02

2.6K0

相同的时间，不同的人生

在规定的时间内，一个人目标的达成情况（创造的价值），我们称之为效率。如此可见效率与时间是密切相关的，提高效率首先要做的就是提高我们的时间利用率。

keinYe

2020/05/25

1.2K0

select * 与 select id 字段条件相同数据结果不同（二）

编程算法 sql 数据库云数据库 SQL Server

都是全表扫描都是使用where 都是文件排序（如果待排序的内容不能由所使用的索引直接完成排序的话）

MickyInvQ

2020/09/27

1.3K0

select * 与 select id 字段条件相同数据结果不同（二）

select * 与 select id 字段条件相同数据结果不同（一）

sql background datetime select timezone

起初以为是timezone时区设置问题，结果，配置改为CST后，仍然问题没解决，后看了下，这个date是dateTime类型的，与时区无关，所以问题不在此。

MickyInvQ

2020/09/27

1.2K0

select * 与 select id 字段条件相同数据结果不同（一）

python获取命令行输出结果

python获取命令行输出结果，并对结果进行过滤找到自己需要的！这里以获取本机MAC地址和IP地址为例！ # coding: GB2312 import os, re # execute command, and return the output def execCmd(cmd): r = os.popen(cmd) text = r.read() r.close() return text # write "data" to file

py3study

2020/01/10

4.5K0

简单的批处理命令_bat批处理执行cmd命令

编程算法 windows

转载来源：https://blog.csdn.net/Joker_N/article/details/89838719

全栈程序员站长

2022/09/23

2K0

命令行查看不同系统的网卡信息

linux grep windows ethernet list

很多时候一条简单的命令就可以得到你所想要的信息，记住他们吧！ windows：wmic nic list brief linux：lspci|grep Ethernet exsi：esxcfg-nic

孙杰

2019/10/29

7510

consul注册相同服务，相同程序，相同IP，不同端口来负载的问题

由于今天发现运维代码未正常发布。想要自己手动发布。发现原有服务名mos-x3-gls-service只有1个node启动，为了保障发布时原有服务不中断我需要再注册1个node，于是我简单修改了原有springboot端口9112为9113，启动后发现9113的节点正常注册，但是原来9112端口的节点服务没有了，搞了个寂寞。原因是如果在Spring Cloud Consul中使用相同的节点id进行注册，那么Consul将会将它们视为同一个节点，并将它们注册为同一个节点。老了，大意了。于是我把注册consul的节点id设置为服务名称+进程id即可解决。

高久峰

2023/06/17

5190

Simulator 和 Emulator 的相同和不同；

android 腾讯云测试服务

在看模拟器的时候，出现了关于Simulator和Emulator两种词汇；都可以翻译为模拟器；但在调研游戏模拟器的时候，多为Emulator; 两者词汇的含义和应用场景有什么异同呢？

西湖醋鱼

2021/02/23

2K0

linux 或 mac 命令行更优雅的使用 curl 命令，以及命令行常用的快捷键说明

命令行工具

最近看了一下我的博客的访问统计，作为一个前端博主，没有想到我阅读量最高的一篇博文居然是介绍如何在命令行使用 curl 命令的文章《curl 模拟 GET\POST 请求，以及 curl post 上传文件》。

FungLeo

2020/04/30

6.6K0

linux 或 mac 命令行更优雅的使用 curl 命令，以及命令行常用的快捷键说明

批处理for命令的用法_批处理主要解决

编程算法 windows java

for是批处理中最复杂，也最强大的关键字。熟练掌握for的用法，才可能理解批处理的强大之处。

全栈程序员站长

2022/09/27

1.9K0

Windows命令窗口输入命令报错不是内部或外部命令，也不是可运行的程序或批处理文件

在系统环境变量的Path路径中添加C:\Windows\system32; 如果Path有变量值，则这样加（;C:\Windows\system32;）

互联网-小阿宇

2022/11/21

1K0

Windows命令窗口输入命令报错不是内部或外部命令，也不是可运行的程序或批处理文件

Shell 命令行求两个文件每行对比的相同内容

本文介绍了如何通过shell命令行进行两个文件之间的对比，包括使用cat命令、while循环、for循环以及grep命令等方法。通过这些方法，可以方便地求出两个文件中每行对比的相同内容，并输出结果。

FungLeo

2018/01/08

2.9K0

Windows命令窗口输入命令报错不是内部或外部命令，也不是可运行的程序或批处理文件

在系统环境变量的Path路径中添加C:\Windows\system32; 如果Path有变量值，则这样加（;C:\Windows\system32;）

全栈程序员站长

2021/06/10

1.6K0

Windows命令窗口输入命令报错不是内部或外部命令，也不是可运行的程序或批处理文件

获取时间的批处理命令

@echo off set panpath=C:\pdi-ce-5.4.0.1-130\data-integration set kpath=D:\03works\ZYWSPT\kettle

用户5640963

2019/07/26

9710

'mysql' 不是内部或外部命令，也不是可运行的程序或批处理文件。

1、C:\Users\Aiyufei>mysql -h 127.0.0.1 -u root 'mysql' 不是内部或外部命令，也不是可运行的程序或批处理文件。

别先生

2018/10/25

6.9K0

'mysql' 不是内部或外部命令，也不是可运行的程序或批处理文件。

‘vue’ 不是内部或外部命令，也不是可运行的程序或批处理文件。

vue.js npm express

获取下载的包路径信息 npm config get prefix 将路径设置到系统环境变量

kirin

2020/06/18

6.5K0

相似问题

在单个事务中运行spring @ transaction注释方法

10

Spring JPA事务在@ transaction注释方法结束之前提交

31

Spring @ Transaction阻止打开事务

10

Spring为每个方法调用获得新事务，而事务不能正常工作。

10

通过反射调用@ transaction方法时未创建的Spring事务

16

活动推荐

提供大模型在企业的应用构建、高效便捷

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例