首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >python -使用reg表达式拆分漂亮的汤对象

python -使用reg表达式拆分漂亮的汤对象
EN

Stack Overflow用户
提问于 2018-06-04 16:21:16
回答 1查看 166关注 0票数 1

我很难找到一个解决方案来分割时间周期和包含在“div”中的路线,而我使用的是漂亮的汤。下面是我从交互式shell获得的文本。我要分两路-405/I-65/I-525‘和'8分钟46秒’。然后我需要去掉'min‘和'sec’,这样我就可以组合得到'8.46‘。我猜我需要使用带正则表达式的拆分吗?有人能给我举个这样的例子吗?谢谢。

下面是我从网页上刮下来的东西:

代码语言:javascript
运行
复制
<div class="coloredodd" id="odContent">
    <b>via I-405/I-65/I-525</b>
    <br></br>
    58 min. 8 sec.
    <br></br>
</div>

下面是我从外壳中得到的信息:

代码语言:javascript
运行
复制
>>> soup.find_all('div')[16].get_text()

'via I-405/I-65/I-5258 min. 46 sec.'

下面是我对字典所做的努力:

代码语言:javascript
运行
复制
LinkNames[1] = TempLinkNames[7]
LinkNames[2] = TempLinkNames[8]
LinkNames[3] = TempLinkNames[9]
LinkNames[4] = TempLinkNames[4]
LinkNames[5] = TempLinkNames[2]
LinkNames[6] = TempLinkNames[5]
LinkNames[7] = TempLinkNames[3]
LinkNames[8] = TempLinkNames[0]
LinkNames[9] = TempLinkNames[1]
print(LinkNames)

以下是字典的第一项:

代码语言:javascript
运行
复制
{'At BTI Road via Ocean Expy (I-525)': '32.48',

下面是我如何将键和值放在列表中,然后手动将其分配给字典。

代码语言:javascript
运行
复制
BWPLinkNames = {BWPCombineNames[6]: BWPSingLinkTime[6],
                BWPCombineNames[7]: BWPSingLinkTime[7],
                BWPCombineNames[8]: BWPSingLinkTime[8],
                BWPCombineNames[9]: BWPSingLinkTime[9],
                BWPCombineNames[4]: BWPSingLinkTime[4],
                BWPCombineNames[2]: BWPSingLinkTime[2],
                BWPCombineNames[5]: BWPSingLinkTime[5],
                BWPCombineNames[3]: BWPSingLinkTime[3],
                BWPCombineNames[0]: BWPSingLinkTime[0],
                BWPCombineNames[1]: BWPSingLinkTime[1]}

将字典项输出到电子表格有困难。该值为浮动字符串“23.25”。但是,在电子表格上,它出现的错误是错误的。它只显示为一个数字数字,该数字与实际浮动字符串无关。在excel中使用xlsxwriter,下面是我输出它们的方式。

代码语言:javascript
运行
复制
for key in BWLinkNames.keys():

    worksheet.write(row, col, key)
    for value in BWLinkNames[key]:
        worksheet.write(row, col + 1, value)
    row+= 1
workbook.close()
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-04 16:25:47

您可以使用re.findall

代码语言:javascript
运行
复制
import re
s = 'via I-405/I-65/I-5258 min. 46 sec.'
[timestamp] = re.findall('\d{1}\smin\.\s\d+\ssec', s)
final_result = '.'.join(re.findall('\d+', timestamp))

输出:

代码语言:javascript
运行
复制
'8.46'

编辑:您可以使用BeautifulSoup查找目的地,然后使用str.replace

代码语言:javascript
运行
复制
from bs4 import BeautifulSoup as soup
import re
s = """
<div class="coloredodd" id="odContent">
  <b>via I-405/I-65/I-525</b>
  <br></br>
  58 min. 8 sec.
  <br></br>
</div>
"""
destination = soup(s, 'html.parser').find('b').text
timestamp = '.'.join(re.findall('\d+', soup(s, 'html.parser').find('div').text.replace(destination, '')))

输出:

代码语言:javascript
运行
复制
'via I-405/I-65/I-525'
'58.8'

编辑:与其在BWLinkNames[key]上迭代,不如简单地利用BWLinkNames[key]

代码语言:javascript
运行
复制
for i, key in enumerate(BWLinkNames):
  worksheet.write(i, col, key)
  worksheet.write(i, col + 1, BWLinkNames[key])

workbook.close()
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50684882

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档