腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >正则表达式从纯文本中获取计算机规范

问正则表达式从纯文本中获取计算机规范
EN

Stack Overflow用户

提问于 2014-01-14 13:20:03

回答 5查看 392关注 0票数 0

我有一个数据集，其中包含纯文本、关于计算机的描述，它们看起来类似于以下内容：

我试图根据文本预测价格，这是我的方法。由于我知道它们都是计算机，我将尝试使用正则表达式来解析CPU频率、内存、磁盘容量和屏幕大小.等等，所以你会有一个有固定列数的矩阵.你可以运行规则算法来预测价格(随机森林，线性回归.)。

然而，我仍然坚持正则表达式部分解析列:假设我试图从文本中解析频率，我想这将是一个数字，后面跟着"GHz“。

>>> re.findall(re.compile('([.\d]+) GHz'), '2.2 GHz 32 GB')
['2.2']

这是好的，然而，它的结果是正则表达式不是那么好。下面是我的正则表达式失败的几个条件：

>>> re.findall(re.compile('([.\d]+) GHz'), '2.2 ghz 32 GB')
[]
>>> re.findall(re.compile('([.\d]+) GHz'), '2.2 Ghz 32 GB')
[]
>>> re.findall(re.compile('([.\d]+) GHz'), '2.2GHz 32 GB')
[]

我不太擅长正则表达式，我想知道谁能告诉我怎么找到后面跟着"ghz“或”gigaHerz“的号码。在数字和度量单元之间可能有一些空白。。

PS:我知道R，我认为这可能是一个非常普遍的统计问题，即“如何根据一袋袋单词进行预测”。如果有人能给我指点更好的方法，我会非常感激的！

python

regex

回答 5

Stack Overflow用户

回答已采纳

发布于 2014-01-14 13:24:49

试试看

(\d+(?:\.\d+)?) ?[Gg](?:iga)?[Hh](?:ert)?[Zz]

您可以找到一个演示和解释这里。

票数 4

Stack Overflow用户

发布于 2014-01-14 13:47:36

正则表达式不适合处理凌乱的数据。类似于http://openrefine.org/的东西更适合这个任务。

但是，在RegExp中使用快速和肮脏的启发式方法可以很好地度量数据，如下所示：

re.findall(re.compile('([\.\d]+) ?g[^\W\d]*z', re.IGNORECASE), '2.2 gigahERTz 32 GB')

票数 3

Stack Overflow用户

发布于 2014-01-14 13:23:22

试试这个频率：

re.findall(re.compile('([\.\d]+) *[gG][hH][zZ]'), '2.2 GHz 32 GB')

一些注释：“。”匹配一个实际的时间段。A‘'.’它本身与单个字符匹配。“*”匹配0或更多空格字符。gGzZ匹配字母'g‘、'h’和'z‘的任意组合，小写和大写。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21124256

复制

Excel如何统计重复次数

excel 统计

在 Excel 中有时我们会需要统计特定单元格在某个区域范围内的重复次数，虽然工具栏并没有直接提供此功能，但借助 COUNTIF 函数可以轻松的完成任务。

reizhi

2022/09/26

1.8K0

python统计元素重复次数

python 统计

python统计元素重复次数 # !/usr/bin/python3.4 # -*- coding: utf-8 -*- from collections import Counter arr = ['BAISC', 'Python', 'BASICA', 'GVBASIC', 'GWBASIC', 'Python', 'ETBASIC', 'QBASIC', 'Quick', 'Basic', 'Turbo', 'Basic'] counts = list(Counter(arr).items())

机器学习和大数据挖掘

2019/07/02

1.3K0

如何优雅的统计List集合中元素重复出现次数

编程算法

统计List集合中元素出现的次数，相信大家都做过。举个例子，我们要统计集合中名字重复的次数。

Lvshen

2022/05/05

2.3K0

WordPress实现文章浏览次数统计代码

wordpress 网站建设 php

在WordPress主题开发过程中，往往会需要统计文章的浏览次数。网上的教程也非常多，但是WordPress不断更新迭代加之PHP版本升级好多教程都是几年前甚至更早的是时候发布的，即使能用也会出现版本不兼容等问题，也是非常难受的，所以我准备了一份目前为止最新的代码给大家使用！

空木白博客

2019/08/30

1.3K0

代码实现——MapReduce统计单词出现次数

xml input log4j resources txt

对以下txt文档进行单词出现次数统计（txt文档在/Users/lizhengi/test/input/目录下）

栗筝i

2022/12/01

9960

如何定义和统计用户的登录次数？

网络安全

大家好，我是姬小光，欢迎来到我的专栏！本期我们来聊聊互联网产品的登录是怎么回事儿，以及如何合理地定义用户的登录次数。

姬小光

2020/03/09

4.4K0

Excel函数与VBA多条件统计不重复出现的次数

=SUM(IF(MATCH($B$2:$B$41&$A$2:$A$41,$B$2:$B$41&$A$2:$A$41,0)=ROW($A$1:$A$40),1,0)*($B$2:$B$41=G1))

哆哆Excel

2022/10/25

2.2K0

使用 WP-Postviews 统计日志浏览次数

缓存博客插件日志统计

Denis

2023/04/15

6150

Python中如何统计文本词汇出现的次数?

腾讯云开发者社区

有时在遇到一个文本需要统计文本内词汇的次数的时候，可以用一个简单的python程序来实现。

小小科

2020/04/29

4K0

如何编写可靠的代码

单元测试

介绍当你得到一个小older-my但你妻子说我不是老愤世嫉俗者。这是为什么许多老男人不要说(或写)那么多:我们知道没有人注意。当你获得AARP另一个问题是,你相信你知道什么是真理,其他的都是废话。本着这一精神,我可以这篇文章题为“结对编程是输家,”“为什么你的代码很烂,”或“经理是白痴,”但我确信琼斯先生不会打印。我可以告诉你的是,我能写的就是我所相信的,不是你想听到的或者是受欢迎的。很多人想听或相信什么是错的。 978年我写了第一行代码。可能有人会说我在1988年第一次得到这样做,我没有做其他。,阅读

用户1289394

2018/02/27

1.4K0

Pandas中如何统计各个销售地出线的次数？

数据处理 pandas 表格数据统计

前几天在Python最强王者交流群【wen】问了一个Pandas数据处理的问题，一起来看看吧。

前端皮皮

2023/10/17

1480

盘点对Python列表中每个元素前面连续重复次数的数列统计

python

前几天在Python钻石流群有个叫【周凡】的粉丝问了Python列表的问题，如下图所示。

Python进阶者

2022/06/05

2.4K0

如何使用Vim编写和调试Python代码

python 编程算法 shell

要想在Ubuntu下使用VIM编写和调试Python代码，请下安装如下的链接进行配置：

py3study

2020/01/13

4K0

巧用HashMap一行代码统计单词出现次数

jdk hashmap java 编程算法

JDK是在一直在迭代更新的，很多我们熟悉的类也悄悄的添加了一些新的方法特性。比如我们最常用的HashMap。

程序那些事

2020/09/03

4640

如何编写可怕的 Java 代码？

java 文件存储

我决定告诉你如何编写可怕的Java代码。如果你厌倦了所有这些美丽的设计模式和最佳实践，并且想写些疯狂的东西，请继续阅读。

芋道源码

2020/03/02

9260

如何编写漂亮的 React 代码？

javascript react

React 代码很难看。我不是在谈论这个框架的任何技术特性；我说的是直观的美学，代码在我屏幕上的样子，以及它所唤起的感觉。

深度学习与Python

2021/01/20

9810

如何编写可怕的 Java 代码？

java 文件存储

我决定告诉你如何编写可怕的Java代码。如果你厌倦了所有这些美丽的设计模式和最佳实践，并且想写些疯狂的东西，请继续阅读。

Java技术栈

2020/02/21

1K0

分ip统计网站的访问次数

tcp/ip servlet java 网站

Map什么时候创建（使用ServletContextListener，在服务器启动时完成创建，并只在到ServletContext中），Map保存到哪里！（Map保存到ServletContext中！！！）

星哥玩云

2022/09/14

2.1K0

如何编写可怕的Java代码？

java 文件存储

我决定告诉你如何编写可怕的Java代码。如果你厌倦了所有这些美丽的设计模式和最佳实践，并且想写些疯狂的东西，请继续阅读。

武培轩

2019/12/12

9520

点击加载更多

相似问题

为什么+=不将变量的值相加？

218

为什么不将count作为全局值？(赋值前引用的局部变量'count‘)

118

为什么gets不将值存储在变量中？

JavaScript不将变量写入数字(循环)

不将值存储到变量

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问正则表达式从纯文本中获取计算机规范
EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

为什么+=不将变量的值相加？

为什么不将count作为全局值？(赋值前引用的局部变量'count‘)

为什么gets不将值存储在变量中？

JavaScript不将变量写入数字(循环)

不将值存储到变量

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问正则表达式从纯文本中获取计算机规范EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

为什么+=不将变量的值相加？

为什么不将count作为全局值？(赋值前引用的局部变量'count‘)

为什么gets不将值存储在变量中？

JavaScript不将变量写入数字(循环)

不将值存储到变量

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问正则表达式从纯文本中获取计算机规范
EN