腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >分析不一致数据

问分析不一致数据
EN

Stack Overflow用户

提问于 2013-03-09 12:42:08

回答 1查看 239关注 0票数 2

数据应该是这样的：

Some junk data
More junk data 

1. fairly long key, all on one line
value: some other text with spaces and stuff

2. hey look! another long key. still on one line
value: a different value with some different information

每个文件有几个这样的文件，通常在二十到三十之间。键值对的总数超过20,000，这意味着手动更正每个文件是一个非选项.每个键的前缀数字应该适当地递增。在值和下面的键之间应该有一个换行符。每个值应以字符串" value：“作为前缀。

现在，我逐行将每一行分类为键、值或垃圾。然后解析键外的数字，并将数字、键和值存储在对象中。

当数据格式不正确时会出现问题。以下是我到目前为止遇到的一些问题：

键和值之间没有换行符。
键或值中间的意外换行符，导致程序将每个键或值的一部分视为垃圾数据。
“价值”这个词拼错了。

我通过计算每一行前六个字符与主字符串"value:“之间的Levenstein距离来处理第三个场景。我怎样才能解决另外两个问题？

如果重要的话，解析是在node.js服务器上进行的，但是如果其他语言能够更容易地处理这些不一致的数据，我会向他们开放。

javascript

regex

node.js

parsing

首家权威机构通过的国产向量数据库

支持高达500万QPS、千亿向量规模；覆盖腾讯视频、QQ浏览器、QQ音乐等百个业务场景，每日调用量超千亿!

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-03-11 13:41:41

看一看这个：

RegEx：^(\d+)\. ?(.+?)(?:value|vlaue|balue|valie): ?(.+?)[\n\r]{2,}在这里解释了演示：http://regex101.com/r/gG0wH8

如果修复了“拼写错误的值”问题，可以将其简化为：

否则，^(\d+)\. ?(.+?)value: ?(.+?)[\n\r]{2,}会在|部件中添加同样多的拼写错误。

为了让它起作用，我迷上了：

行必须以数字和带有可选空格的点开始。
key是id之后和value之前的一切
value在至少两行中断后结束

您还应该删除正确的条目，然后重新检查文件，以检查是否有其他遗漏。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15315707

复制

当css属性width设为100%时

html css

平常在写页面html代码时，经常会使用到width:100%来使控件宽度为父控件的内容宽度。但如果父控件为body，而且没有明确设置body的宽度，那么就会出现以下的情况了。代码： 1 <body> 2 <div style="background:#888;width:100%;height:200px"> 3 <div style="width:1000px;height:100px;margin:0 auto;border:solid 1px red"></div> 4 </di

^_^肥仔John

2018/01/18

1.4K0

复选框实现子节点父节点联动

其他

<div class="col-sm-4"> <h2>球类</h2> <div id="epuclass" class=""> <form> <input type="checkbox" name="items" value="足球"/>足球 <input type="checkbox" name="items" value="乒乓球"/>乒乓球 <

麦克劳林

2018/09/11

1.9K0

这样的优化对 MySQL 来说作用微乎其微

后端

通常，我们在回答 MySQL 数据库优化的相关问题时，一般会从三个层面来说明，分别是：

每周聚焦

2023/05/09

4350

SDN网络对云来说是救星

其他

SDN网络起源于当前交换机、路由器、网络协议以及分段工具不能满足对连通性的需求。云就绪数据中心能够在全世界任何一处不间断提供信息和生产力。云计算模型通过将计算、存储和网络资源池化，交付经济规模效率和价值，将它们分配到最需要的地方，最大化它们在多团队之间的用途以及将底层物理基础设施抽象出来。传统网络的低效和成本源自乏味的手动配置和管理、性能瓶颈、连通性以及宽带成本、缺乏服务灵活性、安全面临威胁等等。为了完全实现云计算的益处，IT团队必须使用虚拟化克网络挑战。 SDN网络是救星如同服务器一样，网络基础设施

静一

2018/03/19

6370

cdn节点是什么意思？Cdn节点的作用是什么？

cdn

网络在人们生活中日益普及，但网络的速度除了和用户接入的宽带速度有关，还有内容距离用户的物理距离有直接的关系。因此目前为了解决数据传输效率的问题，运营商通常都会建立分发内容系统。那么cdn节点是什么意思？Cdn节点的作用是什么呢？

用户8715145

2021/09/18

5.1K0

Java xml节点属性的修改[通俗易懂]

java css xml https 网络安全

大家好，又见面了，我是你们的朋友全栈君。 Java xml节点属性的修改修改xml节点的属性，我们先建立一个修改之前的xml文档： <?xml version=”1.0″ encoding=”GB2

全栈程序员站长

2022/09/13

2K0

使用 jQuery 统计用户选中的复选框的个数

jquery 统计微信公众号

微信公众号平台每个用户最多可以设置三个标签，所以在管理员给用户设置标签的时候需要统计用户的标签，下面就是使用使用 jQuery 统计用户选中的复选框的个数的方法：

Denis

2023/04/15

1.3K0

几种将网站设为首页的代码是_网页设计基本代码

http php https javascript 网络安全

全栈程序员站长

2022/11/17

1.7K0

JS-节点属性（常用！）

其他

（开始很生疏，不想看的知识点，后来DOM中用的特别多，才发现很重要。还有几个点，是比较容易忽略的，值得注意！） <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>JS-节点属性</title> </head> <body> <h1>节点属性</h1> 在文档对象模型 (DOM) 中，每个节点都是一个对象。DOM 节点有三个重要的属性：<br/> 1. nodeName : 节点的名称<br/> 2. nodeValue

xing.org1^

2018/05/17

4.5K0

cdn节点是什么？如何理解cdn节点的作用？

cdn 网站

当人们在网络上遨游的时候，可能很难想象在这其中有多少服务器在为实现网络访问而繁忙不休，而cdn节点就是一种能够帮助用户提升网站访问速度的服务，那么cdn节点是什么？如何理解cdn节点的作用呢？

用户8715145

2021/09/24

4K0

属性元素的内容创建，插入和删除节点虚拟节点

html

表示HTML文档元素的HTMLElement对象定义了读/写属性。映射了元素的HTML属性。HTMLElement定义了通用的HTTP属性。以及事件处理程序的属性。特定的Element子类型为其元素定义了特定的属性。

mySoul

2018/08/07

2.4K0

yarn节点属性及调度

yarn 分布式任务调度 node.js 存储

在2.X版本中，已经支持节点设置标签，并且允许容量调度中的队列，设置可访问的节点标签以及默认标签值，并按照节点标签进行调度。

陈猿解码

2023/02/28

1.1K0

【Groovy】自定义 Xml 生成器 BuilderSupport ( 构造 Xml 节点类 | 封装节点名称、节点值、节点属性、子节点 | 将封装的节点数据转为 Xml 字符串 )

xml 开发手机数据字符串

生成 Xml 数据前，首先要将 Xml 数据封装起来，先手机 Xml 的各个层级节点的信息，最后利用这些节点信息生成 Xml 数据；

韩曙亮

2023/03/30

6.2K0

初探JavaScript（一）——也谈元素节点、属性节点、文本节点

javascript

　　Javascript大行其道的时候，怎么能少了我来凑凑热闹^_^ 　　基本上自己对于js的知识储备很少，先前有用过JQuery实现一些简单功能，要论起JS的前世今生，来龙去脉，我就一小白。抱起一本

JackieZheng

2018/01/08

2.4K0

iOS将单个控制器设为横屏、页面横屏

ios

最近项目中拍照页面需要设置为横屏，需求如下进入拍摄页面后将页面强制设为横屏，拍照结束后回复竖屏。简述为：A->B（横屏）屏幕快照 2016-07-29 下午5.50.02.png 1. 首先在

2018/05/11

2.7K0

云计算对大数据来说是巨大的创新潜力

云计算 kubernetes 神经网络深度学习人工智能

如果企业采用大数据技术，那么必然会使用云计算技术，因为云平台已经成为存储和处理大量数据的标准平台。随着云计算巨头致力于争夺市场领先地位，云计算服务将在2020年迅速增长。

静一

2020/02/18

5690

java解析xml格式的节点属性值

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/137716.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/05

2.2K0

[AAAI | 论文简读] GNN中非属性节点分类的优先标记

论文

Preferential Labeling for Unattributed Node Classification in GNNs

智能生信

2022/12/29

4860

jQuery第十四篇属性和属性节点

jquery

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Document</title> <script type="text/javascript" src="./jquery-1.10.1.min.js"></script> </head> <body> <span name="it666"></span> <script> function Person() { } var p=new

贵哥的编程之路

2020/10/28

5940

Windows Lite 对微软来说意味着什么？

其他

微软发烧友 Brad Sams 近日在 Petri 上写道，微软正在开发一个名为 Windows Lite 的新版操作系统。顾名思义，Windows Lite 将是轻量级并快速的，因为它抛开了 Windows 长达数十年的臃肿积累。此举似乎暗示着微软转向云计算并重新进入移动领域的野心。但微软想取得成功，它必须从过去的错误中吸取教训。

Debian中国

2018/12/21

5330

相似问题

具有可选节点的复选框JTree

116

对用户来说，最好的支付模式是什么？

选择jtree中的所有复选框节点

使用JTree对HashMap节点进行分组

按字母顺序对Jtree节点排序

活动推荐

赋能数字化转型，大数据产品9.9元起

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例