第2期:检务研发中心命名实体规则&Falcon应用技术分享会

很I高I兴I你I能I来

嘉诚

检务研发中心

希I望I你I多I收I获

还记得上次MR.焦分享的区块链吗?时隔多日,嘉诚检务研发中心第二期技术先知又来了!本期请来了li.sir和Jc.lizh两位小伙伴,为我们带来“命名实体识别”“Open-falcon”的分享和交流,绝对干货满满,跟随着小编一起来回顾一下吧!

1

2

wode

命名实体识别

主讲人:li.sir

这些专业名词你得了解一下~

1

NER简介及应用

命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名等专有名词。NER系统就是从非结构化的输入文本中抽取出上述实体。

2

NER的发展及方法

早期方法:基于字典的方法

机器学习方法:HMM、CRF

深度学习方法:RNN-CRF、CNN-CRF

近期及未来:迁移学习

隐马尔可夫模型(HMM)

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析。

我们来举个例子:

我是一战士,有三种战斗形态,分别为暴怒态,正常状态和防御态。同时我也会两个被动技能,分别是:爆击(攻击伤害翻倍),吸血(生命汲取)。

在暴怒状态下,打出暴击的概率是80%,打出吸血概率是5%;

在平衡形态下,打出暴击的概率是30%,打出吸血的概率是20%

在防御形态下,打出暴击的概率是5%,打出吸血概率是60%。

本来,战士在不同状态下脚下的光环不同,但是现在游戏出bug了,光环都看不见了。

现在问题来了:由于看不到脚下光环,我只能估计战士在什么状态,我现在打一boss,砍10刀,发现8刀都是暴击,你觉得我这战士最可能是在什么状态?

3

神经网络简介

神经网络和监督学习

神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。

监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练。

关于循环神经网络RNN

普通的神经网络只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列。

很明显在一个句子中,前面的词对于当前单词的预测是有很大影响的,比如,“我吃了一个苹果”“在今天的苹果发布会上…”两个都是苹果但是指的却是两个完全不懂得东西。

所以为了解决一些这样类似的问题,能够更好的处理序列的信息,RNN就诞生了。

Open-Falcon

主讲人:Jc.lizh

人性化的互联网企业级监控系统

1

什么是open-falcon?

Open-falcon的介绍

1

监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供翔实的数据用于追查定位问题。

2

监控系统作为一个成熟的运维产品,业界有很多开源的实现可供选择。当公司刚刚起步,业务规模较小,运维团队也刚刚建立的初期,选择一款开源的监控系统,是一个省时省力,效率最高的方案。

3

CPU、Load、内存、磁盘、IO、网络相关、内核参数、ss 统计输出、端口采集、核心服务的进程存活信息采集、关键业务进程资源消耗、NTP offset采集、DNS解析采集,这些指标,都是open-falcon的agent组件直接支持的。

4

术业有专攻,运行在OS上的应用甚多,Open-Falcon的开发团队不可能把所有的第三方应用的监控全部做完,这个就需要开源社区提供更多的插件,当前对于很多常用的第三方应用都有相关插件了

2

open-falcon特点

characteristic

强大灵活的数据采集

强大灵活的数据采集:自动发现,支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持、opentsdb data model like(timestamp、endpoint、metric、key-value tags)

高效率的graph组件

单机支撑200万metric的上报、归档、存储(周期为1分钟)

水平扩展能力

支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询

高效的历史数据query组件

采用rrdtool的数据归档策略,秒级返回上百个metric一年的历史数据

高效率的告警策略管理

高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用

dashboard

多维度的数据展示,用户自定义Screen

人性化的告警设置

最大告警次数、告警级别、告警恢复通知、告警暂停、不同时段不同阈值、支持维护周期

开发语言

整个系统的后端,全部golang编写,portal和dashboard使用python编写。

3

open-falcon架构

3

open-falcon的存储

数据量大:目前我们的监控系统,每个周期,大概有2000万次数据上报(上报周期为1分钟和5分钟两种,各占50%),一天24小时里,从来不会有业务低峰,不管是白天和黑夜,每个周期,总会有那么多的数据要更新。

高效率的查:监控系统读操作少,是说相对写入来讲。监控系统本身对于读的要求很高,用户经常会有查询上百个meitric,在过去一天、一周、一月、一年的数据。如何在1秒内返回给用户并绘图,这是一个不小的挑战。

写操作多:一般的业务系统,通常都是读多写少,可以方便的使用各种缓存技术,再者各类数据库,对于查询操作的处理效率远远高于写操作。而监控系统恰恰相反,写操作远远高于读。每个周期几千万次的更新操作,对于常用数据库(MySQL、postgresql、mongodb)都是无法完成的

对于绘图的数据来讲,查询要快是关键,同时不能丢失信息量。对于用户要查询100个metric,在过去一年里的数据时,数据量本身就在那里了,很难1秒之类能返回,另外就算返回了,前端也无法渲染这么多的数据,还得采样,造成很多无谓的消耗和浪费。我们参考rrdtool的理念,在数据每次存入的时候,会自动进行采样、归档。我们的归档策略如下,历史数据保存5年。同时为了不丢失信息量,数据归档的时候,会按照平均值采样、最大值采样、最小值采样存三份。

本期分享会圆满结束,感谢两位技术达人带来的精彩分享!嘉诚检务研发中心技术先知分享会通过对前沿技术和实践的探讨与分享,让不同岗位的技术人员对新技术和最佳实践有了更深刻的理解与认知。今后我们将给大家带来更多的优质前沿技术干货,期待您的加入!

嘉诚信息智慧检务出品

编辑丨李慧慧

审核丨徐兵子

从这里了解

嘉诚信息智慧检务

公益诉讼大数据应用平台

行政检察与行政执法衔接平台

行政执法与刑事司法衔接平台

逮捕必要性审查平台

智慧执检系统

掌上检察院

网上检察院

实体检察院

指挥调度中心系统

自主产品及解决方案

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181022G1KZS800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券