首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

10.威胁情报实体识别 (1)基于BiLSTM-CRF的实体识别详解

[当人工智能遇上安全] 4.基于机器学习的恶意代码检测技术详解 [当人工智能遇上安全] 5.基于机器学习算法的主机恶意代码识别研究 [当人工智能遇上安全] 6.基于机器学习的入侵检测和攻击识别——以KDD...BiLSTM-CRF的实体识别详解 作者的github资源: https://github.com/eastmountyxz/AI-Security-Paper https://github.com...当我们拥有更准确的标注,将有利于所有的实体识别研究。 四.数据集划分 在进行实体识别标注之前,我们将数据集随机划分为训练集、测试集、验证集。...下面的代码是构建BiLSTM-CRF模型实现实体识别。...六.基于BiLSTM-CRF的实体识别 人生路是一个个十路口,一次次博弈,一次次纠结和得失组成。

19530

Python爬虫技术系列-05符验证码识别

Python爬虫技术系列-05符验证码识别 1....光学文字识别 1.1 OCR概述 1.2 OCR识别库Tesseract下载安装 1.3 生成验证码图片 1.4 字符验证码识别 1.安装python识别验证码库: 2.验证码识别: 1.5 使用打码平台识别验证码...1.6 滑动验证码识别 1....光学文字识别 1.1 OCR概述 OCR(Optical Character Recognition,光学字符识别)是指使用扫描仪或数码相机对文本资料进行扫描成图像文件,然后对图像文件进行分析处理,自动识别获取文字信息及版面信息的软件...一般情况下,对于字符型验证码的识别流程如下:主要过程可以分解为五个步骤:图片清理,字符切分,字符识别,恢复版面、后处理文字几个步骤。

1.1K10

11.威胁情报实体识别 (2)基于BiGRU-CRF的中文实体识别详解

[当人工智能遇上安全] 10.威胁情报实体识别之基于BiLSTM-CRF的实体识别详解 常见的数据标注工具: 图像标注:labelme,LabelImg,Labelbox,RectLabel,CVAT...二.数据预处理 假设存在已经采集和标注好的中文数据集,通常采用按(Char)分隔,如下图所示,古籍为数据集,当然中文威胁情报也类似。 数据集划分为训练集和测试集。...,我们可以通过调用该函数获取识别的实体类别,关键代码如下。...一.ATT&CK数据采集 二.数据预处理 三.基于BiLSTM-CRF的实体识别 1.安装keras-contrib 2.安装Keras 3.中文实体识别 四.基于BiGRU-CRF的实体识别 五.总结...人生路是一个个十路口,一次次博弈,一次次纠结和得失组成。

12610

CNN-RNN-CTC 实现手写汉字识别

可以说,不同的人书写的是千差万别,各不相同,即使是同一个人所写的同一个,往往也因时、因地而有明显的变化。...可以看出,同一个的笔画和字形几乎迥然不同,相差甚远。草书的甚至文化较高的人有时也不认识,要求计算机能自动识别这样的手写字显然是不可能,也是不合理的。...因此,对用于计算机自动识别的手写汉字应有所要求。具体地说,对构成汉字的笔画及其相互关系,应有必要的规定和限制,不能无约束地随意书写。这种叫做“限制性手写汉字”。...通常对书写的基本要求有如下几点: ①书写工整,笔画横平竖直,粗细均匀; ②不同笔画不连笔书写,联机识别时,应按常规笔顺书写。...上述要求并不复杂,但实际上很难完全做到,即使是文化水平较高的人,除非曾经受过书写工程的训练,否则也不易按上述规定自始至终地书写。这就是手写字符识别的困难所在。

4.2K21

苹果推出高精度手写识别系统,可准确识别3万符集

然而,早期识别算法主要依赖分析笔画的构造。后来,研究人员对研究汉字整体结构的方法产生了兴趣。由于众多汉字具有相似性,汉字识别的难度加大,研究人员通过分类降低错误识别。...除了常见的“最可能”(top-1)和top-10的准确性外,我们也特意提到了top-4的准确性,因为输入法界面一开始会显示4个可能汉字,而top-4的准确性是用户体验提升的重要指标。 ?...扩展至3万 我们想为用户提供从印刷体到草书等各种可能的输入字体。为了尽可能多涵盖不同的汉字书写风格,我们从中国几个地区找到了一些书法家的数据。让我们惊讶的是,大多数用户表示没有见过这些罕见的汉字。...下图显示了样例中“花”在楷书、草书和“随便画几笔”风格下的样本。 ? 事实上,在日常生活中,用户输入经常是“随便画几笔”,出现一种非常不相似的曲线变化。有时也会让系统混淆成其他字符。...综上所述,我们在嵌入式设备上构建了覆盖3万个字符的高精度手写识别系统。只要有足够数量和质量的训练数据,识别准确度就不会大幅降低。未来,我们能精确识别的汉字字符还会更多。 如果还想了解具体的技术细节。

1.9K70

ICPR 图像识别与检测挑战赛冠军方案出炉,基于偏旁部首来识别 Duang

这次识别存在一些繁体,而关于繁体的训练样本比较少,会导致识别比较困难。...例如「聚」、「黔」、「坊」这三个,将这些的字符串识别出来之后,在字典里就能索引出结构类别,进而进行汉字识别。 ? 这一方法可以带来两个好处: 1....例如把 duang 作为输入,会解出成和龙,同时会出现一个表示成和龙上下结构的序列。 ? 在识别繁体时也是同理。 如下图所示,由于图像都是基于真实场景,所以出现了「薬」和「購」这样的繁体。...另外,从单字识别到文本行识别,对于模型来说,这两者的隔阂不是特别大,在这里用来提取偏旁部首的注意力机制还可以区分之间的间隔,实际上只需要在每个字的偏旁部首中间加上标志符。...这一方案目前在手写字符识别上还需要改进。人在手写时,会非常随意,有时候会出现连笔,抹消掉了汉字本该有的偏旁部首和空间结构,这时候基于 RAN 的方法获得的性能提升就没有打印体的大。

2.1K20

【独家】一文读懂文字识别(OCR)

4.2手写体识别应用 4.2.1文通笔(联机手写) 笔顺和连笔是影响联机手写汉字识别系统识别率的两个主要因素。...连笔是一个更为困难的问题,实际上也很难解决。人们为了提高书写速度,写字时往往是一笔呵成。要求他们一笔一画、按部就班地书写,也几乎是不可能的。...近几年投入市场的“文通笔”在解决上述笔顺和连笔的两个问题上做了一些努力,取得了一些成果,并在全国评测中获得较好的评价。...③将上述两种模型结合起来,用于联机手写汉字识别,在很大程度上解决了连笔和笔顺变化对识别系统性能的影响,使系统具有较高的鲁棒性。...系统可识别6763个简体汉字和5401个繁体汉字,对于书写比较工整的识别率在95%~99%之间;书写比较潦草的也可达到87%~93%,前十位累加识别率仍达98%~99%;采用主流微机的识别速度大于

23.3K143

现代汉语常用3500=常见2500+次常见1000

使用requests库爬取https://www.zdic.net/zd/zb/cc1/ 常用字2500 const char* hanzi[]={ "一","乙","二","十","丁","厂",...次","衣","产","决","充","妄","闭","问","闯","羊","并","关","米","灯","州","汗","污","江","池","汤","忙","兴","宇","守","宅",""..."翻","鹰","警","攀","蹲","颤","瓣","爆","疆","壤","耀","躁","嚼","嚷","籍","魔","灌","蠢","霸","露","囊","罐" }; 次常用汉字1000...//次常用汉字1000个 const char* hanzi[]={ "匕","刁","丐","歹","戈","夭","仑","讥","冗","邓","艾","夯","凸","卢","叭","叽","...//现代汉语常用3500 const char* hanzi[]={ "一","乙","二","十","丁","厂","七","卜","八","人","入","儿","九","几","了","乃",

3K30

字体设计|从历史中汲取字体设计的方法

第二种是局部结构的借鉴: 如下图中的招牌,设计师对笔画较少的“工”做了局部结构上的复杂化,这使得“工”的字面与其他文字趋于一致,提升整体的统一性。...总体来说,楷书作为一种书写体,具有国风、人文感、书写感、字体结构端正的特点,同时由于书写楷书的名家众多,而每个人的书写习风格亦有区别,因此产生了许多兼具美感与识别性的笔画写法。...字体笔画结构的借鉴 ① 笔画结构的借鉴 以下图为例,相比现代字体中规整的笔画,《玄秘塔碑》中文字的笔画结构带来一种轻松活泼的感觉,这种带有明显个人特征的变化生动有趣,具有自然的书写美感却又不影响文字本身的识别性...改“连笔”为“断笔”,从线条向笔画,更便于书写。隶书的代表作:《礼器碑》、《乙瑛碑》、《郃阳令曹全碑》 隶书字体笔画特点 隶书因其书写时易被竹简上的纤维干扰,线条常常被刻意写成弯曲的状态。...② 按照相同的逻辑对所需要的笔画进行几何化的提炼: ③ 将笔画应用在字体上: 2.3 笔触的书写化-以行楷为例: 行楷的简介 行楷书的字形是在楷书的点画基础上,略加变动而适于连笔书写的一种实用性很强的书体

1.3K30

变体美术设计手册

导语 | 变体美术设计是字体设计里重要的一部分,因为其的多变性极高,相较于字库字体,变体美术 给人们的印象更为深刻;这篇文章从定义,类别,基本笔画,笔画形状,创造·改造变体美术出发,带大家初步认识一下变体美术的奇妙...变体美术的类别 从上面我们知道,变体美术是经由宋体、黑体、书法这些基本字体变化而来,那么它的类别自然也来于这些基本字体,大致可以分四类:似黑体变体,似宋体变体,混合体变体,书法体变体。...似黑体变体(最常见的一类) 为了更好展示似黑体变体的基本笔画和笔画形状,将其小类转化为表格,并都以「永」 来示意。...第三种——连笔法(三步走) ? 注:有的文字组合在一起,之间连笔比较顺畅,但大部分时候是需要自己去创造可连接的机会,这个的前提是你需要先创造出文字笔画,让他们很好的连接。 来个实战演习: ?...6 种改变已有笔画细节的方法:断指法,替代法,连笔法,尖角法,拉伸法,卷叶法。 变体美术的部分就到这里,最后强调这四点: ?

97880

简体和繁體

导言 我们都知道中国汉字有两种,简体和繁体,有些人喜欢用简体,有些人喜欢用繁体。...可是大家在使用繁体的过程中会发现有些简体繁体一样,比如说“”这个字,今天我们就来统计一下像这样的占到所有汉字的百分之多少。...先简单的理一下实现思路,先获取所有的简体,然后使用百度翻译把简体翻译成繁体,接着进行比较,最后统计一下就完了。 获取简体 ? 我们先来看第一步——获取简体。...获取简体这一步已经完成了,接下来我们开始下一步,把简体翻译成繁体。 简体翻译成繁体 ?...比较简体和繁体 ? 比较的过程很简单,就是一个一个比较,在比较之前我们先定义两个全局变量,一个是简体字集,一个是繁体字集。

1.7K10

【C语言】 C 语言 关键分析 ( 属性关键 | 常量关键 | 结构体关键 | 联合体关键 | 枚举关键 | 命名关键 | 杂项关键)

【C语言】 C 语言 关键分析 ( 属性关键 | 常量关键 | 结构体关键 | 联合体关键 | 枚举关键 | 命名关键 | 杂项关键) 文章目录 一....属性关键 (auto | static | register) 1. auto 关键 (1) auto 关键说明 ( 默认属性 | 声明栈存储 | 只能修饰局部变量 [ 全局变量在全局区存储...其它关键 ( goto | void | extern | sizeof) 1. goto 关键 ( 不建议使用 ) 2. void 关键 (1) void 关键说明 ( 修饰 返回值 和...const 关键 代码示例 ( 修饰指针 | 错误示例 ) ( 5 ) const 关键 代码示例 ( 修饰返回值 ) 2. volatile 关键 简介 (1) volatile 关键 简介...常量 和 易变 关键 ( const | volatile ) 1. const 关键 简介 (1) const 关键 简介 ( 左数右指 | 修饰制度变量 | 生成常量符号表 ) const 关键

2.3K20

视频识别 动作识别 实时异常行为识别 等所有行为识别

大家好,我是cv君,很多大创,比赛,项目,工程,科研,学术的炼丹术士问我上述这些识别,该怎么做,怎么选择框架,今天可以和大家分析一下一些方案: 用单帧目标检测做的话,前后语义相关性很差(也有优化版),...当然可以通过后处理判断下巴是否过框,效果是不够人工智能的),高抬腿计数,目标检测是无法计数的,判断人物的球类运动,目标检测是有很大的误检的:第一种使用球检测,误检很大,第二种使用打球手势检测,遇到人物遮挡球类,就无法识别目标...开始 目前以手势和运动识别为例子,因为cv君没什么数据哈哈 项目演示: 本人做的没转gif,所以大家可以看看其他的演示效果图,跟我的是几乎一样的~ 只是训练数据不同 ​ ​ ​ ​ 一、 基本过程和思想

4.4K20

套接

套接最早是UC Berkeley为BSD操作系统设计的。现在POSIX标准化了套接。在Linux和Unix下的套接是一致的。...套接是通信端点的一种抽象。在Linux下socket是文件的一种。也就是说可以使用read和write函数去处理套接。...在Linux下创建一个原始套接的时候,需要拥有超级用户权限,用来防止恶意程序。 在Linux下,我们使用函数socket来创建一个套接,这和Python所提供的方法并没有什么区别。...socket的第二个参数就是表1给出的套接类型,但是在实现的时候,可以自有增加其他类型的支持。 protocol通常是0,表示给给定的域和套接类型选择默认的协议。...这在同一域和套接类型的时候是有用的,可以指定选择某一个特定的协议。 socket函数返回一个套接描述符,本质上是一个文件描述符。

1.2K00
领券