首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    10.威胁情报实体识别 (1)基于BiLSTM-CRF的实体识别万字详解

    [当人工智能遇上安全] 4.基于机器学习的恶意代码检测技术详解 [当人工智能遇上安全] 5.基于机器学习算法的主机恶意代码识别研究 [当人工智能遇上安全] 6.基于机器学习的入侵检测和攻击识别——以KDD...BiLSTM-CRF的实体识别万字详解 作者的github资源: https://github.com/eastmountyxz/AI-Security-Paper https://github.com...当我们拥有更准确的标注,将有利于所有的实体识别研究。 四.数据集划分 在进行实体识别标注之前,我们将数据集随机划分为训练集、测试集、验证集。...下面的代码是构建BiLSTM-CRF模型实现实体识别。...六.基于BiLSTM-CRF的实体识别 人生路是一个个十字路口,一次次博弈,一次次纠结和得失组成。

    29530

    Python爬虫技术系列-05字符验证码识别

    Python爬虫技术系列-05字符验证码识别 1....光学文字识别 1.1 OCR概述 1.2 OCR识别库Tesseract下载安装 1.3 生成验证码图片 1.4 字符验证码识别 1.安装python识别验证码库: 2.验证码识别: 1.5 使用打码平台识别验证码...1.6 滑动验证码识别 1....光学文字识别 1.1 OCR概述 OCR(Optical Character Recognition,光学字符识别)是指使用扫描仪或数码相机对文本资料进行扫描成图像文件,然后对图像文件进行分析处理,自动识别获取文字信息及版面信息的软件...一般情况下,对于字符型验证码的识别流程如下:主要过程可以分解为五个步骤:图片清理,字符切分,字符识别,恢复版面、后处理文字几个步骤。

    1.3K10

    11.威胁情报实体识别 (2)基于BiGRU-CRF的中文实体识别万字详解

    [当人工智能遇上安全] 10.威胁情报实体识别之基于BiLSTM-CRF的实体识别万字详解 常见的数据标注工具: 图像标注:labelme,LabelImg,Labelbox,RectLabel,CVAT...二.数据预处理 假设存在已经采集和标注好的中文数据集,通常采用按字(Char)分隔,如下图所示,古籍为数据集,当然中文威胁情报也类似。 数据集划分为训练集和测试集。...,我们可以通过调用该函数获取识别的实体类别,关键代码如下。...一.ATT&CK数据采集 二.数据预处理 三.基于BiLSTM-CRF的实体识别 1.安装keras-contrib 2.安装Keras 3.中文实体识别 四.基于BiGRU-CRF的实体识别 五.总结...人生路是一个个十字路口,一次次博弈,一次次纠结和得失组成。

    26710

    CNN-RNN-CTC 实现手写汉字识别

    可以说,不同的人书写的字是千差万别,各不相同,即使是同一个人所写的同一个字,往往也因时、因地而有明显的变化。...可以看出,同一个字的笔画和字形几乎迥然不同,相差甚远。草书的字甚至文化较高的人有时也不认识,要求计算机能自动识别这样的手写字显然是不可能,也是不合理的。...因此,对用于计算机自动识别的手写汉字应有所要求。具体地说,对构成汉字的笔画及其相互关系,应有必要的规定和限制,不能无约束地随意书写。这种字叫做“限制性手写汉字”。...通常对书写的基本要求有如下几点: ①书写工整,笔画横平竖直,粗细均匀; ②不同笔画不连笔书写,联机识别时,应按常规笔顺书写。...上述要求并不复杂,但实际上很难完全做到,即使是文化水平较高的人,除非曾经受过书写工程字的训练,否则也不易按上述规定自始至终地书写。这就是手写字符识别的困难所在。

    4.8K21

    苹果推出高精度手写识别系统,可准确识别3万字符集

    然而,早期识别算法主要依赖分析笔画的构造。后来,研究人员对研究汉字整体结构的方法产生了兴趣。由于众多汉字具有相似性,汉字识别的难度加大,研究人员通过分类降低错误识别。...除了常见的“最可能字”(top-1)和top-10的准确性外,我们也特意提到了top-4的准确性,因为输入法界面一开始会显示4个可能汉字,而top-4的准确性是用户体验提升的重要指标。 ?...扩展至3万字 我们想为用户提供从印刷体到草书等各种可能的输入字体。为了尽可能多涵盖不同的汉字书写风格,我们从中国几个地区找到了一些书法家的数据。让我们惊讶的是,大多数用户表示没有见过这些罕见的汉字。...下图显示了样例中“花”字在楷书、草书和“随便画几笔”风格下的样本。 ? 事实上,在日常生活中,用户输入经常是“随便画几笔”,出现一种非常不相似的曲线变化。有时也会让系统混淆成其他字符。...综上所述,我们在嵌入式设备上构建了覆盖3万个字符的高精度手写识别系统。只要有足够数量和质量的训练数据,识别准确度就不会大幅降低。未来,我们能精确识别的汉字字符还会更多。 如果还想了解具体的技术细节。

    2K70

    ICPR 图像识别与检测挑战赛冠军方案出炉,基于偏旁部首来识别 Duang 字

    这次识别存在一些繁体字,而关于繁体字的训练样本比较少,会导致识别比较困难。...例如「聚」、「黔」、「坊」这三个字,将这些字的字符串识别出来之后,在字典里就能索引出结构类别,进而进行汉字识别。 ? 这一方法可以带来两个好处: 1....例如把 duang 字作为输入,会解出成和龙,同时会出现一个表示成和龙上下结构的序列。 ? 在识别繁体字时也是同理。 如下图所示,由于图像都是基于真实场景,所以出现了「薬」和「購」这样的繁体字。...另外,从单字识别到文本行识别,对于模型来说,这两者的隔阂不是特别大,在这里用来提取偏旁部首的注意力机制还可以区分字和字之间的间隔,实际上只需要在每个字的偏旁部首中间加上标志符。...这一方案目前在手写字符识别上还需要改进。人在手写时,会非常随意,有时候会出现连笔,抹消掉了汉字本该有的偏旁部首和空间结构,这时候基于 RAN 的方法获得的性能提升就没有打印体的大。

    2.3K20

    【独家】一文读懂文字识别(OCR)

    4.2手写体识别应用 4.2.1文通笔(联机手写) 笔顺和连笔是影响联机手写汉字识别系统识别率的两个主要因素。...连笔是一个更为困难的问题,实际上也很难解决。人们为了提高书写速度,写字时往往是一笔呵成。要求他们一笔一画、按部就班地书写,也几乎是不可能的。...近几年投入市场的“文通笔”在解决上述笔顺和连笔的两个问题上做了一些努力,取得了一些成果,并在全国评测中获得较好的评价。...③将上述两种模型结合起来,用于联机手写汉字识别,在很大程度上解决了连笔和笔顺变化对识别系统性能的影响,使系统具有较高的鲁棒性。...系统可识别6763个简体汉字和5401个繁体汉字,对于书写比较工整的字,识别率在95%~99%之间;书写比较潦草的字也可达到87%~93%,前十位累加识别率仍达98%~99%;采用主流微机的识别速度大于

    23.9K143

    7大核心技术:智能OCR如何助力市政单位文档处理数字化转型

    通用文字识别(OCR)通用OCR的核心在于文本区域的检测与识别。...字典约束解码:结合特定场景的语言模型(如红头文件、发票词库)提升识别精度,对生僻字、紧凑文字的识别鲁棒性更强。3....印章检测与识别印章检测与文字识别是政务文件审核中的重要环节。OCR通过以下技术实现:形状检测使用Haar特征与Hough圆变换技术,精准识别圆形、方形、椭圆形印章边缘。...手写文字识别手写文字的复杂性远高于印刷体文字。OCR利用以下技术突破手写识别难题:滑动窗口分割针对手写体的连笔特性,使用滑动窗口法切分字符区域,避免连笔对识别的干扰。...OCR与图像识别技术结合,实现:内容安全审核利用深度学习模型(如Yolo和Transformer)检测图片中的敏感元素,同时基于OCR识别图片中的文字内容,筛查涉黄、涉暴信息。

    16210

    现代汉语常用3500字=常见字2500字+次常见字1000字

    使用requests库爬取https://www.zdic.net/zd/zb/cc1/ 常用字2500字 const char* hanzi[]={ "一","乙","二","十","丁","厂",...次","衣","产","决","充","妄","闭","问","闯","羊","并","关","米","灯","州","汗","污","江","池","汤","忙","兴","宇","守","宅","字"..."翻","鹰","警","攀","蹲","颤","瓣","爆","疆","壤","耀","躁","嚼","嚷","籍","魔","灌","蠢","霸","露","囊","罐" }; 次常用汉字1000字...//次常用汉字1000个字 const char* hanzi[]={ "匕","刁","丐","歹","戈","夭","仑","讥","冗","邓","艾","夯","凸","卢","叭","叽","...//现代汉语常用3500字 const char* hanzi[]={ "一","乙","二","十","丁","厂","七","卜","八","人","入","儿","九","几","了","乃",

    3.4K30

    字体设计|从历史中汲取字体设计的方法

    第二种是局部结构的借鉴: 如下图中的招牌,设计师对笔画较少的“工”字做了局部结构上的复杂化,这使得“工”字的字面与其他文字趋于一致,提升整体的统一性。...总体来说,楷书作为一种书写体,具有国风、人文感、书写感、字体结构端正的特点,同时由于书写楷书的名家众多,而每个人的书写习风格亦有区别,因此产生了许多兼具美感与识别性的笔画写法。...字体笔画结构的借鉴 ① 笔画结构的借鉴 以下图为例,相比现代字体中规整的笔画,《玄秘塔碑》中文字的笔画结构带来一种轻松活泼的感觉,这种带有明显个人特征的变化生动有趣,具有自然的书写美感却又不影响文字本身的识别性...改“连笔”为“断笔”,从线条向笔画,更便于书写。隶书的代表作:《礼器碑》、《乙瑛碑》、《郃阳令曹全碑》 隶书字体笔画特点 隶书因其书写时易被竹简上的纤维干扰,线条常常被刻意写成弯曲的状态。...② 按照相同的逻辑对所需要的笔画进行几何化的提炼: ③ 将笔画应用在字体上: 2.3 笔触的书写化-以行楷为例: 行楷的简介 行楷书的字形是在楷书的点画基础上,略加变动而适于连笔书写的一种实用性很强的书体

    1.4K30

    我发现腾讯OCR在繁体字识别上尖尖的(顶尖的尖)

    自古雖有傷醫一科,及鬼遺等論,後人” 我们来数一数,一列33个字,正确识别了22个字,但其中大部分正确被识别出来的都是对中文简体的识别,而对中文繁体字的识别基本是全军覆没。...顺便一提,后续在使用其他云服务中的OCR识别时,某些中文繁体字、生僻字也未被未包含在模型的训练集中,导致这些字未被模型识别为“文字”。这倒提醒我今后专门对中文繁体进行训练还是有必要的。...三家对于“癰”字都没能识别出来,但是在将腾讯OCR的参数选择为"zh_rare"(中文生僻字时)竟然能够识别出来,可是这样其他的简单的字却被识别失败了。...华为云很明显是数据集中没有该字(因为压根没将“癰”当成一个字),但在其他字的识别都是很准确的。...如果华为能标注更多中文繁体字,那冠军一定是华为了,而且其中仅有华为的文字识别是能够不做位置处理,直接能够将竖行的字识别为一块文字,而腾讯和阿里则需要在代码中根据坐标信息进行修改。

    10200

    变体美术字设计手册

    导语 | 变体美术字设计是字体设计里重要的一部分,因为其的多变性极高,相较于字库字体,变体美术字 给人们的印象更为深刻;这篇文章从定义,类别,基本笔画,笔画形状,创造·改造变体美术字出发,带大家初步认识一下变体美术字的奇妙...变体美术字的类别 从上面我们知道,变体美术字是经由宋体、黑体、书法这些基本字体变化而来,那么它的类别自然也来于这些基本字体,大致可以分四类:似黑体变体字,似宋体变体字,混合体变体字,书法体变体字。...似黑体变体字(最常见的一类) 为了更好展示似黑体变体字的基本笔画和笔画形状,将其小类转化为表格,并都以「永」 字来示意。...第三种——连笔法(三步走) ? 注:有的文字组合在一起,字和字之间连笔比较顺畅,但大部分时候是需要自己去创造可连接的机会,这个的前提是你需要先创造出文字笔画,让他们很好的连接。 来个实战演习: ?...6 种改变已有笔画细节的方法:断指法,替代法,连笔法,尖角法,拉伸法,卷叶法。 变体美术字的部分就到这里,最后强调这四点: ?

    1K80

    简体字和繁體字

    导言 我们都知道中国汉字有两种,简体字和繁体字,有些人喜欢用简体,有些人喜欢用繁体。...可是大家在使用繁体字的过程中会发现有些字简体繁体一样,比如说“字”这个字,今天我们就来统计一下像这样的字占到所有汉字的百分之多少。...先简单的理一下实现思路,先获取所有的简体字,然后使用百度翻译把简体翻译成繁体,接着进行比较,最后统计一下就完了。 获取简体字 ? 我们先来看第一步——获取简体字。...获取简体字这一步已经完成了,接下来我们开始下一步,把简体字翻译成繁体字。 简体字翻译成繁体字 ?...比较简体字和繁体字 ? 比较的过程很简单,就是一个一个字比较,在比较之前我们先定义两个全局变量,一个是简体字集,一个是繁体字集。

    1.7K10

    【C语言】 C 语言 关键字分析 ( 属性关键字 | 常量关键字 | 结构体关键字 | 联合体关键字 | 枚举关键字 | 命名关键字 | 杂项关键字)

    【C语言】 C 语言 关键字分析 ( 属性关键字 | 常量关键字 | 结构体关键字 | 联合体关键字 | 枚举关键字 | 命名关键字 | 杂项关键字) 文章目录 一....属性关键字 (auto | static | register) 1. auto 关键字 (1) auto 关键字说明 ( 默认属性 | 声明栈存储 | 只能修饰局部变量 [ 全局变量在全局区存储...其它关键字 ( goto | void | extern | sizeof) 1. goto 关键字 ( 不建议使用 ) 2. void 关键字 (1) void 关键字说明 ( 修饰 返回值 和...const 关键字 代码示例 ( 修饰指针 | 错误示例 ) ( 5 ) const 关键字 代码示例 ( 修饰返回值 ) 2. volatile 关键字 简介 (1) volatile 关键字 简介...常量 和 易变 关键字 ( const | volatile ) 1. const 关键字 简介 (1) const 关键字 简介 ( 左数右指 | 修饰制度变量 | 生成常量符号表 ) const 关键字

    2.4K20
    领券