首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

分享一个强大英汉词典开源数据库

最近,大牛 @韦易笑 在知乎上看到我们项目之后,建议增加 lemma(原型单词)转换以提高词频统计准确性,并推荐了他制作并维护开源项目:英汉词典数据库 ECDict。...项目地址: https://github.com/skywind3000/ecdict 项目介绍(部分内容摘自项目说明): ECDict 是一份英文->中文字典双解词典数据库,根据各类考试大纲和语料库词频收录各类单词英文和中文释义...base, longtime base, … 数据读写 基于 CSV、SQLite、MySQL 单词读写、查询、匹配、条件、修改、删除等。...经过 Lemma 转换过之后结果再进行词频统计,会比直接统计原文中单词准确得多。 ECDict 项目可以为你开发需要内嵌词典软件或单词查询统计项目时提供极大便利。...即使你不是一个开发者,只是想要一个词汇量丰富英汉词典,同样也可以使用 ECDict 搭配开源词典工具 GoldenDict,或者欧陆、MDict、StarDict、BlueDict、EDWin,甚至导入

15.3K60
您找到你想要的搜索结果了吗?
是的
没有找到

基于词典规则中文分词

基于词典规则中文分词简单来说就是将中文文本按照顺序切分成连续词序,然后根据规则以及连续词序是否在给定词典中来决定连续词序是否为最终分词结果。不同规则对应最终分词结果是不一样。...a 加载HanLP词典 为了方便使用HanLP附带迷你核心词典。...最长匹配算法是基于词典进行匹配,首先选取词典中最长单词汉字个数作为最长匹配起始长度。...比如现在词典最长单词中包含5个汉字,那么最长匹配起始汉字个数就为5,如果与词典匹配不成功就减少一个汉字继续与词典进行匹配,循环往复,直至与词典匹配且满足规则或者剩下一个汉字。 ?...就读北京大",词典中没有对应单词,匹配失败; 减少一个汉字。"就读北京",词典中没有对应单词,匹配失败; 减少一个汉字。"就读北",词典中没有对应单词,匹配失败; 减少一个汉字。"

2K31

【ES图文教程】4:给ES扩展词词典及停用词词典

扩展词词典 随着互联网发展,“造词运动”也越发频繁。出现了很多新词语,在原有的词汇列表中并不存在。比如:“奥力给”,“蓝瘦香菇” 等。...这个时候,我们就要添加扩展词词典了。添加步骤如下: 1)打开IK分词器config目录: 图片 我们先来看看 图片 2)在IKAnalyzer.cfg.xml配置文件内容添加:         ext.dic 修改后: 图片...我们可以看到,白嫖、蓝瘦香菇、奥力给这三个已经成功分词了 注意当前文件编码必须是 UTF-8 格式,严禁使用Windows记事本编辑 4 停用词词典 在互联网项目中,在网络间传输速度很快,所以很多语言是不允许在网络上传递...--用户可以在这里配置自己扩展停止词字典  *** 添加停用词词典-->         stopword.dic </properties

1.1K20

MySQLMySQL数据库初阶使用

ls /var/lib/mysql内容是上一个mysql数据库中所残留数据,MySQL服务在卸载时候,默认不会将数据删除掉,这些数据我们可以不用管,他们并不影响我们后续MySQL服务安装和使用...H2: 是一个用Java开发嵌入式数据库,它本身只是一个类库,可以直接嵌入到应用项目中 上面的数据库管理系统中,国内用最多还是MySQL,银行金融业用oracle比较多,MySQL生态很完整,...三、MySQL操作库 1.库结构CURD操作 查看MySQL中所有的数据库:show databases; 创建数据库指令和显示创建数据库指令 !...数据库重命名MySQL是不支持,并且这是非常合理,因为数据库名字是量级很重,一旦数据库名字发生改变,则上层所有使用数据库代码都需要做出调整,代价特别大,所以一般在项目前期讨论协商时候,一定要确定好数据库命名等工作...约束唯一目的其实就是为了保证数据库中数据有效性,可预期性和完整性,一旦插入数据不符合表约束,则MySQL直接拦截数据插入,倒逼程序员向数据库中插入有效数据。让数据库数据都是符合约束

30930

MySQLMySQL数据库进阶使用

,因为索引只能提升部分数据查询,查询数据一旦涉及到索引中没有包含列字段,则此时就无法使用B+索引结构来优化查询速度,数据库系统只能遍历整个表所有行来进行查找,这会大大降低查询速度。...除此之外,实际公司使用MySQL数据库,存储数据最少也几百万条记录打底,一旦全列查询,则查询结果会疯狂刷屏到显示器上,看也没法看,而且还有可能导致mysqld服务卡死,所以平常我们自己敲一些简单数据库...查询姓孙同学或者姓曹同学数学成绩,结果按数学成绩由高到低显示 6. 对未知表进行查询时,最好进行分页显示,这样可以避免表中数据过大时,导致查询全表数据致使数据库卡死。...MySQL一定是不支持。...,要加单引号,防止别名与MySQL关键字冲突。

25620

【前端词典】进阶必备网络基础

一、应用层 应用层( application-layer )任务是通过应用进程间交互来完成特定网络应用。应用层协议定义是应用进程(进程:主机中正在运行程序)间通信和交互规则。...我们把应用层交互数据单元称为报文 域名系统 域名系统( Domain Name System )是因特网一项核心服务,它作为可以将域名和 IP 地址相互映射一个分布式数据库,能够使人更方便访问互联网...传输层常用两种协议 传输控制协议-TCP:提供面向连接,可靠数据传输服务。 用户数据协议-UDP:提供无连接,尽最大努力数据传输服务(不保证数据传输可靠性)。...两台主机之间数据传输,总是在一段一段链路上传送,这就需要使用专门链路层协议。 在两个相邻节点之间传送数据时,数据链路层将网络层接下来 IP 数据报组装成帧,在两个相邻节点间链路上传送帧。...IP ; 共同点 都是做为服务器和客户端中间层 都可以加强内网安全性,阻止 web 攻击 都可以做缓存机制 具体应用可以看我写这一篇文章 【前端词典】和媳妇讲代理后意外收获 CDN 带来性能优化

77840

基于情感词典文本情感分类

基于情感词典文本情感分类 传统基于情感词典文本情感分类,是对人记忆和判断思维最简单模拟,如上图。...基于上述思路,我们可以通过以下几个步骤实现基于情感词典文本情感分类:预处理、分词、训练情感词典、判断,整个过程可以如下图所示。...情感词典分为四个部分:积极情感词典、消极情感词典、否定词典以及程度副词词典。...为了得到更加完整情感词典,我们从网络上收集了若干个情感词典,并且对它们进行了整合去重,同时对部分词语进行了调整,以达到尽可能高准确率。...,我们得出如下结论: 基于情感词典文本情感分类是容易实现,其核心之处在于情感词典训练。

2.1K80

实战语言模型~语料词典生成

b 数据预处理 为了方便理解讲解说明时采用了代码段方式实现,并没有使用函数进行抽象,后面会给出详细函数代码。...▍2.1 文本文件 -> 词汇表 为了将文本转换为模型可以读入单词序列,需要将这些不同词汇分别映射到0~10001(因为我们这里有10002种不同单词)之间整数编号。...当然无论是训练集、验证集还是测试集我们字典都是一样,这个其实很好理解,只有词与数字统一起来,在训练集上训练,验证集验证以及最后测试才能够使其表示单词一致。...它是一个无序容器类型(所以需要后期进行排序处理),以字典键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意Interger(包括0和负数)。...指定sortedkey为itemgetter(1),便以每个键值对元组下标为 1 元素进行排序。这样就完成按照词频大小进行排序构建词汇表工作。

1.2K00

Mysql数据库MySQL数据库开发 36 条军规

核心军规 尽量不在数据库做运算 控制单表数据量 纯INT不超过10M条,含Char不超过5M条 保持表身段苗条 平衡范式和冗余 拒绝大SQL,复杂事务,大批量任务 字段类军规 用好数值字段,尽量简化字段位数...把字符转化为数字 优先使用Enum或Set 避免使用Null字段 少用并拆封Text/Blob 不在数据库中存图片 索引类军规 谨慎合理添加索引 字符字段必须建立前缀索引?...UTF8MB4 for by 可能还有人不知道,MySQL 数据库字符集,要用 utf8mb4,而不是utf8。...因为MySQLutf8不是真正UTF-8,只支持最多三个字节字符。真正UTF-8可能会出现四个字节字符。...MySQL 从来没有修复这个 Bug,而是使用另外解决方法:真正UTF-8字符集用 utf8mb4名字提供。

5.2K20

MySQL数据库基础知识_MySQL数据库特点

文章目录 Mysql使用时注意事项 库操作 数据类型 数值类型 日期和时间类型 字符串类型 表操作 表中数据增删改查基础 插入数据:insert 查询数据:select 条件查询 修改数据:update...删除数据:delete Mysql使用时注意事项 每日一条数据库操作语句都应该以分号 ;结尾,因为mysql支持换行操作 mysql数据库对大小写不敏感,大小写皆可,通常关键字使用大写表示 mysql...数据库中哭名称应该以英文字符或者一些符号起始,但是不允许以数字起始 mysql数据库中哭名称、表名称、字段名称都不能使用mysql关键字,比如create、database;如果非要使用,那就用反引号括起来...,则创建 删除库:drop database 库名称; 选择使用数据库:use 库名称; 显示当前使用数据库:select database(); 数据类型 数值类型 MySQL支持所有标准SQL...作为SQL标准扩展,MySQL也支持整数类型TINYINT、MEDIUMINT和BIGINT。下面的表显示了需要每个整数类型存储和范围。

6.2K20

MySQLMySQL介绍MySQL数据库MySQL基本操作

关系型数据库:对于存储数据,格式上有严格要求。类似于excle表格方式来存储。例如:MySQL,Oracle,SQL Server,SQLite....有事性能更快,同时也更好能适应分布式环境(高并发,大数据,分布式,微服务) 关系型数据库和非关系型数据库区别: MySQL介绍 MySQL是一个客户端服务器结构程序。...关系型数据库具体组织数据格式/结构 数据库基本操作 数据库操作 指的是MySQL服务器上存在多个数据集合。...查看所有数据库 show databases; 注意databases是复数形式。 选中指定数据库 一个MySQL服务器上,数据库可以有很多个。...所以在操作删除数据库时候一定要做到谨慎。 常用数据类型 数值类型 在MySQL数据类型中,数据库表,每一个列都是带有类型(例如整数,浮点数,字符串)。

4.4K20

数据库MySQL-MySQL执行顺序

五、MySQL执行顺序 MySQL语句一共分为11步,如下图所标注那样,最先执行总是FROM操作,最后执行是LIMIT操作。...其中每一个操作都会产生一张虚拟表,这个虚拟表作为一个处理输入,只是这些虚拟表对用户来说是透明,但是只有最后一个虚拟表才会被作为结果返回。...如果没有在语句中指定某一个子句,那么将会跳过相应步骤。 ? 下面我们来具体分析一下查询处理每一个阶段 FORM: 对FROM左边表和右边表计算笛卡尔积。...JOIN: 如果指定了OUTER JOIN(比如left join、 right join),那么保留表中未匹配行就会作为外部行添加到虚拟表VT2中,产生虚拟表VT3, rug from子句中包含两个以上表的话...只有符合记录才会被插入到虚拟表VT4中。 GROUP BY: 根据group by子句中列,对VT4中记录进行分组操作,产生VT5.

3.8K20

MySqlMySQL数据库--什么是MySQL回表 ?

专栏持续更新中:MySQL详解 一、背景 先要从 InnoDB 索引实现说起,InnoDB 有两大类索引: 聚集索引(clustered index) 普通索引 (secondary index...InnoDB 普通索引 叶子节点存储主键值。 注意:只有 InnoDB 普通索引才存储主键值,MyISAM 二级索引都是直接指向数据块。...通俗讲就是,如果索引列在 select 所需获得列中(因为在 mysql 中索引是根据索引列值进行排序,所以索引节点中存在该列中部分值)或者根据一次索引查询就能获得记录就不需要回表,如果 select...所需获得列中有大量非索引列,索引就需要到表中找到相应信息,这就叫回表。...四、解决办法 使用覆盖索引可以解决上面所说回表问题。

13710

MySQL数据库(一):安装MySQL数据库

DB DataBase :数据库 依照某种数据模型进行组织并存放到存储器数据集合 DBMS DataBase Manager System :数据库管理系统 用来操作和管理数据库大型服务软件...DBS DataBase System :数据库系统 即DB+DBMS指带有数据库并整合了数据库管理软件计算机系统 2.E-R数据模型 3.常见数据库软件服务商 甲骨文:MYSQL...5.特点及应用 mysql主要特点: -适用于中小规模、关系型数据库系统 -支持Linux/UNIX、Windows等多种操作系统 -使用C和C++编写,可移植性强 -通过API支持Python...[确定] 2.删除5.1配置文件和数据库文件 [root@svr5 ~]# rm -rf /etc/my.cnf [root@svr5 ~]# rm -rf /var/lib/mysql/* 3.卸载...需要注意是这里root用户不是Linux系统root用户,而是mysql数据库管理员root。

22.7K80

mysql数据库理解

1.索引结构原理: 普通Btree(binary search tree)就是二叉树,如下图 ? B+ Tree索引类型则是二叉树升级版,每个节点存是 <num ,最后存排序ROWID ?  ...2.数据库结构 3.数据库存储  4.数据块/页(block/page)  指访问磁盘数据库文件最小单位,一个数据库块中可以存放多条数据(一条指表一行数据),大小可以指定。多个数据块组成数据文件。...因为是访问数据库最小单位,所以一个数据块中记录一条数据越小,存放数据就越多,在读取数据时减少访问不同数据块次数,从而提高效率。...5.ROWID ROWID是每条记录在数据库唯一标识,通过ROWID可以直接定位记录到对应文件号及数据块位置。...创建在 查询大于修改删除字段中  不要在大数据量字段中创建索引  7.mysql没有像orical软解析,硬解析,但是mysql硬解析和orical软解析一样快。

2.8K10

MySQL数据库】详细讲解MySQL查询

图片多表查询⭐多表关系在项目开发中,在进行数据库表结构设计时,会根据业务需求以及业务模块之间关系,分析并设计表结构,由于业务之间相互关联,所以各个表结构之间也存在各种联系,基本分为以下三种一对多(多对一...)多对多一对一一对多(多对一)案例:部门和员工之间关系 关系:一个部门对于多个员工,一个员工对应一个部门实现在多一方建立外键,指向少一方主键 图片多对多案例:学生与课程之间关系 关系:一个学生可以选修多门课程...varchar(10) comment '课程名称') comment '课程表';​insert into course values (null,'java'),(null,'php'),(null,'mysql...原来表 图片联合查询对于联合查询(union),就是把多次查询结果合并起来,形成一个新查询结果集查询到多张表列数要保持一致,而且字段列表也要保持一致select 字段列表 from 表A……...,或者文章有问题,欢迎大家在评论区讨论,指正我正在参与 腾讯云开发者社区数据库专题有奖征文。

23040
领券