首页
学习
活动
专区
工具
TVP
发布

数据处理

专栏成员
97
文章
151974
阅读量
33
订阅数
关联规则挖掘算法
设 为所有项目的集合, 为事务数据库,事物 是一个项目子集( )。每一个事务具有唯一的事务标识 。设 是一个由项目构成的集合,称为 。事务 包含项集 ,当且仅当 。如果项集 中包含 个项目,则称其为
用户1733462
2018-09-20
6830
gensim,dictionary
操作词汇的库很多nltk,jieba等等,gensim处理语言步骤一般是先用gensim.utils工具包预处理,例如tokenize,gensim词典官网,功能是将规范化的词与其id建立对应关系
用户1733462
2018-07-25
1.1K0
Delete Duplicate Emails
原题leetcode,数据库常用操作去重,思路就是按照email列相同合并后(其实这时候已经去重了)取出ID,从person中删除不存在ID # Select 嵌套使用临时表时,需要为临时表指定别名 a。 # group 默认不会选择最大最小ID,只会选择行靠前的ID delete from person where Id not in (select * from (select min(Id) from person group by Email)as a) DELETE p from Perso
用户1733462
2018-06-07
6420
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档