前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于数据质量核查相关的脚本

关于数据质量核查相关的脚本

作者头像
python与大数据分析
发布2022-03-11 14:54:08
4190
发布2022-03-11 14:54:08
举报
文章被收录于专栏:python与大数据分析

最近要着手数据质量管理工作了,先想一些脚本来玩玩。

1、计算数据库表的相似度

计算表和表之间字段的相似度,当然如果字段的中文备注齐备的话,通过自然语言处理也可以计算字段之间的相似度。主要目的是为了定位系统中重复建设的表,可以考虑后续优化。

2、查询表所依赖存储过程

代码可以通过两种方法进行,建议采用第一种,不过第二种可找到无效的存储过程。

代码示例

代码语言:javascript
复制
#计算数据库表相似度
SELECT a.table_name,
       d.target_table,
       a.col_total,
       d.col_num,
       d.col_num/a.col_total row_ratio
FROM
  (SELECT a.table_name,
          count(*) col_total
   FROM user_tab_columns a
   GROUP BY a.table_name) a
LEFT OUTER JOIN
  (SELECT a.table_name source_table,
          b.table_name target_table,
          count(*) col_num
   FROM user_tab_columns a,user_tab_columns b
   WHERE a.table_name<>b.table_name
     AND a.column_name=b.column_name
   GROUP BY a.table_name,
            b.table_name) d ON a.table_name=d.source_table
WHERE d.col_num>=a.col_total*0.5
ORDER BY 1,5 DESC

代码示例

代码语言:javascript
复制
select a.owner,a.name,a.type
  from dba_dependencies a
 where a.referenced_name='RECORD10W'
   and a.referenced_type in ('TABLE','VIEW')
   and a.type='PROCEDURE'
代码语言:javascript
复制
select a.owner,a.name,a.type
  from sys.all_source a
 where type='PROCEDURE'
   and upper(text) like '%RECORD10W%'
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python与大数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 最近要着手数据质量管理工作了,先想一些脚本来玩玩。
  • 1、计算数据库表的相似度
  • 计算表和表之间字段的相似度,当然如果字段的中文备注齐备的话,通过自然语言处理也可以计算字段之间的相似度。主要目的是为了定位系统中重复建设的表,可以考虑后续优化。
  • 2、查询表所依赖存储过程
  • 代码可以通过两种方法进行,建议采用第一种,不过第二种可找到无效的存储过程。
  • 代码示例
  • 代码示例
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档