首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

干货|分析PostgreSql单表60w数据却占用55g空间

突然听到运维说磁盘预发布环境磁盘空间不够,细查之下发现是由于某个表的数据太大导致的,但是查看了下数据库表发现,实际的表数据量只有60w条,很明显表哪里出问题了,一开始以为是犹豫表的设计不合理索引导致的数据量大,细看之下发现挺正常的。正在焦虑蹉跎的时候,有幸得到朋友圈大佬的指点,是死亡元组太多导致的只需要执行vacuum full清理死亡元组就好,查看了相关的博客稳定发现postgresql居然会保存mvcc多版本修改记录,简单理解就是,postgresql对你所做的修改和删除都会保存记录,不会清理释放空间。这让我顿时想到[Mysql的MVCC],但是mysql的undo log也只记录执行操作的相反记录保留最新的记录,而redo log记录数据页的变更,但是大小是固定的,都可以通过配置参数配置固定大小。

05

spark分析网吧同行朋友思路

你好,我们现在正好遇到一个spark的问题。 在mysql库中有2.5kw网吧轨迹数据, 需要计算同行关系:计算两人在相同网吧十分钟前后上下网三次及以上 (如:a和b在19号十分钟前后出现在了A网吧,又在21号十分钟前后出现在了B网吧, 再在22号十分钟前后出现在了D网吧) 就需要保留他们的身份ID和一起上下网的次数。 2.5kw轨迹中有8k+网吧请问有什么思路吗? 如果flink有更好的处理方式也可以。 使用用一个mysql的连接器,但是这东西需要配置一个分区列。 直接用的网吧编号。这样会分8000多分区(而且后面的逻辑也没有用到这个分区列), 是不是有问题?今天测试了一下。 两个网吧,3w多数据,两个小时没跑完。。 (我们是先用连接器抽出数据,按照网吧分组计算单次然后聚合筛选3次及以上的) 网吧数据从几条到几万条不等。

01

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券