如何在duckdb上清理(减少文件大小) - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

一次 KVM 虚拟机磁盘占满的排查过程

因为一下拿不出解决方案，只能硬着头皮把这个虚拟机从客户那搞回来，恢复现场，有了进展

02

快速安全清理MySQL binlog

之前写过一篇名为“快速安全删除MySQL大表”的博客，讲解如何在不影响线上数据库服务的前提下删除大表。实际上清理MySQL binlog也会遇到同样的问题。例如，我们每个binlog文件的大小是1G。最初的做法是，每天凌晨2:30执行下面的操作清理10天前binlog：

01

您找到你想要的搜索结果了吗？

是的

没有找到

分析型数据库DuckDB基准测试

我们都知道Polars很快，但是最近DuckDB以其独特的数据库特性让我们对他有了更多的关注，本文将对二者进行基准测试，评估它们的速度、效率和用户友好性。

02

投稿：duckdb-rs 即将成为 DuckDB 官方 rust 客户端

From: https://www.wangfenjin.com/posts/duckdb-rs-moving-forward/

02

Hudi关键术语及其概述

在其核心，Hudi维护了在不同时刻对表执行的所有操作的时间轴，这有助于提供表的瞬时视图，与此同时也有效地支持按到达顺序的数据检索。Hudi的瞬时特性包括以下部分：

02

MacClean 3 for Mac(系统清理优化工具) 3.6.1 (20221201)中文版

MacClean 3 Mac中文特别版是一款强大的多功能mac系统清理优化工具，专为mac用户量身定做，配备了各种工具，可以帮助您保持Mac的最佳状态。它可以删除无用的垃圾，重复文件和语言文件，以及安全删除内容和卸载应用程序，而且MacClean还有一个内置的扩展管理器，可以帮助您停用和删除您可能不需要的插件和附件。

03

解决香港主机常见问题：如何优化网站性能和速度？

在今天的数字化时代，拥有一个快速和高效的网站对于任何业务来说都至关重要。然而，有时候网站在香港主机上运行时可能会遇到一些性能和速度方面的问题。本文将为您介绍一些解决这些常见问题的方法，以优化您的网站性能和速度，从而提供更好的用户体验。

00

python数据分析专用数据库，与pandas结合，10倍提速+极致体验

你有想过在 pandas 中直接使用 sql吗？我知道许多小伙伴已经知道一些库也可以做到这种体验，不过他们的性能太差劲了(基于sqlite，或其他服务端数据库)。

07

云数仓 Firebolt《Assembling a Query Engine From Spare Parts》Paper 总结

最近在了解国外Firebolt这家公司，对于Firebolt 最初的架构选型和思路是非常认可的。Firebolt 这篇 Paper 核心围绕着这样一个主题：在云数仓领域，对于一家初创公司，如何在人力和资源有限的情况下，怎么能够快速的切入这个这个市场？虽然 FireBolt 本身就有很多技术大牛（比如 Mosha Pasumansky），但是针对数据库所有组件（查询优化器、计算引擎、存储、事务管理器等等）完全从零做，对于初创公司而言，根本不现实。

02

Hudi基本概念

在本节中，我们将讨论重要的概念和术语，这些概念和术语有助于理解并有效使用这些原语。

05

把MongoDB的全量数据导入到MySQL里

第三步，读取刚才mongoexport导出的json文件，并把数据写入DuckDB的me库t1表里

01

数据湖 | Apache Hudi 设计与架构最强解读

Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

02

基于本地文件系统的列式数据库-DuckDB

这两天发现了一款有趣的数据库DuckDB，它的设计思路来源于sqlite，但是与sqlite不同的是，sqlite是行式数据库，而DuckDB是列式数据库。除此以外，两者非常相似：两个都是基于本地文件系统设计的，都有着完整的数据库体系（客户端、SQL解析器、SQL优化器和存储引擎等等），安装和使用都非常方便。在一些数据分析场景下，比如临时跑个数，不想安装MySQL或者分布式数据库等，应该大有可为。下面基于DuckDB的官方文档和相关博客，做一些简单介绍。

02

Vimeo针对GIF性能和质量的改进

原文链接 / https://medium.com/vimeo-engineering-blog/supporting-a-35-year-old-video-format-4cb9a62eae9

05

SQLServer数据库收缩相关知识笔记

SQL Server 数据库采取预先分配空间的方法来建立数据库的数据文件或者日志文件，比如数据文件的空间分配了300MB，而实际上只占用了20MB空间，这样就会造成磁盘存储空间的浪费。可以通过数据库收缩技术对数据库中的每个文件进行收缩，删除已经分配但没有使用的页。从而节省服务器的存储的成本。

04

让课代表告诉你，磁盘空间都去哪了！

各位小伙伴们，我想大家可能都遇到过这样的情况：电脑刚买回来的时候锃光瓦亮，内外皆新，用着用着C盘就不够用了，过了一阵D盘也不够用了，再用了一阵，1T的硬盘居然满了，WTF！我明明也没下载多少东西啊！

05

如何优化VPS服务器性能，提升网站访问速度？

随着互联网的发展，越来越多的企业开始使用VPS服务器来托管其网站。然而，一些企业经常会遇到网站速度慢、响应时间长等问题，这不仅会影响用户的体验，还会导致客户流失。因此，优化VPS服务器的性能，提升网站访问速度变得尤为重要。本文将介绍如何通过一系列优化措施来提高VPS服务器的性能，从而实现网站的快速访问。

06

docker︱docker run的解读与一键部署

这是之前的文章： docker︱在nvidia-docker中使用tensorflow-gpu/jupyter

02

PgSQL - 内核特性 - 把DuckDB弄进来怎么样

DuckDB是一款高性能的分析型数据库系统，支持了基于Push-based pipeline的向量化执行引擎。这么好的一款数据库，有办法直接弄到PgSQL里面，以利用其优秀的列式存储、向量化执行引擎等优秀特性吗？Hydra团队开源了一款插件pg_quack，将duckdb以表访问方法的方式加到PgSQL中，为PgSQL提供了新的存储引擎以及执行引擎。

01

推荐5 个免费且好用的图片压缩网站，让网站打开速率快起来

recompressor 网址：zh.recompressor.com 可压缩 SVG、PNG 和 JPG。力推这款在线压缩神器，完全免费，太过好用。不但能够将图片批量上传压缩，还能够在压缩之后提供多种压缩大小后的图片提供下载，对 PNG 图片的压缩效果尤其优秀。 Pix Fix 网址：zh.pixfix.com 可压缩 JPG 和 PNG。Pix Fix 和 recompressor 出自同一团队之手，除了配色，两个网站的布局设计几乎一样。如果你要压缩 JPG 图片的话，建议使用 Pix Fix，它能

05

Milvus性能优化提速之道：揭秘优化技巧，避开十大误区，确保数据一致性无忧，轻松实现高性能

Milvus 是全球最快的向量数据库，在最新发布的 Milvus 2.2 benchmark中，Milvus 相比之前的版本，取得了 50% 以上的性能提升。值得一提的是，在 Master branch 的最新分支中，Milvus 的性能又更进一步，在 1M 向量串行执行的场景下取得了 3ms 以下的延迟，整体 QPS 甚至超过了 ElasticSearch 的 10 倍。那么，如何使用 Milvus 才能达到理想的性能呢？本文暂且不提社区大神贡献的黑科技优化，先聊聊使用 Milvus 过程中的一些经验，以及如何进行性能调优。

07

提升50%+！Presto如何提升Hudi表查询性能？

分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk

02

Milvus性能优化提速之道：揭秘优化技巧，避开十大误区，确保数据一致性无忧，轻松实现高性能

Milvus 是全球最快的向量数据库，在最新发布的 Milvus 2.2 benchmark中，Milvus 相比之前的版本，取得了 50% 以上的性能提升。值得一提的是，在 Master branch 的最新分支中，Milvus 的性能又更进一步，在 1M 向量串行执行的场景下取得了 3ms 以下的延迟，整体 QPS 甚至超过了 ElasticSearch 的 10 倍。那么，如何使用 Milvus 才能达到理想的性能呢？本文暂且不提社区大神贡献的黑科技优化，先聊聊使用 Milvus 过程中的一些经验，以及如何进行性能调优。

03

排查OOM问题的全面思路

对线上容器进行常规的监控，发现某个业务运行的6个实例，最多的时候可以一周有2-3天都会出现OOM，且一天最多出现3-4次的OOM。好在线上监控做的比较好，在出现OOM之后，会自动生成dump文件并保存，之后jvm进程终止。

01

15 年云数据库老兵：数据库圈应告别“唯性能论”

本文由 Cloudberry Database 社区编译自 MotherDuck 官网博文《PERF IS NOT ENOUGH》，原作者为 Jordan Tigani（ MontherDuck 联合创始人兼 CEO），译文较原文稍有调整。

01

0508-如何使用Hadoop的Archive处理小文件

Fayson在前面的文章《如何在Hadoop中处理小文件》、《如何在Hadoop中处理小文件-续》和《如何使用Impala合并小文件》等，在文章中也详细说明了怎么去处理Hadoop中的小文件。文章中也提到小文件过多会对NameNode造成压力，导致NameNode内存使用过高。本篇文章Fayson主要使用Hadoop Archive Files功能将集群中的小文件进行归档。

00

CleanMyMac X2023最新版还有哪些其他功能？

CleanMyMac X是一款专业的Mac清理软件，可智能清理mac磁盘垃圾和多余语言安装包，快速释放电脑内存，轻松管理和升级Mac上的应用。同时CleanMyMac X可以强力卸载恶意软件，修复系统漏洞，一键扫描和优化Mac系统！CleanMyMac 是一款强大的 Mac 清理、加速工具和健康卫士，可以让您的 Mac 再次恢复巅峰性能。

00

模型体积缩小至千分之一！360算法大牛分享移动端AI部署与优化实践

本文根据360算法专家史东杰在2019年软件绿色联盟开发者大会发表《AI算法在移动端安全实践和优化》主题演讲整理而成，从移动端的使用场景和建模优化两个维度介绍AI算法在360移动端的实践。

01

手机APP安装包缩减方案

安装包大小对于产品很重要主要有如下几个原因： 1、手机APP安装包的大小会影响用户是否愿意花费流量来下载此APP； 2、包体越大下载过程越长，用户取消下载的可能性越大； 3、在手机空间不足，用户需要清理手机空间时，包体越大的软件被清理的可能性越大； 4、一些预装软件，合作厂商会限定软件大小； 5、APP经过多次版本迭代，产生不少冗余代码和无用资源，会带来更高的学习和维护成本，也更容易出错。文章将分三大部分进行讲解一、iOS安装包的构成二、安装包缩减方案三、相关工具和知识介绍 1 iOS安装包的

06

RocksDB 详解

RocksDB是一个高性能、可扩展、嵌入式、持久化、可靠、易用和可定制的键值存储库。它采用LSM树数据结构，支持高吞吐量的写入和快速的范围查询，可被嵌入到应用程序中，实现持久化存储，支持水平扩展，可以在多台服务器上部署，实现集群化存储，具有高度的可靠性和稳定性，易于使用并可以根据需求进行定制和优化。RocksDB主要使用到了下面知识：

03

RocksDB 详解

RocksDB是一个高性能、可扩展、嵌入式、持久化、可靠、易用和可定制的键值存储库。它采用LSM树数据结构，支持高吞吐量的写入和快速的范围查询，可被嵌入到应用程序中，实现持久化存储，支持水平扩展，可以在多台服务器上部署，实现集群化存储，具有高度的可靠性和稳定性，易于使用并可以根据需求进行定制和优化。RocksDB主要使用到了下面知识：

02

MySQL日志 binlog

01

4秒读取50w行Excel数据

文章比较了几种常用的读取Excel的方法，最终发现rust库Calamine的速度最快，可以在4秒内读取50w行excel数据。

01

后渗透阶段清理痕迹方式总结

在渗透完成之后，为了减少被发现和追溯的概率，攻击者有必要清除自己的攻击痕迹，本文分别对windows和linux上清理痕迹的方式做一个总结。

02

9.27【前端开发】图片文件格式：常见的图片格式对比有何优劣以及如何使用Google的webp格式？

总结一下，对于色彩与图像内容比较丰富，变化比较多端的，适合使用jpg，例如大型背景、头像、人物照片等。对于颜色单一，有大色块的图像，例如图标等，适合用png，压缩效率高，并且有透明。小动画可以使用gif，便不适合使用复杂的视频。

03

StreamingFileSink压缩与合并小文件

Flink目前对于外部Exactly-Once写支持提供了两种的sink，一个是Kafka-Sink，另一个是Hdfs-Sink，这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的，主要应用在实时数仓、topic拆分、基于小时分析处理等场景下。本篇将会介绍StreamingFileSink的基本用法、如何压缩数据以及合并产生的小文件。

02

干货 | JuiceFS 在携程海量冷数据场景下的实践

作者简介妙成，携程云原生研发工程师，主要从事Elasticsearch、JuiceFS的研发运维，关注分布式数据库、NoSQL。小峰，携程云原生研发工程师，主要专注于数据库容器化领域，对分布式存储有浓厚兴趣。一、摘要携程的冷数据规模在 10PB+，包括备份数据、图片语音训练数据和日志数据等，存储方案主要是本地磁盘和GlusterFS。在实际使用中这些方案遇到了不少痛点： GlusterFS 在单目录下文件众多时，ls命令速度很慢；受疫情期间机器采购周期的制约，无法灵活地根据实际需求弹性扩缩容

01

10.2【前端开发】图片文件格式：常见的图片格式对比有何优劣以及如何使用Google的webp格式？

总结一下，对于色彩与图像内容比较丰富，变化比较多端的，适合使用jpg，例如大型背景、头像、人物照片等。对于颜色单一，有大色块的图像，例如图标等，适合用png，压缩效率高，并且有透明。小动画可以使用gif，便不适合使用复杂的视频。

03

Windows10系统盘清理实用攻略

随着SSD的流行，如今很多DIY组装电脑或者笔记本都会配备固态硬盘，但目前SSD容量比较小，多为120-240GB左右，很多朋友为了省钱，电脑只有一块固态硬盘。只要不分区，一切还算过得去，那些分了区，偶尔升级个游戏、装个软件神马的，哀嚎声就不绝于耳！但无论我们给C盘分多大的分区，Windows都有办法把它填满。像休眠文件、系统页面文件这都是动辄GB级的，还有系统还原文件、虚拟内存、安装软件时临时下载存放位置，都在C盘上。

02

MongoDB的WiredTigerLAS.wt大小异常分析

最近在运维MongoDB时遇到一个磁盘空间增长异常的问题，主要是WiredTigerLAS.wt这个文件占用了70GB以上的空间。经排查，有不少用户都遇到过这个问题，其背后的根本原因和MongoDB的一个bug有关。本篇文章会详细分析这个问题背后的原因以及涉及到的相关技术原理，并给出解决方法。

03

一款Wal的设计方案

每一个Segment表示一个数据片段。里面包含多条Log Entry等数据和信息。每一个存在过得Segment都对应一个Wal文件。Segment同时只会存在一个。

02

产品经理的春天 - DuckDB 数据库，了解一下

- 无需安装，映射MySQL数据库，直接在本地查询MySQL数据，再也不用大数据那边的平台了，跟DBA要个账号就完了。

01

kafka其他配置

#表示消息体的最大大小，单位是字节 message.max.bytes=6525000 #一些后台任务处理的线程数，例如过期消息文件的删除等，一般情况下不需要去做修改 background.threads =4 #等待IO线程处理的请求队列最大数，若是等待IO的请求超过这个数值，那么会停止接受外部消息 queued.max.requests =500 #broker的主机地址，若是设置了，那么会绑定到这个地址上，若是没有，会绑定到所有的接口上，并将其中之一发送到ZK，一般不设置 host.name=loca

01

深入了解加快网站加载时间的 JavaScript 优化技术

在当今快节奏的数字世界中，网站性能在决定任何在线企业的成功方面起着至关重要的作用。

03

聊一聊关于加快网站加载时间相关的 JS 优化技术

https://blog.bitsrc.io/javascript-optimization-techniques-for-faster-website-load-times-an-in-depth-guide-cd2985194a07

02

GitHub 热点速览 Vol.22：如何打造超级技术栈

作者：HelloGitHub-小鱼干摘要：build-your-own-x，无论是新手还是老手，这都是一个指向标。方向有了，剩下就是时间和实践的事情，收集了大量可用于软件和 Web 开发的 Public APIs 无疑是你实践之路的好搭档，而拼写检查：vscode-spell-checker 也能让你实践更加顺利，提升你的开发效益，节省研发时间。除了 VSCode 的插件帮你更好地实践技术，responsively-app 这种为调试响应式页面的浏览器也是一个好帮手。以下内容摘录自微博@HelloGit

03

Unity构建AssetBundle时间长，几点优化思路

本号已有原创文章200+篇，以DevOps为基石，洞察研发效能全貌，涵盖从需求管理到运营监控的完整流程。无论您是项目经理、产品经理、开发人员、测试人员，还是运维人员，在这里您都可以有所收获，同时深入理解其他角色的工作内容，共同助力DevOps的成功落地。

01

thinkphp上传文件怎么修改大小

ThinkPHP是一款优秀的PHP开发框架，其提供了丰富的扩展功能，方便开发者快速完成各种需求。在开发过程中，文件上传是一个常见的需求。但是默认情况下，ThinkPHP上传文件大小是受到限制的。那么，如何修改上传文件大小呢？

01

shell脚本实现文件自动清理并推送钉钉机器人告警

当磁盘空间超过阈值时，这时需要人为去清理一些不需要的历史大日志文件，那能否做成自动化呢?

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭