技术大牛成长课,从0到1带你手写一个数据库系统(超清无密完结)

文章来源：企鹅号 - 编程经验分享

下载看水印

由于缺乏对标注人员关于每个图像的边界框的大小和数量的限制，最终的标注结果中存在边界框大小的显著变化和相当多的冗余边界框。为了解决这个问题，我们分别对图像和文本进行了进一步的后处理。

图像标注清洗：为了提高数据集中边界框的质量，我们基于两个关键策略实现了清理过程：1)边界框融合：我们通过将相同标签（重叠，相互包含或临近）合并到单个边界框中来解决冗余边界框的问题。具体来说，融合是基于边界框的面积，计算每个边界框内的像素数。如果融合前后的面积比大于一个特定的阈值，我们将这些边界框整合成一个新的边界框。这个阈值的设置是一个关键问题。我们注意到，过高的阈值将使融合策略无效，而过低的阈值将导致可能包含多种食材的过大的边界框。因此，我们根据经验将其设置为0.6作为平衡。2)较小边界框移除：我们通过两个过程来移除数据集中的小边界框。首先，为了去除只有小框的图像，我们去除所有框的总面积小于整个图像面积3%的图像-文本对。其次，如果图像中有超过三个相同类别的边界框，我们只保留面积至少为该类别中最大边界框面积0.8倍的边界框。在这些清理步骤之后，我们的精细化数据集包含8,001个图像-文本对，共有95,290个边界框。

文本标注清洗：为了改进数据集中的食材标注，我们实现了两个步骤：1)为了保留足够的数据用于训练和测试，我们删除出现在少于五张图像中的食材。由于原始数据集中存在显著的长尾问题，这一步使得食材标签总数减少到510。2)在这510种食材中，我们发现了不同名称指代同一种食材的情况，例如“松花蛋-皮蛋”。为了解决这个问题，我们利用中华人民共和国健康行业标准[23]中的食物成分数据表达规范，对目前510种食材进行比较和组合。具体而言，两个标注人员最初将510个食材中的每一个分类到分层本体的适当叶节点中。随后，另一个标注人员在同一父节点下审查并合并具有相同语义的食材。合并操作进一步将食材标签减少到429个。

综上所述，清理后的数据集包括8,001张图像，95,290个边界框和429个食材标签。

2.3 数据统计和分析

在CMIngre中，有1,719对来自菜肴的图像-文本，2,330对来自食谱，3,952对来自UGC。如2.1所述，UGC的图像质量比菜肴和食谱的图像质量差，这给我们在接下来的食物理解任务中处理低质量数据带来了更多的工作量，因为UGC覆盖了近一半的数据集。

数据集中每个食材上的图像数量如图2.2所示，少量食材在我们的数据集中出现了很多次。例如，“葱–scallion”在1,961张图片中出现次数最多，约占图片总数的24.51%。此外，有138种食材出现在不到10张图片中。例如，只有5张图片包含“西柚–grapefruit”，8张图片包含“桃–Peach”。图2.3显示了我们数据集中每个食材的边界框数量。如图2.3所示，每种食材对应的边界框数量分布与图2.2中包含该食材的图像数量分布大致相似，均为长尾。为了说明边界框尺寸的差异，图2.4给出了不同尺寸边界框的比例。我们观察到小尺寸的边界框（面积比在0.0025 ~ 0.01之间）的比例最大。同时，有超过50%的边界框的面积比小于0.01，说明数据集中有很多小物体。

发表于: 2024-05-222024-05-22 17:30:06
原文链接：https://page.om.qq.com/page/OHwMdJl8gcMmOl_m5O53HdCQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

技术大牛成长课,从0到1带你手写一个数据库系统(超清无密完结)

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐