前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2022微信大数据挑战赛优胜方案总结

2022微信大数据挑战赛优胜方案总结

作者头像
炼丹笔记
发布2022-10-27 13:32:03
4370
发布2022-10-27 13:32:03
举报
文章被收录于专栏:炼丹笔记

赛题介绍

  • 比赛名称:微信多模态短视频
  • 比赛页面:https://algo.weixin.qq.com/
  • 比赛类型:多模态分类

多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。一条短视频中通常包含有三种模态信息,即文本、音频、视频,它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。

本赛题要求参赛队伍基于微信视频号短视频数据以及对应的分类标签标注,采用合理的机器学习技术对指定的测试短视频进行分类预测。

赛题数据

比赛分为初赛和复赛两个阶段:

  • 初赛阶段提供百万量级的无标注数据和十万量级的有标注数据用于训练;
  • 复赛阶段训练数据和初赛相同,主要区别是初赛阶段只提供视频抽帧特征,而复赛阶段提供视频抽帧原始图像。

初赛阶段所有训练数据对参赛队伍开放下载;复赛阶段的训练数据为闭源数据,参赛队伍在腾讯云TI-ONE平台完成训练。

数据集

比赛提供的数据集有三个类别:无标注训练数据集、有标注训练数据集、测试数据集。各类数据集具体包含字段如下表所示。

字段

初赛

复赛

训练数据集

测试数据集

训练数据集

测试数据集

无标注

有标注

无标注

有标注

id

category_id

×

×

×

×

title

frames_feature

×

×

×

frames

×

×

×

asr

ocr

评估标准

分类的评估指标采用F1,由于有多个类别,而且类别不均衡,所以同时采用F1 micro和F1 macro,取平均值。同时,分类体系包含一级分类和二级分类,在评测中会分别计算并取平均值。

优胜选手分享

苟进决赛

冲冲冲

抱朴子

机器不学习啦

Warriors

蜜度信息

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
AI 应用产品
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档