前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2022微信大数据挑战赛优胜方案总结

2022微信大数据挑战赛优胜方案总结

作者头像
zenRRan
发布2022-09-27 16:29:24
7730
发布2022-09-27 16:29:24
举报

每天给你送来NLP技术干货!


来自:炼丹笔记

赛题介绍

  • 比赛名称:微信多模态短视频
  • 比赛页面:https://algo.weixin.qq.com/
  • 比赛类型:多模态分类

多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。一条短视频中通常包含有三种模态信息,即文本、音频、视频,它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。

本赛题要求参赛队伍基于微信视频号短视频数据以及对应的分类标签标注,采用合理的机器学习技术对指定的测试短视频进行分类预测。

赛题数据

比赛分为初赛和复赛两个阶段:

  • 初赛阶段提供百万量级的无标注数据和十万量级的有标注数据用于训练;
  • 复赛阶段训练数据和初赛相同,主要区别是初赛阶段只提供视频抽帧特征,而复赛阶段提供视频抽帧原始图像。

初赛阶段所有训练数据对参赛队伍开放下载;复赛阶段的训练数据为闭源数据,参赛队伍在腾讯云TI-ONE平台完成训练。

数据集

比赛提供的数据集有三个类别:无标注训练数据集、有标注训练数据集、测试数据集。各类数据集具体包含字段如下表所示。

字段

初赛

复赛

训练数据集

测试数据集

训练数据集

测试数据集

无标注

有标注

无标注

有标注

id

category_id

×

×

×

×

title

frames_feature

×

×

×

frames

×

×

×

asr

ocr

评估标准

分类的评估指标采用F1,由于有多个类别,而且类别不均衡,所以同时采用F1 micro和F1 macro,取平均值。同时,分类体系包含一级分类和二级分类,在评测中会分别计算并取平均值。

优胜选手分享

苟进决赛

冲冲冲

抱朴子

机器不学习啦

Warriors

蜜度信息


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

为什么回归问题不能用Dropout?

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)

代码语言:javascript
复制

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-09-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档