谷歌视频不再能够检索字幕了吗？ - 腾讯云开发者社区

选自Google AI Blog 作者：Paul Hongsuck Seo和Arsha Nagrani 机器之心编译编辑：泽南一个模型在五项基准上都实现了重大进步，该研究已被 CVPR 2022 大会收录。多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述（字幕）。这样的系统是朝着构建多模态对话系统的长期目标前进的一步，后者可以轻松地与用户交流，同时通过多模态输入流感知环境。与关键挑战在于处理和理解多模态输入视频的视频理解任务不同，多模态视频字幕的任务包括生成实用化字幕的额外挑战。这项任务被

您找到你想要的搜索结果了吗？

是的

没有找到

AI加持的竖屏沉浸播放新体验

BLIP：用更干净更多样的数据进行多模态预训练，性能超越CLIP！代码已开源！

视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。但是，大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外，通过使用从web收集的嘈杂的图像-文本对来扩展数据集，在很大程度上实现了性能改进，但这是监督的次优来源。

下载b站外挂字幕,用 potplayer 播放视频也能看字幕了

今天分享的是下载b站外挂字幕，在本地用 potplayer 播放器播放b站视频也能看字幕了，需要用到 potplayer 播放器和字幕文件。

看完这届谷歌 I/O 大会，我要换安卓！Jeff Dean：AI是一切动力

可以说今年的Google I/O大会就是一场AI大秀了。谷歌CEO皮采(Sundar Pichai)演讲时的语气和动作看似很是轻松，与过去相比更加游刃有余。他表示：“Google 的目标是组织全世界的信息，让全球人民都能够轻松实用地访问。”

多级语言与视觉集成用于文本-剪辑检索（文章有视频Demo，文末有源码）

4月，是不冷不热的季节，可以肆无忌惮的去游玩，可以敞开心怀去做自己想做的事情，比如科研，灵感来源于大自然，一不小心在樱花树下Get了一个新颖的想法，所以，我们要用乐观的心态去学习、科研和生活。

【综述】基于Transformer的视频语言预训练

Survey: Transformer based Video-Language Pre-training

应用谷歌云实现高效视频转码和分发

点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息编者按：MeshCloud通过与GCP合作为中国出海企业提供强大的全球基础架构。今天LiveVideoStack公开课通过MeshCloud邀请到了谷歌云的于有志老师，为我们介绍如何借助谷歌云在高效视频转码和分发方面的技术与能力，实现海外音视频业务的快速与高质量部署。文/于有志整理/LiveVideoStack‍‍ 大家好，我是来自谷歌云的于有志，主要帮助出海客户的业务在海外落地。我很感谢

亚马逊全面发力AI，推机器学习托管服务、四项新工具，还有AI硬件

Root 假装发自拉斯维加斯量子位出品 | 公众号 QbitAI 机器学习现在已经在多个领域爆发出惊人的能量，企业通过获取有效的用户数据，可以高效锁定用户的需求，针对性地提供服务，营收利润的拉升效果立竿见影。但对于大多数急着上车的企业来说，自身业务结合人工智能技术最难的地方在于，没有办法迅速找到资深的AI专家来分析业务链，并搭建相应的机器学习模型解决核心问题，提升生产或者服务环节的效率。亚马逊敏锐地捕捉到了这个痛点，在今天的创新大会AWS Re:INVENT上，亚马逊云服务AWS的CEO，Andy

这几个免费字幕在线工具你一定喜欢：视频字幕提取，字幕在线翻译，双字幕合并

之前有写过几个视频生成字幕，并且翻译字幕的教程，但是随着时间的流逝，那些方案也早就过时了。

加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样

机器之心报道编辑：蛋酱从文本生成图像，再到给视频加特效，下一个 AIGC 爆发点要出现了吗？相信很多人已经领会过生成式 AI 技术的魅力，特别是在经历了 2022 年的 AIGC 爆发之后。以 Stable Diffusion 为代表的文本到图像生成技术一度风靡全球，无数用户涌入，借助 AI 之笔表达自己的艺术想象…… 相比于图像编辑，视频编辑是一个更具有挑战性的议题，它需要合成新的动作，而不仅仅是修改视觉外观，此外还需要保持时间上的一致性。在这条赛道上探索的公司也不少。前段时间，谷歌发布的 Dr

1/10体量达到SOTA！谷歌发布5B参数视觉语言模型PaLI-3，更小更快却更强

最近，堪称改变游戏规则的视觉语言模型（VLM）PaLI-3问世，引得大量科研人员关注。

十万奖金等你来拿！腾讯ASR&OCR Oteam联合多家校企举办多模态字幕识别比赛！

参赛通知一、赛事背景视频通过视觉和音频等传递丰富的信息。视频理解一直是学术界和工业界的热门研究课题。融合多模态信息也是一个具有挑战性和有意义的研究课题。在本次竞赛当中，我们专注于从视频中提取字幕。字幕是文字来源于访谈节目或电视剧等类的视频。字幕是视频数据中最重要的文本信息之一，因为字幕包含人们交谈内容的信息。字幕识别广泛用于推荐、检索和视频理解系统。为了更好的促进字幕识别的发展，我们在ICPR 2022上举办多模态字幕识别竞赛，欢迎大家报名参赛。二、赛事流程 1. 注册报名：2022.03

CVPR2021提出的一些新数据集汇总

一些新发布的数据集可以提供一个窗口，通过这些数据集可以了解试图解决的问题的复杂程度。公共领域中新发布的数据集可以很好地代表理解计算机视觉的发展以及有待解决的问题的新途径。

PaLI-3：5B参数视觉语言模型，1/10体量达到SOTA！谷歌发布

最近，堪称改变游戏规则的视觉语言模型（VLM）PaLI-3问世，引得大量科研人员关注。

攻破“鸡尾酒会”难题，人声分离给生活带来了哪些改变？

试想一下，在一个嘈杂的鸡尾酒会上，同时存在着许多不同的声源：多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音，这对于我们人类来说十分简单。

Gemini在大考终于赢了GPT-4o！Jeff Dean连续转发三次！Video-MME首个视频多模态基准来了！

近日，中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME，全面评估多模态大模型的综合视频理解能力，填补了这一领域的空白。Gemini 1.5 Pro在这份榜单中遥遥领先，证明其在视频理解领域的霸主地位。Video-MME一经推出，更是被谷歌首席科学家Jeff Dean连续转发了三次！目前已有近30万的浏览量，热度很高。

首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

不过近日，谷歌的Gemini终于扬眉吐气了一把，在全新的、更复杂的多模态考试中大获全胜，全面超越了GPT-4o。

【业界】Facebook发布开源“Detectron”深度学习库，用于对象检测

AiTechYun 编辑：nanan 在刚刚过去的一月份（2018年1月），Facebook的研究机构Facebook AI Research（FAIR）发布了开源的Detectron对象检测库。几个

高低分辨率全都要！8位华人联合发布史上规模最大、最高清视频数据集

但随着各大视频网站和短视频的兴起，用户在互联网上浏览视频的数量近年来显著增加，并且视频创作的质量、分辨率和内容多样性也越来越高！

不戴眼镜听不清？Google用视觉信号分离语音 | 附论文

人类非常善于在嘈杂的环境中，集中注意力听某一个人说的话，从精神上“屏蔽”一切其他声音。这种现象便是“鸡尾酒会效应”，我们与生俱来。

谷歌幻灯片可以识别并转录口头报告，创建实时字幕

谷歌正在为其谷歌幻灯片演示程序添加一个新的自动隐藏式字幕功能，该程序可以通过口语创建实时字幕。

孙祥学：音视频AI技术落地实践

6月29日，音视频及融合通信技术技术沙龙圆满落幕。本期沙龙特邀请腾讯云技术专家分享关于最新的低延迟技术、全新的商业直播方案等话题，针对腾讯云音视频及融合通信产品的技术全面剖析，为大家带来纯干货的技术分享。下面是孙祥学老师关于AI技术在视频智能识别和分析中的应用，以及实际落地过程中遇到的挑战以及解决办法的分享。

谷歌发布5620亿参数多模态模型PaLM-E，机器人操控无所不能

大数据文摘授权转载自夕小瑶的卖萌屋作者：CoCo酱 ChatGPT已经是大模型的天花板了吗？不！没有做不到，只有想不到。谷歌出手，果然不会让人失望！谷歌悄悄上线了一个炸弹级模型——足足有5620亿参数！ PaLM-E 将真实世界的传感器信号与文本输入相结合，建立语言和感知的链接。规模最大的模型“PaLM-E-562B”具有562B个参数，将540B的PaLM和22B的ViT集成在一起，这是目前报道的最大的视觉-语言模型。模型输入包括视觉、连续状态估计值和文本输入。作者在多个任务（包括顺序机器人操

谷歌又出新招数，利用深度学习的视听模型进行语音分离

AiTechYun 编辑：chux 即使在嘈杂的环境下，人们也能够将注意力放在特定的人身上，选择性忽略其他人的声音和环境音。这被称作鸡尾酒会效应，对人类来说十分寻常。然而自动语音分离，将音频信号分离到

玩转b站：实用的b站工具合集

b站整理了个入站必刷视频列表 https://www.bilibili.com/h5/good-history ，都是b站宝藏。

VLM：Meta AI & CMU提出任务无关视频语言模型视频理解预训练VLM，代码已开源！(ACL 2021)

本文分享 ACL 2021 论文『VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding』，由 Meta AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM，代码已开源！

微软：GPT-4下周发布，剑指多模态，可支持视频

白交发自凹非寺量子位 | 公众号 QbitAI GPT-4真的要来了！发布时间已确定：就在下周。而且还是多模态，可支持视频。听到这个消息，网友们直接炸了锅：大家都准备好了吗？毕竟在一部分人眼中，ChatGPT都已经如此惊艳，那GPT-4不得是这样的？（不过100万亿参数是谣言）但也有网友质疑其消息的真实性：不可能的。质疑确实也不无道理。OpenAI的进展竟是微软来宣布发布时间。而且也还不是官方，而是在一个地方论坛上，由微软德国CTO随口说出。 △图源：微软有网友表示：员工可

牛逼！B 站 up 主开源视频字幕自动翻译神器！

在开篇之前，我想先问大家一个问题，在你在追日番或美剧的时候，是否曾因日语或英语能力不佳，而饱受苦等熟肉视频发布的痛苦？

一款英文文章阅读翻译精品工具

小编我平时喜欢看 Hacker News 和 Inoreader RSS 订阅上的文章，但这些文章有很大一部分都是英文的，那么，怎样才能快速有效地阅读这些英语文章？答案很简单，就是使用翻译工具。

业界 | 谷歌新进展：用DNN模型为YouTube视频添加环境音效字幕

我们在感知外部世界的过程中，声音（audio）起到了极大的作用。在这里，我们把声音分解为两类，一类是语音（speech），另一类是环境音（sound）。人们会本能地对环境音做出反应，比如会被突如其来的骚动所惊吓，或被情景喜剧中的背景笑声所感染。而影音网站界的翘楚——YouTube 也深知音频的重要性。自2009年起，他们就开始让视频自动生成字幕。如今，这一功能又有了升级版——AI科技评论了解到，谷歌于昨日（3月23日）宣布，将为YouTube视频中的自动字幕增加音效信息，使人们拥有更丰富的视听体验。

重磅!免费一键批量混剪工具它来了,一天上万短视频不是梦

很多做短视频营销的朋友需要批量生成大量的短视频，但是市面上的工具一是不好用，二是要收费。

多模态理解与生成，西南交大&MSRA提出统一的"视频和语言预训练"模型：UniVL！

本文分享论文『UniVL: A Uniﬁed Video and Language Pre-Training Model for Multimodal Understanding and Generation』，由西南交大&MSRA提出《UniVL》，用于多模态理解和生成的统一视频和语言预训练模型！

WWDC2023 | 如何为visionOS准备和提供视频内容

在本次会议中，我们将探讨如何为空间体验准备和提供流媒体内容。我们将从回顾使用HTTP Live Streaming (HLS) 生产、准备和提供2D媒体的当前步骤开始，然后转向3D视频内容的支持及其步骤的更新。本次会议的目标是使得在此平台上提供2D视听内容的过程与在我们所有其他平台上的过程相同。

Android Q和中端手机:这是我们在谷歌I/O 2019上看到的所有东西

什么一个开端。谷歌I/O 2019主题演讲结束了，但从头到尾感觉都像是一场力作。虽然我们的一些预测没有成真——我们将永远不会有像素手表吗?-最期待的谣言成真，这意味着我们遇到了一些理想的新硬件，包括中

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

最近几年，「视频会议」在工作中的占比逐渐增加，厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。

吴恩达最新短课，知识很硬核，附中英字幕

该课程由由 llama_index 和 truera_ai的 jerryjliu0和 datta_cs 教授主讲，门槛很低，有 Python 基础知识即可学习。

【普林斯顿博士论文】解决缺陷数据来构建现实世界的计算机视觉系统

来源：专知本文为论文介绍，建议阅读5分钟本文提出一个新的基准，通过数据增强具有可控偏差。对现有的偏差消除方法进行了彻底的比较，并提出了一种简单的方法，优于其他更复杂的对比方法。计算机视觉系统正日益被部署到现实世界的应用中，例如自动驾驶汽车上的识别模型、演示软件中的字幕模型以及视觉搜索引擎背后的检索模型。在构建这些真实的计算机视觉系统时存在许多实际挑战，其中许多与数据的不完美有关。具体来说，现实世界的数据可能会因分散注意力的虚假相关性而产生偏差，不同类别存在不平衡的长尾数据，具有大量缺陷的噪声数据，等等。

YouKu-mPLUG 最大中文视频语言数据集，助力增强多模态大型模型性能

mPLUG-video可以很好的理解视频的整体语义是“舞蹈视频”以及包含详细的视觉信息，比如“跳跃”和“扭动”等。

【干货】BERT模型的标准调优和花式调优

自去年 BERT 论文发出，正巧半年，不光各大榜单上尽是 BERT 之名，最近公布 NAACL 最佳长论文也给了 BERT，正所谓实至名归。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐