谷歌视频不再能够检索字幕了吗？ - 腾讯云开发者社区

Contact Center AI的运作方式是当用户给客服中心拨打电话时，首先由虚拟助理接起，其能够根据用户需求完成与用户之间的复杂多轮对话，并独立完成一些任务，而如若指令超出AI处理范围，其将能够转接至人类客服...Google Cloud Next 18大会上，谷歌以电商的退换货场景作为展示案例向用户展现目前客服AI的强大能力。...在现场的视频中，Contact Center AI可以与人类用户完全进行自然语言交流，这与Duplex的形式十分相似，AI可以根据订单信息猜测人类用户的大概意图，在人类用户提出“退货”的时候，能正确理解人类向干什么...这个解决方案除了能够作为AI来电客服外，还能支持更多元化的交换，比如电话、信息，甚至以后AI客服进行视频交流也有可能。我们距离“不再智障”的智能客服还有多远？...通过人工参与粘度低来维护低成本，同时随着AI的到来，人工智能似乎为这种繁琐而简单的工作提供了一个很好的取代解决方案，因此入局企业蜂拥而至，但是发展至今，智能相对论（aixdlun）分析师柯鸣认为，我们离“不再智障

1K4 0

谷歌多模态预训练框架：视频字幕、动作分类、问答全部实现SOTA

在 CVPR 2022 大会上发表的论文《End-to-end Generative Pretraining for Multimodal Video Captioning》上，谷歌研究人员为多模态视频字幕引入了一种全新的预训练框架...此外，多模态视频编码器在多种视频理解任务方面具有竞争力，例如 VideoQA、文本视频检索和动作识别。...尽管 MV-GPT 是旨在训练多模态视频字幕的生成模型，但研究发现新预训练技术学习了一个强大的多模态视频编码器，可应用于多种视频理解任务，包括 VideoQA、文本视频检索和动作分类等任务。...与最佳可比基线模型相比，从 MV-GPT 迁移的模型在五个视频理解基准的主要指标上表现出卓越的性能 —— 如在 VideoQA 和动作分类基准的 top 1 准确度，以及检索基准的召回率上。...该预训练模型在多个视频字幕基准和其他视频理解任务（如 VideoQA、视频检索和动作分类）上取得了最先进的结果。

9392 0

您找到你想要的搜索结果了吗？

是的

没有找到

业界 | 谷歌新进展：用DNN模型为YouTube视频添加环境音效字幕

自2009年起，他们就开始让视频自动生成字幕。...如今，这一功能又有了升级版——AI科技评论了解到，谷歌于昨日（3月23日）宣布，将为YouTube视频中的自动字幕增加音效信息，使人们拥有更丰富的视听体验。...据AI科技评论了解，这也是YouTube第一个用机器学习为视频自动添加音效字幕的技术，由Accessibility、Sound Understanding和YouTube团队共同完成。...字幕密度检测将视频传到YouTube上后，DNN会自动查看音频，并预测其是否包含人们感兴趣的声音事件（sound event）。...条件设定如：分开显示语音字幕和音效字幕；兼有语音字幕和音效字幕时，让它们交叉呈现；仅在句子结束或语音出现停顿时，显示音效字幕；消音看视频，评价对字幕的感受如何。

1.4K9 0

打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !

作者描述了一个研究文本到视频检索训练的协议，该协议使用未标注的视频，作者假设（i）没有任何视频的标签，即无法访问 GT 字幕的集合，但（ii）可以访问以文本形式标记的图像。...作者对这个模型进行微调，以便在对比检索训练之后，视频帧嵌入和自动字幕映射到跨模态联合空间。...以类似的方式，VideoCC [48] 利用图像-文本数据集为音频视觉检索的视频自动分配字幕，但受到有限图像字幕数据集来源的限制。...作者的工作与 [48] 的区别在于，作者为多个视频帧生成字幕，而不是从这样一个有限集中检索。尽管这两种方法可能具有潜在的互补性，但在作者的附录中，作者展示了最近邻检索字幕的性能不如生成字幕。...ClipCap模型在谷歌概念性字幕图像文本数据集[63]的3M图像上进行预训练，使用CLIP [55]图像 Backbone 网与GPT-2 [56]文本生成模型之间的MLP映射。

2091 0

2018谷歌开发者大会原声中文字幕版视频

2018 Google I/O 开发者大会，错过了5月9日实况，现在假期看看也不错！

3112 0

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

新智元报道编辑：桃子【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism，在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练，性能刷新30项SOTA。...它能够通过单一冻结模型，处理各种视频理解任务。...对此，谷歌推出了一种通用视觉编码器——VideoPrism，旨在解决广泛的视频理解任务，包括分类、本地化、检索、字幕和问答（QA）。...在数据方面，谷歌研究人员通过汇集3600万高质量视频字幕对，以及5.82亿视频剪辑与噪声并行文本（如ASR转录、生成的字幕和检索到的文本）来近似建立所需的预训练语料库。...这些在零样本检索和分类任务中的改进体现了VideoPrism强大的泛化能力。零样本视频字幕和质量检查表5和表6分别显示了，零样本视频字幕和QA的结果。

1571 0

【让神经网络能够“通感”】MIT 和谷歌研究连接文字、声音和视频

日前，来自 MIT 和谷歌研究人员分别朝着这一目标做出了努力。...日前，两项分别来自 MIT 和谷歌的研究，在此基础上更进一步，让人工智能系统在同一时间能够完成多项任务。其中，谷歌的研究还揭示了对应完成单独任务的模块及相应学习效率的联系。...为了训练这个系统，MIT 的研究人员首先向神经网络展示了与音频相关联的视频。网络首先将视频中的物体和音频中的声音关联起来，然后会试着预测哪些对象与哪个声音相关。例如，在什么时候波浪会发出声音。...MIT 研究的意义在于，在使用音频和图像，以及图像和文本训练后，系统能够将音频和文本匹配起来，而这是系统之前没有接触过的。...研究人员表示，这表明系统生成了一个更客观的观念，能够将看到、听到或阅读到的信息关联起来，而不仅仅依赖训练时接触到的信息。

7209 0

4位谷歌工程师8分钟视频，带你了解计算机视觉(有字幕)

量子位找到一个视频，里面是一组来自Google的研究人员，一起谈计算机视觉的历史、现在和将来。...虽然都属于计算机视觉领域的专家，但这段视频里的被采访者来自谷歌不同的部门： Serge Belongie分管移动端视觉；Bill Freeman主要研究PC端视觉；Julian Ibarz和Vincent...视频如下。量子位空耳听译，配好了字幕。 ? 另外，量子位从中截图了一部分内容。 ? Serge Belongie认为，计算机视觉主要包括四个方面，概括起来就是四个Re-开头的单词。

7697 0

谷歌推出多模态Vid2Seq，理解视频IQ在线，字幕君不会下线了｜CVPR 2023

---- 新智元报道编辑：编辑部【新智元导读】华人博士和谷歌科学家最新提出了预训练视觉语言模型Vid2Seq，可以分辨和描述一段视频中的多个事件。这篇论文已被CVPR 2023接收。...最近，来自谷歌的研究员提出了一种用于描述多事件视频的预训练视觉语言模型——Vid2Seq，目前已被CVPR23接收。...论文地址：https://arxiv.org/abs/2302.14115 Vid2Seq架构用特殊的时间标记增强了语言模型，使其能够在同一输出序列中无缝预测事件边界和文本描述。...首先，这使Vid2Seq模型能够理解转录的语音输入的时间信息，它被投射为单一的标记序列。其次，这使Vid2Seq能够联合预测密集的事件标注，并在视频中以时间为基础，同时生成单一的标记序列。...结论谷歌提出的Vid2Seq，是一种用于密集视频标注的新型视觉语言模型，它可以有效地在无标签的旁白视频上进行大规模的预训练，并在各种下游密集视频标注的基准上取得了SOTA的结果。

2331 0

开放式的Video Captioning，中科院自动化所提出基于“检索-复制-生成”的网络

▊ 写在前面在本文中，作者将传统的视频字幕任务转换为一个新的范式，即开放式视频字幕，它在视频内容相关句子的提示下生成描述，而不限于视频本身。...为了解决开放式视频字幕问题，作者提出了一种新的基于“检索-复制-生成”的网络，构建了可插入的视频-文本检索器（pluggable video-to-text retriever），有效地从训练语料库中检索句子...2）其次，模型的知识领域在训练后是固定的，如果不再次训练，就不能扩展到新的知识中。为了解决这些问题，作者提出了一个开放式的视频字幕范式。...为了更好地说明，作者首先比较了两个跨模任务：视频文本检索(VTR)和视频字幕(VC)。...（如上图所示，检索到的句子中的 “on a mat”, “does somersaults”和 “someone watches”能够准确的描述视频的内容，所以这些单词就不需要重新生成了。

3202 0

AI加持的竖屏沉浸播放新体验

最终的诉求目的是横版视频能够竖屏观看，同时做到竖屏横屏能够无缝切换。我们在爱奇艺APP上的实现效果如图。...字幕检测和字幕识别主要为完善画面剪裁之后能够展示完整字幕，然后每个画面焦点位置计算完成之后会做一个剪裁优化，最后一个稳像平滑，以此规避相邻画面之间中心点微小的变化带来的画面抖动。...我们可以看到谷歌给出的样例小视频与我们爱奇艺处理后的对比分析结果。左边1/2是原始视频，右边1/2是两份结果，结果中左侧是爱奇艺的沉浸播放结果，右侧是谷歌 Auto Flip结果。...但是在有些场景，比如双人场景下，爱奇艺会将焦点人物完整的展示出来，而谷歌的结果就会有一些偏差。并且在一些场面下，爱奇艺能够准确地识别到说话的人，而谷歌却选择聚焦距离镜头较近的两个人。...总结以上内容，竖屏沉浸播放让我们的AI能力在端上做一个落地应用；同时在长短视频、横竖播放有了一个有机的结合；在内容创作的时候，创作者不再需要提供两版视频（横、竖版）就可以在爱奇艺获得一个很好的播放效果。

5862 0

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

新智元报道编辑：LRS 【新智元导读】一图胜千言，再也不怕视频会议说不明白了！...最近几年，「视频会议」在工作中的占比逐渐增加，厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。...最近，谷歌在人机交互顶级会议ACM CHI（Conference on Human Factors in Computing Systems）上展示了一个系统Visual Captions，介绍了远程会议中的一个全新视觉解决方案...，可以在对话背景中生成或检索图片以提高对方对复杂或陌生概念的了解。...在系统工作流程中，Video Captions可以自动捕获用户的语音、检索最后的句子、每隔100毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果，然后提供推荐的视觉效果。

1722 0

AI加持的竖屏沉浸播放新体验

7856 0

【综述专栏】视频语言如何建模？NUS最新《视频-语言理解：从模型架构、模型训练和数据角度》综述！！！

此外，其他一些工作也仅关注于某一个视频-语言理解任务，例如视频问答（Zhong等, 2022）、文本-视频检索（Zhu等, 2023）和视频字幕生成（Abdar等, 2023）。...VMR需要更细致和细粒度的理解，以捕捉视频中的不同概念和事件，从而定位特定时刻，而不是像标准文本-视频检索那样捕捉整体主题。视频字幕生成视频字幕生成是为视频生成简洁的语言描述的任务。...一个视频字幕生成模型接收视频作为输入，并可选地接收从视频音频转录的语言文本。通常，模型会为整个视频生成一句话的字幕，或者生成一段更详细的摘要。...在中等层次上，视频字幕生成比检索任务更困难，因为它需要选择性地将视频中的实体和事件映射到语言模态。在最高层次上，视频问答探索视频和语言内容的关系以生成适当的输出。...（Yang等, 2023b）与视频字幕生成，视频片段检索（时间定位）与文本-视频检索。

931 0

微软提出视频多模态新基准，同时含检索、caption、QA等多个任务！

目前这类任务包括基于文本的视频检索、视频moment检索、视频问答和视频字幕等。然而，该领域的现有工作通常是在不同的实验环境下对不同的数据集进行评估，使得方法之间难以进行公平比较。...视频和语言理解具有挑战性，因为它涉及广泛的领域，如视觉和语言语义理解、时空grounding、多模态融合和知识推理等，作者希望VALUE能够激发多模态领域的进一步发展。...02 方法 VALUE旨在对3个常见视频和语言（VidL）任务的多通道视频理解提供评估：基于文本的视频检索视频问答（QA）视频字幕为了构建一个综合评估基准，作者收集了多个数据集：TVR,How2R...为了确保其与其他任务的一致性，作者采用了视频和英文字幕来评估检索性能。视频分为26K/3K/6K/6K，用于训练/验证/公共测试/私有测试。...上表展示了字幕、视频和视频字幕联合输入的实验结果。可以看出和视频字幕联合输入的实验结果能够达到最好的结果。

7632 0

加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样

机器之心报道编辑：蛋酱从文本生成图像，再到给视频加特效，下一个 AIGC 爆发点要出现了吗？相信很多人已经领会过生成式 AI 技术的魅力，特别是在经历了 2022 年的 AIGC 爆发之后。...前段时间，谷歌发布的 Dreamix 以将文本条件视频扩散模型（video diffusion model, VDM）应用于视频编辑。...在本论文中，研究者提出了一个可控的结构和内容感知的视频扩散模型，该模型是在未加字幕的视频和配对的文本 - 图像数据的大规模数据集上训练的。...编辑工作完全是在推理时间内进行的，不需要额外对每个视频进行训练或预处理；展示了对时间、内容和结构一致性的完全控制。该研究首次表明，对图像和视频数据的联合训练能够让推理时间控制时间的一致性。...为了自动创建编辑 prompt，研究者首先运行了一个字幕模型来获得原始视频内容的描述，然后使用 GPT-3 来生成编辑 prompt。

3441 0

学界 |「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

在这次操作中，谷歌已经能够通过增强特定人物对象的音频，抑制其他非重点音频来计算生成针对特定发声对象的单一音轨视频了。...对视频中的视觉信号进行分析，不仅能够在多种音频混合的场景下显著提升语音识别分离质量（相较于只借助音频来进行特定对象语音分离），同时，更加重要一点还在于，它还能将分离后的纯净单一音轨与视频中的可视对象联系起来...利用这些视频数据，我们能够训练一个多流卷积神经网络模型，为「合成鸡尾酒会场景混合体」片段中每个发声对象分离出对应音频流（音轨）。...对于视频自动字幕加载系统而言，多名发生者同时发声导致的语音重叠现象是一项已知的挑战，与此同时，将音频分离至不同的源也有助于呈现更加准确和易读的字幕。...同时你也可以前往 YouTube 观看本文中的同款视频并打开字幕加载（cc 功能键），即可比较运用了视觉-音频语音识别分离技术的视频字幕识别和 YouTube 原本视频字幕加载系统表现的差异。 ?

1.5K7 0

每日学术速递8.8

在这项工作中，我们证明可以通过对训练过程进行最小的更改来生成更具体的字幕。我们通过微调自回归字幕模型来估计字幕的条件和无条件分布，从而为自回归字幕模型实现无分类器指导。...与标准贪婪解码相比，指导尺度为 2 的解码显着提高了无参考指标，例如 CLIPScore（0.808 vs. 0.775）和 CLIP 嵌入空间中的标题 → 图像检索性能 (recall@1 44.6...arxiv.org/abs/2307.16184 项目代码：https://unival-model.github.io/ 摘要：大型语言模型 (LLM) 使得对通才代理的雄心勃勃的追求不再是一个幻想...UnIVAL 显示跨图像和视频文本任务的现有最先进方法的竞争性能。从图像和视频文本模式中学习的特征表示，使模型在音频文本任务上进行微调时能够实现竞争性能，尽管没有正在对音频进行预训练。...Silvio Savarese 文章链接：https://arxiv.org/abs/2308.02151 摘要：最近几个月出现了一种强大的新趋势，其中大型语言模型（LLM）被增强为能够自行执行面向目标的多步骤任务的自主语言代理

1815 0

Android Q和中端手机:这是我们在谷歌IO 2019上看到的所有东西

内置在Android Q中，实时字幕将很容易通过音量摇杆访问，实时字幕使用谷歌的语音识别功能将字幕放到任何视频上——即使通常不会有字幕。...不再需要将数据发送到云上不仅使它更安全，还意味着它的数据效率更高。只有500MB，在更便宜的设备上也更容易使用。但这仅仅是个开始。...下一代谷歌Assistant将能够处理更多的任务，处理问题和答案的速度将提高10倍。...就像其他谷歌家庭单元有语音匹配一样，Nest Hub Max将能够通过面部匹配识别你。Face Match允许Hub Max识别您，并在知道您在附近时显示个性化信息。...谷歌Lens的新软件将能够自动突出餐馆菜单上的热门菜品，甚至向你展示它的样子，以及谷歌地图上的相关评论。它还能根据你的收据计算出适当的小费。

1K4 0

视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！

综合实验表明，HERO在基于文本的视频/视频时刻检索、视频问答(QA)、视频和语言推理和视频字幕任务上取得了SOTA水平。此外。...作者还提出了两个新的具有挑战性的基准测试——How2QA 和How2R 的视频QA和检索。 ▊ 1....所提出的层次模型能够首先在帧级别上吸收视觉和文本的局部上下文，然后转移到全局视频级的时间上下文中。实验表明，这种新型的模型设计比类似BERT的结构具有更好的性能。...在VSM中，该模型不仅考虑全局对齐（预测字幕是否与输入的视频片段相匹配），而且还考虑局部时间对齐（检索视频片段中字幕的时刻）。...此外，作者还提出了两个基于文本的视频时刻检索和视频QA的新数据集，作为下游评估的额外基准。

2.5K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

谷歌发布Contact Center AI，智能客服真的能够不再“智障”了吗？

谷歌多模态预训练框架：视频字幕、动作分类、问答全部实现SOTA

业界 | 谷歌新进展：用DNN模型为YouTube视频添加环境音效字幕

打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !

2018谷歌开发者大会原声中文字幕版视频

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

【让神经网络能够“通感”】MIT 和谷歌研究连接文字、声音和视频

4位谷歌工程师8分钟视频，带你了解计算机视觉(有字幕)

谷歌推出多模态Vid2Seq，理解视频IQ在线，字幕君不会下线了｜CVPR 2023

开放式的Video Captioning，中科院自动化所提出基于“检索-复制-生成”的网络

AI加持的竖屏沉浸播放新体验

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

AI加持的竖屏沉浸播放新体验

【综述专栏】视频语言如何建模？NUS最新《视频-语言理解：从模型架构、模型训练和数据角度》综述！！！

微软提出视频多模态新基准，同时含检索、caption、QA等多个任务！

加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样

学界 |「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

每日学术速递8.8

Android Q和中端手机:这是我们在谷歌IO 2019上看到的所有东西

视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐