首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

复旦大学联合华为诺亚提出VidRD框架,实现迭代高质量视频生成

该框架可以在 LDM 已经生成少部分视频之后,产生更多视频,从而实现迭代式地生成更长、更高质量以及多样化视频内容。...复旦大学联合华为诺亚方舟实验室研究者基于图像扩散模型(LDM)提出了一种迭代式生成高质量视频方案 ——VidRD (Reuse and Diffuse)。...: 为了生成更加平滑视频,本文基于时序感知 LDM 模型提出了一种迭代 “text-to-video” 生成方法。...通过重复使用已经生成视频潜空间特征以及每次都遵循先前扩散过程,该方法可以迭代式地生成更多视频。 本文设计了一套数据处理方法来生成高质量 “文本 - 视频” 数据集。...针对现有的动作识别数据集,本文利用多模态大语言模型来为其中视频赋予文本描述。针对图像数据,本文采用随机缩放和平移方法来产生更多视频训练样本。

24230

轻量级实时三维激光雷达SLAM,面向大规模城市环境自动驾驶

我们系统有效性和鲁棒性已在数据集KITTI[15]和MVSECD[16]上得到验证。本文主要贡献如下: 使用深度信息对无序点云进行编码,这避免了点云投影到2D平面上导致维度信息丢失。...提出了一种在不同距离间隔内自适应选择阈值和特征点数量方法。与传统固定数特征提取方法相比,该方法在三维空间中提取了均匀稀疏特征点,从而提高了里程计准确性并降低了时间成本。...它采用了一种迭代两步畸变补偿来代替迭代畸变补偿,提供了高计算效率和精确姿态。MULLS[21]提出了基于分类特征点多尺度线性最小二乘迭代最近点算法。...05  实验评估 5.1 在KITTI中测试前端里程计 我们首先在KITTI里程计基准[15]上验证了所提出系统中前端里程计准确性和有效性。在测试中,仅使用了激光雷达数据。...使用基于图优化方法来优化全局建图。为了证明所提出系统在不同城市场景中鲁棒性,在KITTI和MVSECD数据集上评估了系统性能。在上述两个数据不同场景中,系统定位精度可以接近地面实况。

3.2K71
您找到你想要的搜索结果了吗?
是的
没有找到

DIMP:学习判别预测模型跟踪算法

我们开发了一种端到端跟踪体系结构,能够充分利用目标和背景外观信息来进行目标模型预测。通过设计专用优化过程(仅需几次迭代即可预测功能强大模型),我们体系结构源自有区别的学习损失。...该体系结构可以进行有效端到端训练,同时最大程度地提高预测模型判别力。通过确保通过两个关键设计选择最少优化步骤来实现这一目标。 首先,我们采用基于最速下降法方法来计算每次迭代最佳步长。...3.方法 与在孪生网络跟踪器中一样,我们方法得益于端到端培训。但是,与Siamese不同,我们体系结构可以充分利用背景信息,并提供有效手段来用新数据更新目标模型。...我们通过推导使用了复杂优化方法来解决此问题,该方法仅需要进行几次迭代即可预测出强大判别滤波器f。核心思想是基于最速下降法计算步长,这是一种常见优化技术。...给定带有注释第一,我们采用数据增强策略来构建包含15个样本初始集合 。然后使用我们判别模型预测架构 。得目标模型。对于第一,用10次梯度下降来学习。

2K42

【Mol Cell】分子和细胞生物学中冷冻电子显微镜(Cryo-EM)(二)

除了直接探测器在分辨率和灵敏度方面的巨大改进,给出了更好信噪比,它们高速度也实现了一种新型数据记录,其中图像作为视频记录。这捕捉了冰中束流引起运动,并允许视频子重新对齐,以便纠正运动模糊。...对于这种噪音数据,单个相关性非常不准确,只能通过冗长迭代处理以及概率(贝叶斯)方法来避免在假最小值中被困住(Scheres等人,2012)。...运动校正 将视频或平均组别,细分为多个补丁,并进行对齐,以便检测并逆转视频样本运动。然后,可以对运动校正进行剂量分配并合并,以获得清晰图像。...任何给定粒子或子区域散焦度取决于它在显微镜柱中准确高度,这对于单粒子和尤其是倾斜系列数据尤其重要。分析分辨率越高,必须本地确定CTF。...Relion(Scheres, 2012; Kimanius等人,2021)可能是最广泛使用单粒子软件,它引入了最大似然/Bayesian方法到单粒子图像处理中首次有效实现,以及一个在每次精炼迭代时更新本地信噪比模型

26020

NID-SLAM:动态环境中基于神经隐式表示RGB-D SLAM

我们提出了一种方法来增强语义掩码中不准确区域,特别是在边缘区域。利用深度图像中存在几何信息,这种方法能够准确地移除动态物体,从而降低了相机漂移概率。...此外,我们还引入了一种针对动态场景关键选择策略,它提高了相机跟踪对大尺度物体鲁棒性,并提高了建图效率。...在各种视觉传感器中,RGB-D相机同时记录颜色和深度数据,为三维环境信息获取提供了更有效和精确基础。这增强了大多数SLAM算法三维重建性能。 最近方法已经将神经隐式表示引入到SLAM中。...利用先前和当前已知位置,我们将一系列先前关键投影到当前RGB和深度图像分割区域。由于这些区域要么尚未出现在场景中,要么已经出现但没有有效深度信息,因此仍有一些区域保留未填充。...但是,这种方法通常需要大量迭代才能优化相对较小边缘区域,降低了整体优化效率。它还会导致重复选择结果,因为覆盖面积是恒定,覆盖面积大保持更高优先级。

31710

图像算法可以稳定处理视频了!港科大开源通用算法,解决视频处理时域不稳定问题|NeurIPS 2020

将图像算法应用上视频上 作者观察到一种称作深度视频先验(Deep Video Prior, DVP)现象:利用视频来训练卷积网络过程中,视频不同之间对应图像块网络预测输出倾向于一致。...不同,训练仅需单个视频,并且仅使用单个进行每次训练迭代。作者对网络进行进行随机初始化,然后可以在每次网络优化迭代中使用单个数据项对其进行优化,而无需进行任何显式正则化(如光流等)。...以前方法无法生成一致结果[19]或倾向于大大降低原始性能[3]。 作者提出了一种迭代加权训练(IRT)策略来处理多模态时域不一致问题,因为它无法被基本深度视频先验(DVP)来解决。...不同网络结构影响‍ ‍ 如图7所示,作者验证了深度视频先验(DVP)在多种网络结构上都是有效。 总结 作者提出了一种简单而通用方法来提高经图像算法处理预处理视频时时域一致性。...此外,作者相信DVP概念可以进一步扩展到其他类型数据,例如3D数据和多视图图像。DVP不依赖于视频顺序,并且自然应适用于维护多个图像之间多视图一致性。

97020

论文翻译 | LS-Net:单目双目视觉非线性最小二乘学习算法

1 摘要 在本文中,我们提出了最小二乘网络,一种神经非线性最小二乘优化算法,即使在逆境中也能有效地优化这些代价函数.与传统方法不同,所提出求解器不需要hand-crafted正则化或先验,因为这些都是从数据中隐式学习...在这样做过程中,我们寻求利用基于神经网络方法来学习稳健数据驱动先验能力,以及传统基于优化方法来获得高精度精确解。...特别地,我们建议学习如何基于当前残差和雅可比(以及一些额外参数)来计算更新,以使NLLS优化算法更有效并且对高噪声鲁棒 我们将优化器应用于从单目图像序列估计姿态和深度问题,该单目图像序列被称为单目立体...综上所述,本文贡献如下: 我们提出了一种端到端可训练优化方法,它建立在对NLLS问题强大近似基于Hessian优化方法基础上 直接从数据中隐式学习最小二乘问题先验和正则....可以看到: 在图 a)中,仅经过5次迭代的话,LS-Net 拟合曲线明显比 LM 拟合曲线接近真值。 在图 b)中,可以看出 LS-Net (实线)比 LM(虚线)收敛速度明显更快。

91510

图像算法可以稳定处理视频了!港科大开源通用算法,解决视频处理时域不稳定问题|NeurIPS 2020

将图像算法应用上视频上 作者观察到一种称作深度视频先验(Deep Video Prior, DVP)现象:利用视频来训练卷积网络过程中,视频不同之间对应图像块网络预测输出倾向于一致。...不同,训练仅需单个视频,并且仅使用单个进行每次训练迭代。作者对网络进行进行随机初始化,然后可以在每次网络优化迭代中使用单个数据项对其进行优化,而无需进行任何显式正则化(如光流等)。...以前方法无法生成一致结果[19]或倾向于大大降低原始性能[3]。 作者提出了一种迭代加权训练(IRT)策略来处理多模态时域不一致问题,因为它无法被基本深度视频先验(DVP)来解决。...不同网络结构影响‍ ‍ 如图7所示,作者验证了深度视频先验(DVP)在多种网络结构上都是有效。 总结 作者提出了一种简单而通用方法来提高经图像算法处理预处理视频时时域一致性。...此外,作者相信DVP概念可以进一步扩展到其他类型数据,例如3D数据和多视图图像。DVP不依赖于视频顺序,并且自然应适用于维护多个图像之间多视图一致性。

1.2K30

ICCV2023 室内场景自监督单目深度估计

笔者总结 本文方法是一种自监督单目深度估计框架,名为GasMono,专门设计用于室内场景。本方法通过应用多视图几何方式解决了室内场景中间大旋转和低纹理导致自监督深度估计困难挑战。...为了应对低纹理问题,我们将视觉Transformer全局推理能力与迭代式自蒸馏机制相结合,提供来自网络自身准确深度指导。...在NYUv2、ScanNet、7scenes和KITTI数据集上实验验证了我们框架中每个组件有效性,我们方法在室内自监督单目深度估计方面达到了最先进水平,并展现了优异泛化能力。 3....算法1 迭代式自蒸馏系统ISD 3.2.2 迭代自我蒸馏 我们提出一个过拟合驱动迭代自我蒸馏(ISD)过程,以获得最小像素重投影误差深度图,为任何特定训练样本提供准确标签。...边缘感知平滑损失用于进一步改进反深度映射d: 其中 d^*=d/\hat{d} 表示平均归一化反深度。并计算一个自动掩码μ来过滤静止和一些重复纹理区域。 迭代自我蒸馏损失。

76310

Single-Shot Calibration:基于全景基础设施多相机和多激光雷达之间外参标定(ICRA2021)

本文提出一种多相机、多雷达系统外参标定方案,只需要采集一数据即可完成标定。我们设计并建立一种全景基础设施,相机和激光雷达只需要一数据就能在这个基础设施中完成定位。...理论: 图2 基于全景基础设施多传感器标定框架 图1 基础设施场景重建采用是标准增量双目SfM Pipline方法来获得全景基础设施稀疏点云,这种稀疏重建作为后续标定过程标定参考。...为了重建全景基础设施,作者提出了一种基于无特征基准标记标准增量双目SfM Pipline方法,该Pipline方法由以下三个步骤组成:立体跟踪、局部映射和全局优化。...为了建立连续立体间稀疏三维点对应关系,作者提出了以下基于三角形匹配算法: 局部映射:在每一次立体跟踪操作之后,作者提出一个闭环检测,以获得当前和以前立体之间鲁棒三维对应关系。...作者使用参考环境是精心设计,以便摄像机或激光雷达可以稳健地定位,从中可以导出传感器相对变换。作者还提出了一种经济方法来重建基础设施,使用低端立体相机,其精度可与昂贵专业3D扫描仪媲美。

64430

PCS 2022 | 腾讯多媒体实验室5篇论文入选,含视频压缩、视频数据集、神经网络压缩图像视频压缩、高维媒体压缩等领域

鉴于屏幕内容应用普及,本文提出了一个开放屏幕内容视频数据集,用于屏幕内容编码技术研究和发展。提出视频数据集包含12 个典型公开可用屏幕内容类型视频剪辑。...在本文中,作者针对内和间预测提出了一种统一块划分结构快速算法,该算法利用了编码器在模式决策过程中评估各种候选块划分方案各种历史信息进行块划分模式筛选,从而跳过不必要块划分方案,达到编码器计算复杂度降低...然而,由于缺少 UV 图表边界信息,几何视频本身重建可能会严重失真。因此,建议通过有效预测和残差编码在单独子比特流中编码 UV 图边界信息。...为了解决这个问题,本文提出了一种迭代训练方法来进一步优化基于神经网络环路滤波器。基于所提出方法,可以实现高达 1.74% 额外YUV BD 码率节省。...我们展示了SNIC 在与各种神经压缩模型和目标指标相结合时在提高压缩质量和执行通过率失真曲线测量比特率控制方面的有效性。

53740

ACL22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足情况下

,比如EDA方法(增删改插),回译(Back Translation,就是翻译到一种语言,再翻译回来),CBERT(通过BERT寻找语义相关替换词),GPT2context(给一个提示(prompt)...之前数据增强方法感觉有点hard,有没有稍微soft方法,于是作者通过label smoothing灵感想到了text是否也可以来做smoothing?...于是作者提出了一种Text Smoothing方法,具体如下: 其实该方法借鉴了CBERT灵感,就是通过mask language model (MLM)方法,将文本输入并得到每一个token对应在...实验 本文在低资源公开数据集上得到了非常好效果,远高于其他方法。...一种全新易用基于Word-Word关系NER统一模型,刷新了14种数据集并达到新SoTA 阿里+北大 | 在梯度上做简单mask竟有如此神奇效果 ---- 下载一:中文版!

79430

前景目标检测无监督学习

算法1中提出方法在从一次迭代(生成)到下一次迭代(生成)过程中遵循系统主要步骤。下面将详细地讨论这些步骤。...利用主成分分析(PCA)模型,将初始前景区域作为一部分进行重建。前景物体比背景小,具有鲜明外观和复杂运动。它们可以被看作是孤立点,在更大背景场景中。...虽然可以使用两个组件中任何一个多网或多选择网作为新模块B,但为了简单、更有效方法。...我们注意到保持百分比与分割质量之间存在很强相关性。同样明显是,EValSeg-net比迭代1中使用简单过程要好得多。...首先,提出了一种有效视频学习方法,在没有监督情况下,在单个图像中检测前景目标。针对这一任务,提出了一种相对通用算法,为几代student和teacher学习提供了可能。

1.9K20

AAAI2019录用论文选读

本文提出了一种变分解表达(Disentangled Variational Representation,DVR)方法来提高异质人脸识别的性能。...该方法能有效地模仿人类视觉机理,在两个公开数据集上实验结果表明,在显著提升检测效率同时,能够达到与其他state-of-the-art相当效果。 ? 6....因此,本文提出了一种注意力导向采样方法,该方法可以在剔除视频中无关同时保留具有判别力关键。...由于缺少视频中关键标注,本文将挖掘关键过程形式化为马尔可夫决策过程,在不使用额外标注数据条件下通过深度强化学习训练方法中使用智能体。...智能体根据每一特征向量以及该对分类置信度贡献,通过一次迭代对所有进行重要性评分,选择得分高作为时域注意区域。在两个开源数据上,我们模型取得很有竞争力性能。 ?

63620

自动驾驶中高效激光雷达里程计

为了解决这些问题,我们提出了一种有效激光雷达里程计方法,利用非地面球形距离图像和鸟瞰图地面点。此外,本文还引入了一种距离自适应方法来稳健估计局部曲面法线。...此外,本文还提出了一种快速且节省内存模型更新方法来融合不同时间戳下点及其对应法线。我们在KITTI里程计基准上进行了大量实验,实验结果表明我们提出方法是有效。...图1 在KITTI数据集上使用我们提出激光雷达里程计方法进行三维重建。 主要贡献 本文提出了一种有效激光雷达里程计(ELO)方法。...这表明该方案不仅非常有效,而且由于高效并行实现,比传统方法快一个数量级。如果采用精度较低优化(每秒238),速度可能会更快。...此外,本文还引入了距离自适应方法来稳健估计局部曲面法线。此外,我们还提出了一种记忆有效模型更新方案,以融合不同时间戳点及其对应法线。

46310

2018-03-18

导致视频闪烁通常是由混合目标人脸频繁变化边界以及视频序列之间和之后未注册人脸造成。提出了亚像素图像配准方法来解决闪烁问题。...在BU-3DFE数据库上进行实验,证明梳理不同面部部分,纹理和深度线索有效性,并与相同设置下所有现有方法进行比较,报告最先进结果。...为了在每次迭代中获得有较好伪掩码,我们嵌入了包含低级图像外观一致性和边界框注释图形推断,以细化由分割网络预测分割掩模。...我们STSN通过学习从相邻空间采样特征来在视频中执行对象检测。 这自然使得该方法对于单个遮挡或运动模糊是鲁棒。 我们框架不需要额外监督,因为它直接针对物体检测性能优化采样位置。...我们STSN性能优于ImageNet VID数据最新技术水平,与之前视频对象检测方法相比,它采用简单设计,并且不需要光流数据进行培训。

1.3K121

TPAMI 2023|eSL-Net++:基于事件相机超分辨率图像恢复

在使用合成数据集进行训练后,所提出eSL-Net可以极大地提高7-12 dB性能。此外,不需要额外训练过程,所提出eSL-Net可以很容易地扩展到帧率与事件相同连续生成任务中。...2)作者提出了一种简单方法来扩展eSL-Net,以实现高帧率和高质量视频恢复。 3)作者为事件相机建立了一个合成数据集,其中事件数据、LR模糊图像和HR清晰图像。...此外,作者还提出了一种基于事件shuffle-and-merge方案,将单SRB扩展到序列SRB,而无需任何额外训练过程。...事件数据嵌入内信息补偿了模糊低分辨率图像中被擦除运动和纹理信息。 2)超分辨率。当遇到运动模糊时,事件数据极高时间分辨率保持了动态场景时间连续性。...ɑ,而是也将图像作用在事件上来迭代计算事件稀疏编码β,通过这种相互作用编码方式实现两种模态信息相互补偿,虽然最终清晰图像生成还是得依靠图像稀疏编码ɑ,但是在图像对事件补偿过程中同样能够对事件进行有效地去噪

38720

三十天学不会TCP,UDPIP编程--MAC地址和数据链路层

再说回Ethernet II,这是链路层一种格式,另外一种是IEEE802.3。...再往下就是Data,也就是真实数据包,比如IP数据等等。后面是一个CRC检验码,目的是为了检查这个包有没有出错。如果出错,就会丢弃这个包。...首先要说一个概念叫CSMA/CD,中文是载波多路复用/冲突检测,这个名词看完之后疑惑了。但是这个概念很简单,在很多并发编程里面都用到了这个简单而又有效技术。...因为网络是共享,所有的主机端在发送自己数据前第一件事是检测下线路上是不是空闲,就是说路有没有被占用,路上有没有车。如果有车还开车上去,那么必然就出事故了。...网卡检测到线路上有数据,这个时候不能发车怎么办呢,这里设计者们采用了一个最原始却最有效办法——等一会儿再发,回头再看看这个技术名词,是不是有些理解了?

1.1K60

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%

此外,由于视频有许多,处理全部来学习时空信息,可能在计算上成本过高。...-文本学习新方法,称为「迭代共同标记」,能够有效地融合空间、时间和语言信息,用于视频问答信息处理。...视频-文本迭代 该模型主要目标是从视频和文本(即用户问题)中产生特征,共同允许它们相应输入进行互动。第二个目标是以有效方式做到这一点,这对视频来说非常重要,因为它们包含几十到几百输入。...多流视频输入 对于VideoQA或其他一些涉及视频输入任务,研究人员发现,多流输入对于准确地回答有关空间和时间关系问题很重要。...尽管有三个数据流需要处理信息显然更多,但由于采用了迭代共同标记方法,获得了非常高效模型。同时,这些额外数据流允许提取最相关信息。

19720

OpenCV视频后期防抖实战

image.png 光流 由于目标对象或者摄像机移动造成图像对象在连续两图像中移动被称为光流。它是一个2D向量场,可以用来显示一个点从第一图像到第二图像之间移动。...image.png RANSAC RANSAC是“RANdomSAmple Consensus(随机抽样一致)”缩写。它可以从一组包含“局外点”观测数据集中,通过迭代方式估计数学模型参数。...两连续图像有各自角点集合,RANSAC可以从含有噪声数据中发现相互匹配点集,进而计算出两图像变换矩阵。...image.png image.png image.png 运动轨迹平滑 这里一般使用滤波、拟合或最优化等方法来对曲线进行平滑,下面是两种不同算法得到结果。 1....中值滤波 一种最简单但有效滤波方式。在防抖场景中缺点是对结果缺乏掌控。

4.5K10
领券