首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏作者
851
文章
1000673
阅读量
233
订阅数
IBC2023 | 使用客户端和网络数据的 360° 视图优化虚拟现实体验
虚拟现实和混合现实开始推动包括体育内容在内的优质娱乐的深度沉浸式体验。这些新格式通过将丰富的 360° 和 VR 内容直接流式传输到头戴式设备,从而使人获得身临其境的体验,解锁了人们消费内容的更多方式。
用户1324186
2024-03-07
890
AAAI 2024 | 深度引导的快速鲁棒点云融合的稀疏 NeRF
具有稀疏输入视图的新视角合成方法对于AR/VR和自动驾驶等实际应用非常重要。大量该领域的工作已经将深度信息集成到用于稀疏输入合成的NeRF中,利用深度先验协助几何和空间理解。然而,大多数现有的工作往往忽略了深度图的不准确性,或者只进行了粗糙处理,限制了合成效果。此外,现有的深度感知NeRF很少使用深度信息来创建更快的NeRF,总体时间效率较低。为了应对上述问题,引入了一种针对稀疏输入视图量身定制的深度引导鲁棒快速点云融合NeRF。这是点云融合与NeRF体积渲染的首次集成。具体来说,受TensoRF的启发,将辐射场视为一个的特征体素网格,由一系列向量和矩阵来描述,这些向量和矩阵沿着各自的坐标轴分别表示场景外观和几何结构。特征网格可以自然地被视为4D张量,其中其三个模式对应于网格的XYZ轴,第四个模式表示特征通道维度。利用稀疏输入RGB-D图像和相机参数,我们将每个输入视图的2D像素映射到3D空间,以生成每个视图的点云。随后,将深度值转换为密度,并利用两组不同的矩阵和向量将深度和颜色信息编码到体素网格中。可以从特征中解码体积密度和视图相关颜色,从而促进体积辐射场渲染。聚合来自每个输入视图的点云,以组合整个场景的融合点云。每个体素通过参考这个融合的点云来确定其在场景中的密度和外观。
用户1324186
2024-03-07
2090
HotNets 2023 | PROSPER:使用LLM提取协议规范
本文探讨了大型语言模型(LLM)(特别是 GPT-3.5-turbo)的应用,以从 Internet 请求评论(RFC)文档中提取规范并自动理解网络协议。LLM在理解医学和法律等专业领域文本上已经有了长足应用,本文研究了它们在自动理解 RFC 方面的潜力。该团队开发了一个从RFC中提取图工件的工具-- RuminMiner。然后将提取的工件与自然语言文本耦合,使用 GPT-turbo 3.5(chatGPT)提取协议自动机,并给出提取结果。
用户1324186
2024-03-07
1110
HotNets 2023 | 由应用定义的网络
自互联网诞生以来,数据网络的设计和实现就重视通用性——即支持尽可能多的应用的能力——并利用模块化组织实现这一目标。Internet 体系结构被组织为一个分层的协议栈。每个协议都提供特定的功能,构建在一个或多个低层协议之上。
用户1324186
2024-03-07
850
[强基固本-视频压缩] 第十章:上下文自适应二进制算术编码 第五部分
现在我们对算术编解码算法进行了简要的分析,并讨论了将编码流中描述视频帧内容的语法元素的值转换为二进制 bin 流的过程,这才是实际进行二进制算术的过程编码。然而,有一些重要的事情我们还没有讨论。首先,在迄今为止所考虑的算法中,编码和解码都是通过分割当前区间来完成的。区间长度始终小于 1,因此必须使用非整数算术执行计算。其次,编码和解码需要有关被编码符号出现概率的信息,即最不可能出现的符号 的概率 以及该符号的值。编码器和解码器从哪里获取这些信息?最后,我们仍然没有解决 CABAC 术语中“上下文自适应”的实际含义。现在让我们来解决这些剩下的问题。
用户1324186
2024-03-07
940
[强基固本-视频压缩] 第九章:上下文自适应二进制算术编码 第4部分
在继续探讨标题中提到的上下文自适应这个概念之前,我们需要对熵编码器中的二进制这个概念有一定的了解。第六章给出的编码算法的流程图告诉我们,在熵编码之前,每个块在编码期间做出的所有决策的信息会作为输入传输到熵编码器。这些信息中的大多数的数值是整数,而不是表示为0和1的二进制数。当然了,任何整数都可以用二进制数表示,这些信息会在熵编码前二值化为相应的二进制流。如果直接按照整数对应的二进制数值将其转换为码流,则意味着在二进制消息中遇到0和1的概率将几乎相等,因此算术编码器中的数据压缩比将接近零。换言之,算术编码后编码消息中的比特数将不小于编码器输入处的比特数。正因为如此,HEVC中有一个称为二进制化的特殊过程,它适用于发送到熵编码器输入端的所有数字信息。此过程将把某个图像块进行编码的过程中的所有数值转换为一组二进制比特流。接下来仅针对使用帧内预测编码的特殊情况来详细考虑这种二进制化过程。
用户1324186
2024-03-07
680
[强基固本-视频压缩] 第八章:上下文自适应二进制算术编码 第三部分
CABAC(上下文自适应二进制算术编码)这一名称本身就意味着 HEVC 使用二进制版本的算术编码,其中输入信息字母表仅由 0 和 1 两个字符组成。 为了区分表示编码结果的输出流比特和表示编码信息的二进制字符,我们使用 "bins "一词来指代这些字符。让我们看看在第 7 章图 2 至图 4 所示的流程图中,如果考虑到被编码信息的二进制性质,会有什么变化。
用户1324186
2024-03-07
1100
用于实现真实世界时间一致性视频超分的运动引导潜在扩散模型
视频超分辨率 (VSR) 旨在从给定的低分辨率 (LR) 视频序列重建高分辨率 (HR) 视频。得益于深度学习技术的快速发展,VSR 在过去十年中取得了长足的进步,出现了包括 EDVR 等基于滑动窗口的方法、BasicVSR 等基于递归的方法以及最新的基于 Transformer 的方法。然而,上述大多数方法都假设在 LR 和 HR 视频之间进行简单的退化。因此,这种 VSR 模型很难推广到真实世界的 LR 视频中,因为真实世界的退化要复杂得多。
用户1324186
2024-02-29
2190
[强基固本-视频压缩] 第六~七章: 上下文自适应二进制算术编码
让我们回顾一下使用 H.265/HEVC 系统编码视频帧的主要步骤(图1)。第一步,通常称为“块分割”,将帧分割成称为 CUs (编码单元)的块。第二步涉及使用空间(帧内)或时间(帧间)预测来预测每个块内的图像。当执行时间预测时,CU 块可以被分割成称为 PUs (预测单元)的子块,每个子块都有自己的运动向量。然后,预测的样本值从正在编码的图像的样本值中减去。结果,每个 CU 形成一个二维(2D)差异信号,或称为残差信号。第三步,2D 残差信号样本的数组被分割成所谓的 TUs (变换单元),每个 TU 都会经历离散的 2D 余弦傅里叶变换(对于包含帧内预测强度样本的 4×4 大小的 TUs 除外,这些 TUs 使用离散正弦傅里叶变换)。
用户1324186
2024-02-29
1250
[强基固本-视频压缩] 第五章:HEVC中的后处理
HEVC算法旨在对视频帧进行块处理,以消除视频数据中的空间或时间冗余,本质上是通过对被编码块中的样本值进行预测来消除冗余。帧内预测主要进行空间处理,涉及从相邻块的像素值中预测当前块内的像素值,帧间预测通过使用先前编码帧的图像区域进行预测来消除时间冗余。残差信号,即编码图像与预测图像之间的差值,经过离散二维傅立叶变换(DFT),得到的频谱系数按级别进行量化。在最终编码阶段,量化后的频谱系数值序列与相关的预测、频谱变换和量化信息一起进行熵编码。编码器中的空间和时间预测使用解码图像进行,这确保了编码器和解码器之间的预测结果相同。解码过程包括对频谱系数进行反量化和进行逆离散傅立叶变换(IDFT),恢复的差异信号被加到预测结果中。
用户1324186
2024-02-29
1050
WWDC2023 | 如何为visionOS准备和提供视频内容
在本次会议中,我们将探讨如何为空间体验准备和提供流媒体内容。我们将从回顾使用HTTP Live Streaming (HLS) 生产、准备和提供2D媒体的当前步骤开始,然后转向3D视频内容的支持及其步骤的更新。本次会议的目标是使得在此平台上提供2D视听内容的过程与在我们所有其他平台上的过程相同。
用户1324186
2024-02-29
1250
[强基固本-视频压缩] 第四章: HEVC中的运动补偿
HEVC 标准实现了参考图像信息和运动矢量预测理念,提供了最佳的帧间预测质量。这包括以 1/4 像素的精度指定预测矢量、使用单向和双向预测、自适应地改变被预测图像区域的形状和大小、创建长参考帧列表(多达 15 个元素),以及使用运动矢量预测算法,从而只将有关差分矢量 (mvd) 的信息添加到编码流中。这一切是如何实现的呢?让我们一探究竟。
用户1324186
2024-02-29
1170
[强基固本-视频压缩] 第三章:HEVC中的空间(帧内)预测
HEVC标准所实现的视频编码系统被分类为基于块的混合编解码器。“基于块”在这里意味着每个视频帧在编码过程中被划分为块,然后应用压缩算法。那么“混合”是什么意思呢?在很大程度上,编码过程中视频数据的压缩是通过从视频图像序列中消除冗余信息来实现的。显然,在时间上相邻的视频帧中的图像极有可能看起来彼此相似。为了消除时间冗余,在先前编码的帧中搜索与当前帧中要编码的每个块最相似的图像。一旦找到,该图像就被用作正在被编码的区域的估计(预测),然后从当前块的像素值中减去预测的像素值。在预测良好的情况下,差分(残差)信号包含的信息明显少于原始图像,这为压缩提供了保障。然而,这只是消除冗余的一种方法。HEVC提供了另一个选择,使用与当前块相同的视频帧中的像素值进行预测。这种预测被称为空间或帧内预测(intra)。因此,“混合”一词所指的是同时使用两种可能的方法来消除视频图像中的时间或空间冗余。还应当注意,帧内预测效率在很大程度上决定了整个编码系统的效率。现在让我们更详细地考虑HEVC标准提供的帧内预测的方法和算法的主要思想。
用户1324186
2024-02-29
1120
[强基固本—视频压缩] 第一章:视频编码简述
第一个被广泛接受的视频压缩标准MPEG-2于1996年被采纳,随后数字卫星电视得到了快速发展。下一个标准是MPEG-4 part 10(H.264/AVC),它提供了两倍的视频数据压缩率。它于2003年被采纳,导致了DVB-T/ C systems、互联网电视的发展以及各种视频共享和视频通信服务的出现。从2010年到2013年,联合视频编码联合协作小组(JCT-VC)积极致力于创建下一个视频压缩标准,开发者称之为高效视频编码(HEVC);它实现了数字视频数据压缩率的两倍增长。这一标准于2013年获得批准。同年,由谷歌开发的VP9标准被采纳,据称在视频数据压缩率上不逊于HEVC。
用户1324186
2024-02-29
820
Sora: 作为世界模拟器的视频生成模型
这些已有的工作仅针对有限的视觉数据,并且生成的视频时间短、分辨率及长宽比固定。本工作验证了在原有的大小上训练模型有优势:
用户1324186
2024-02-21
1900
CVPR 2023 | ReRF:用于流媒体自由视视频的神经残差辐射场
真实的自由视角视频(Free-Viewpoint Videos,FVVs),尤其是人物表演这一类的动态场景,可以缩小表演者与观众之间的距离。但是将生成和观看 FVVs 变得像点击和观看常规 2D 视频一样简单,仍然是非常困难的目标。面临包括从数据处理和压缩到流媒体和渲染的各个方面的挑战。
用户1324186
2024-02-21
1220
AAAI 2022 | OctAttention:基于八叉树的大规模上下文点云压缩模型
基于八叉树的压缩点云的模型对分辨率具有鲁棒性,并且它还利用比基于体素的模型更广泛的上下文。然而,先前基于八叉树的方法忽略了兄弟节点(即同一八叉树级别中的节点)的特征信息。
用户1324186
2024-02-21
1760
FLATTEN: 针对文本到视频一致性编辑的光流引导注意力机制
最近,文本到视频(T2V)编辑引起了广泛关注。与文本到图像(T2I)编辑相比,文本到视频编辑面临的一个关键挑战是视觉一致性。这意味着,编辑后视频中的内容在所有帧中应该具有平滑且不变的视觉外观,并且编辑后的视频应尽可能保留源视频的运动。
用户1324186
2024-02-21
1450
DiffusionGPT:大规模语言模型驱动的文本到图像生成系统
近年来,扩散模型在图像生成任务中盛行,彻底改变了图像编辑、风格化和其他相关任务。DALLE-2和Imagen都非常擅长根据文本提示生成图像。然而它们的非开源性质阻碍了广泛普及和相应的生态发展。第一个开源文本到图像扩散模型,称为稳定扩散模型(SD),它迅速流行并广泛使用。为SD量身定制的各种技术,例如Controlnet、Lora,进一步为SD的发展铺平了道路,并促进了其与各种应用的集成。SDXL是最新的图像生成模型,专为提供具有复杂细节和艺术构图的卓越照片级逼真输出而量身定制。尽管取得了显着的进步,当前的稳定扩散模型在应用于现实场景时仍面临两个关键挑战:
用户1324186
2024-02-21
1710
Scaling Up to Excellence: 恢复逼真的图像
随着图像修复(IR)的发展,人们对 IR 结果的感知效果的期望显著提高。基于生成先验的 IR 方法,利用强大的预训练生成模型将高质量的生成和先验知识引入 IR ,在这些方面取得了重大进展。不断增强生成先验的能力是实现更优秀的IR结果的关键,模型缩放是一种关键且有效的方法。有许多任务从扩展中获得了惊人的改进,例如SAM 和大型语言模型。这进一步激励努力构建能够产生超高质量图像的大规模智能图像修复模型。然而,由于计算资源、模型架构、训练数据以及生成模型和 IR 的协作等工程限制,扩展 IR 模型具有挑战性。
用户1324186
2024-02-21
1710
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档