每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。
本文介绍了如何使用体积视频创建数字人,体积视频的后处理方法和传输方式等。
iOS AVDemo(7):视频采集,视频系列来了丨音视频工程示例
音视频开发之旅系列之四,本期主要介绍Camera视频采集,包括Camera基础知识,视频采集的流程,以及采集中遇到的问题等。
W3C/SMPTE 专业媒体制作 Web 技术联合研讨会总结报告
W3C 和 SMPTE 举办的专业媒体制作 Web 技术研讨会于2021年10-11月举行。该研讨会旨在连接 Web 平台社区和专业媒体制作社区,探索 Web 平台技术变革以满足专业媒体制作的需求。本报告总结线上主题讨论的话题,回顾因时间关系而没有进行线上讨论的话题,并提出下一步计划。
https://www.w3.org/2021/03/media-production-workshop/zh.report.html
现在抖音快手各种短视频也算是深入人心了,短视频剪辑中有一个非常重要的功能,就是音视频合成,选择一段视频和一段音频,然后将它们合成一个新的视频,新生成的视频中会有两个音频的混音。
在过去的40年中,许多学者对房间均衡进行了深入的研究,提出了许多有效的技术来应对不同均衡问题。这篇文章旨在介绍一些常用的均衡方法,并讨论每种方法的利弊。
研究人员开发了一个机器学习模型,该模型确定听众所经历的声学条件,然后估计听众在该环境中识别单词的能力。为了进行此估计,该模型使用基于机器学习的自动语音识别系统。
在iOS和iPadOS 14中,苹果首次引入了空间音频,现应用于Apple TV、Mac和 HomePod中。现在,一项新的专利申请显示,苹果正在为FaceTime开发空间音频。
VVC作为国际标准于2020年7月首次发布,现在时间已经过去了18个月,让我们来看看VVC迄今为止的进展(包括许可、性能、芯片开发和测试等)。
编码VS转码:有什么区别?
如果您正在尝试流式传输视频,那么您无疑已经听说过“编码”和“转码”这两个术语——但它们有什么区别,又有什么关系呢?
https://www.wowza.com/blog/encoding-vs-transcoding
FFmpeg 源码分析-转码总结
本系列 以 FFmpeg4.2 源码为准,FFmpeg 源码分析系列以一条简单的命令开始,ffmpeg -i a.mp4 b.flv,分析其内部逻辑。本文主要分析 process_input_packet() 的内部逻辑。
https://juejin.cn/post/7052339186958860296
华为云媒体处理服务研发负责人查勇 结合华为云在超高清视频转码领域的实践经验,详细介绍了云上使用AI技术提升视频视听体验的关键技术,以及如何助力行业实现音视频体验升级。
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
在今天分享中,研究者进一步探讨了前景和背景的知识蒸馏对目标检测的影响。通过分离蒸馏过程中的前景背景来设计实验。
HLS是由苹果公司提出基于HTTP的流媒体网络传输协议。是苹果公司QuickTime X和iPhone软件系统的一部分。它的工作原理是把整个流分成一个个小的基于HTTP的文件来下载,每次只下载一些。
本报告从视频制作域和传输域的需求入手,分别总结了不同场景下传输协议的需求和关键指标,并给予技术分析。最后在此基础上,本报告对面向未来移动通信技术的新型视频制作和分发给予了展望。
1024x1024 分辨率,效果惊人!InsetGAN:全身图像生成 (CVPR 2022)
GNN落地不再难,一文总结高效GNN和可扩展图表示学习最新进展
本文旨在概述关于高效图神经网络和可扩展图表示学习的关键思想,并将介绍数据准备、GNN 架构和学习范式方面的关键进展,这些最新进展让图神经网络能够扩展到现实世界,并应用于实时场景。
OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作
保姆级教程:深度学习环境配置指南!(Windows、Mac、Ubuntu全讲解)
如果你正在面临配置环境的痛苦,不管你是Windows用户、Ubuntu用户还是苹果死忠粉,这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。
今天我们带来的是VR技术介绍,欢迎关注,留言交流学习。其实VR眼镜的概念很简单:把一个显示器罩在人的眼睛上,人向哪里看,就在显示器里显示对应方向的景物,从而让人感觉自己身处一个无限大的虚拟空间中。
今天早些时候,全息AR公司WayRay发布了一段新视频,展示了其True AR HUD在真实道路上的应用,为AR技术在驾驶引导和安全领域的应用开启全新的时代。
使 Android 相机上传功能更快、更可靠
相机上传是我们的 Android 和 iOS 应用程序中的一项功能,可自动将用户的照片和视频从他们的移动设备备份到 Dropbox。这篇文章是关于在为 Android 构建新的相机上传功能时做出的一些设计、验证和发布决定。该项目成功交付,没有中断或重大问题;错误率下降,上传性能大大提高。
https://dropbox.tech/mobile/making-camera-uploads-for-android-faster-and-more-reliable
一些图像处理任务,如图像分类和目标检测,已经通过使用卷积神经网络(CNN)性能得到了显著的改进。训练中的一个关键因素是网络的正则化,它可以防止模型在训练的过程中出现过拟合的现象。
这是 21 年的一篇综述文章,可以算得上是最前沿的自动驾驶技术综述。这几年随着深度表征学习的发展,强化学习领域也得到了加强。本文会对目前最先进的自动驾驶 DRL 算法进行汇总和分类。
摄像头作为汽车感知的核心传感器,主要是获取图像信息为ADAS各种功能所服务。下面,智驾最前沿就带大家一起来了解下车载摄像头的一大革命性应用:电子后视镜CMS。
阅读推荐
IEEE INFOCOM2022权威论文|PPIO边缘云“EdgeMatrix”云边资源优化框架
大公司人员的流失并不是什么新鲜事,但是扎堆离职事件还是较为罕见。据外媒CNBC报道,这几个月来,Meta(前身Facebook) AI部门失去了至少四位顶尖科学家。
AI 领域充满了炒作和虚张声势。在过去的几十年间,AI一次又一次掀起热浪,虽然给出了各种承诺,但能够兑现的承诺却非常罕见。
CVPR2022 | 京东探索研究院CVPR再突破,34篇入选论文合集解读
活动推荐
【城市沙龙】LiveVideoStack Meet深圳:元宇宙与音视频
去年底,元宇宙一词入选了《柯林斯词典》2021年度热词,虽然外界对于元宇宙概念和属性的看法仍在变化,但对其未来的良好前景已基本达成共识。元宇宙又会给音视频互动带来哪些新玩法与新场景?4月23日LiveVideoStack Meet将在深圳与大家见面,共聊元宇宙与音视频发展!
活动时间:2022年4月23日 14:00-17:00
活动地点:深圳市南山区卓越前海壹号T3写字楼38层培训室
报名方式:点击「阅读原文」立即报名。
本文分享自 LiveVideoStack 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!