1、视频录制 AVCaptureSession + AVCaptureMovieFileOutput
这篇总结什么? ---- 在该系列的上一篇的文章中,我们总结的大致内容如下: 1、视频录制 AVCaptureSession + AVCaptureMovieFileOutput 2、视频录制 AVCaptureSession + AVAssetWriter 3、AVCaptureSession + AVCaptureMovieFileOutput 与 AVCaptureSession + AVAssetWriter 的区别 这是这个系列总结
AVFoundation框架下的视频功能基本都跟AVAssetExportSession相关,AVAssetExportSession可以以指定导出预设所描述的形式从现有AVAsset的内容创建新的定时媒体资源。 本章将首先介绍AVAssetExportSession,以及基于AVAssetExportSession实现转码和压缩视频等应用场景。
很多时候我们需要把一些图片、音频、视频上传到服务器,于是就有了文件压缩这个问题了,这篇文章就小结一下具体的文件压缩实现吧。
随着移动互联网时代的到来,短视频成为了最流行的内容载体,而内容的产生离不开视频剪辑与特效创作工具。本次LiveVideoStackCon 2021 音视频技术大会 北京站,我们邀请到了RingCentral Video 移动端架构师——阮景雄,他向我们分享了AVFoundation视频剪辑框架,以及VideoLab框架的设计与实现。
问题 对视频进行压缩并输出 解决方案 /// 压缩视频文件 -(void)videoCompressionWithUrl:(NSURL *)url finish:(void(^)(NSURL * fileUrl))finishCallback { NSString *docuPath = NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES
叨叨两句 ---- 动手写这篇总结时候也是二月底过完年回来上班了,又开始新的一年了,今年会是什么样子?这问题可能得年底再回答自己了。在家窝了那么久,上班还是的接着看我们要看的东西,毕竟我们要做的事还真的太多的。 总结第五章的内容,这两天把后面几章的内容大概的翻着看了看,知道了下后面几章的内容大致讲的都是那些内容。这里就先开始总结书本中第五章的内容。前面第四章的内容视频播放我们再前面的确也总过了,就不在这里再去重复总结。 一:AVPlayerViewController ----
前言 总结的一些音视频相关的知识,文末总结有传送门。 概念 协议层(Protocol Layer):该层处理的数据为符合特定流媒体协议规范的数据,例如http,rtmp,file等; 封装层(Format Layer):该层处理的数据为符合特定封装格式规范的数据,例如mkv,mp4,flv,mpegts,avi等; 编码层(Codec Layer):该层处理的数据为符合特定编码标准规范的数据,例如h264,h265,mpeg2,mpeg4等; 像素层(Pixel Layer):该层处理的数据为符合特定
2.主要功能实现: 我们只需要申请一套 App Key / App Secrect,提供给两个 App 使用即可。上线前,您需要在开发者平台上填写这两个应用的包名(Bundle Identifier)即可。
本文是 iOS/Android 音视频开发专题 第九篇,该专题中项目代码将在 Github 进行托管,你可在微信公众号(GeekDev)后台回复 资料 获取项目地址。
Tips:AVFoundation 提供了大量的Demo,其中有些会依赖于自己封装的LEKit,并没有开源,读者在阅读或改写的时候需要注意。 Tips:AVFoundation 提供了大量的Demo,其中有些会依赖于自己封装的LEKit,并没有开源,读者在阅读或改写的时候需要注意。 Tips:AVFoundation 提供了大量的Demo,其中有些会依赖于自己封装的LEKit,并没有开源,读者在阅读或改写的时候需要注意。
选自TensorFlow Blog 机器之心编译 参与:王淑婷、路 TensorFlow 近日发布 TensorFlow.js 版本 PoseNet,该版本 PoseNet 只要电脑或手机配备了适当的网络摄像头,就可以直接在网页浏览器中进行体验。该模型源代码已开放,Javascript 开发者只需几行代码就可以修补和使用该技术。 通过与谷歌创意实验室合作,TensorFlow 近日发布了 TensorFlow.js 版的 PoseNet。这是一款机器学习模型,可以在浏览器中实时估计人体姿态。 模型 Demo
参考: https://www.cxyzjd.com/article/ismilesky/52780349 https://www.jianshu.com/p/3e357e3129b8 http://www.cocoachina.com/articles/17624
在与谷歌创意实验室的合作,我很高兴地宣布的发行TensorFlow.js版本PoseNet 机器学习模型,它允许在浏览器中实时估计人类姿态。在这里试试现场演示(链接在文末)。
https://www.cxyzjd.com/article/ismilesky/52780349
本文分享一篇的论文『3D Human Pose Estimation with Spatial and Temporal Transformers』。文中提出首个纯粹基于Transformer 的架构,在不涉及卷积的情况下在视频中实现3D人体姿态估计。算法在Human3.6M和MPI-INF-3DHP数据集上均达到SOTA performance,并在 in the wild 视频中有着不错的表现。
作者 黄志标:中国科学院大学硕士,京东AI与大数据部算法工程师。 擅长图像检索、深度学习领域。曾参与京东的上亿重图检测项目,目前主要负责京东全景主图、视频审核项目。 安山:山东大学机器人研究中心硕士,京东AI与大数据部资深算法工程师。 研究兴趣为大规模图像检索、计算机视觉。负责京东图像搜索引擎、知识产权保护、深度学习算法移动化。在计算机视觉领域获得2项发明专利授权,另有十余项专利申请。 据京东财报显示,京东集团第二季度净利润达9.765亿,年度活跃用户达2.583亿,订单完成量为5.912亿。扎实的用户基
论文题目:SilhoNet:An RGB Method for 3D Object Pose Estimation and Grasp Planning
近年来,深度学习技术,作为一把利剑,广泛地应用于计算机视觉等人工智能领域。如今时常见诸报端的“人工智能时代”,从技术角度看,是“深度学习时代”。
近年来,深度学习技术,作为一把利剑,广泛地应用于计算机视觉等人工智能领域。如今时常见诸报端的“人工智能时代”,从技术角度看,是“深度学习时代”。光流估计是计算机视觉研究中的一个重要方向,然而,因为其不容易在应用中“显式”地呈现,而未被大众熟知。随着计算机视觉学界从图像理解转向视频理解,互联网用户从发布图片朋友圈转向发布短视频,人们对视频的研究和应用的关注不断增强。光流估计作为视频理解的隐形战士,等着我们去寻找其踪迹。本文首先介绍了什么是视频光流估计;再介绍光流估计的算法原理,包括最为经典的Lucas-Kanade算法和深度学习时代光流估计算法代表FlowNet/FlowNet2;最后,介绍了视频光流估计的若干应用。希望对光流估计的算法和应用有个较为全面的介绍。
作者 | BBuf 单位 | 北京鼎汉技术有限公司 算法工程师(CV) 编辑 | 唐里
有一种计算机的技术,专门用于计算图像之间像素的相对运动。硬件使用复杂的算法来产生高度准确的流向量,这些向量对帧到帧的强度变化具有鲁棒性,并跟踪真实的物体运动。
在这项工作中,视频中的3D姿态可以通过全卷积模型来估计,具体是在二维关键点上通过空洞时间卷积的模型得到3D姿态。我们还介绍了一种不带标签(反向投影)的半监督式训练方法。我们先从未标注视频中得到2D姿态,然后估计3D姿态和最后反向投影到输入的2D关键点。在实验中,全卷积模型相比之前state-of-arts,在Human3.6 M上平均每个关节位置误差小6mm,对应误差降低11%,模型在HumanEva-I中也有显著改进。
参考: https://www.jianshu.com/p/a01c0b59b9c4 https://juejin.cn/post/7026639897289031687
https://juejin.cn/post/7026639897289031687
在这个例子中,我们试图建立一个神经网络来估计一个人的脂肪百分比,这个人由13个物理属性描述。
论文题目:Single-Stage 6D Object Pose Estimation
关键点通常是指Low-Level 的Landmark,如点、角点或边缘,它们可以从不同的视角轻松检索。这使得移动车辆能够估计其相对于周围环境的位置和方向,甚至可以使用一个或多个相机执行闭环(即同时定位与地图构建,SLAM)。在历史上,这项任务是通过手工设计的特征描述子来完成的,如ORB,SURF,HOG,SIFT。然而,这些方法要么不支持实时处理,要么在光照变化、运动模糊等干扰下表现不佳,或者检测到的关键点是聚集成簇而不是在图像中分散,这降低了姿态估计的准确性。学习到的特征描述子旨在解决这些问题,通常通过以随机亮度、模糊和对比度的形式进行数据增强。
这项研究由来自华盛顿大学、弗吉尼亚理工学院和 Facebook 的研究者合作完成。
效果这么稳定的人像 Image Matting算法真的不多,并且还能进行实时处理!
效果这么稳定的人像 Image Matting 算法真的不多,并且还能进行实时处理!
还记得那个用论文外观判断论文质量的研究吗?在那份研究中,身为顶会领域主席的作者 Jia-Bin Huang 被自己开发的系统拒了稿,引来了大批社区成员的围观。最近,他和合作者提出了一项新的计算机视觉方法,可以让厨房「水漫金山」,让天空下起「彩球雨」……
走路的姿态可能会说明你在特定时刻的感受,例如,当你感到压抑或沮丧时,你更有可能耷拉着肩膀。
姿态估计和行为识别作为计算机视觉的两个领域,对于新人来说,较为容易弄混姿态估计和行为识别两个概念。
或许此前大家对影谱科技还不是特别了解,但是随着近期备受瞩目的商汤对影谱科技的投资以及一同开拓大文娱市场等一系列活动,影谱科技逐渐走入大众的视野。影谱科技在互联网行业已耕耘数年,从开始参与的移动互联网到现在专注于To B方向的视频植入,我们致力于优化原生广告的用户体验,努力将其打造为一个良好的互联网变现方式,这也坚定了我们沿着To B方向走下去的决心,接下来将与大家分享其中的相关技术重点。
在这篇文章中,将从CVPR 2019回顾论文“Pose2Seg:Detection Free Human Instance Segmentation”。本文提出了一种人类实例分割的新方法,该方法基于人体姿势而不是提议区域检测来分离实例。
高分辨率网络(HRNet)是用于人体姿势估计的先进神经网络-一种图像处理任务,可在图像中找到对象的关节和身体部位的配置。网络中的新颖之处在于保持输入数据的高分辨率表示,并将其与高分辨率到低分辨率子网并行组合,同时保持有效的计算复杂性和参数计数。
OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频,吸引了全世界的目光。
不久前,我们为大家介绍了腾讯明眸这一利用腾讯云领先的编解码和媒体处理技术与AI技术融合打造而成的音视频技术品牌(攻城狮手记 | 既高清又低码?腾讯明眸帮你两者兼得)。接下来我们将通过三期文章,从AI智能处理、编解码优化和容器格式优化三个方面,进一步解读分享腾讯云音视频-明眸研究团队在多媒体领域前沿技术方面积累的经验和成果。 本期我们将先从深度学习AI画质增强开始,为大家分享腾讯明眸在AI方向上的探索及思考。 腾讯明眸核心能力展示 目前我们在画质增强的工作上通过结合深度学习网络,针对性的提出了一些
论文地址:https://arxiv.org/pdf/2004.01888v2.pdf
近年来,视频内容几乎占据了所有互联网流量的80%。因此,为视频存储和传输设计高效的视频压缩方法至关重要。传统的视频编码标准,如 AVC, HEVC 和 VVC 等,都是在过去几十年中基于块分割、线性离散余弦变换(DCT)等手工设计模块搭建的。最近,研究者对基于深度学习的视频压缩方法越来越感兴趣。现有方法通常采用深度神经网络实现运动补偿和残差/条件编码,并优化端到端压缩框架中的所有模块,展现出了有希望的结果。
作者:Qinsheng Zhang, Jiaming Song, Xun Huang, Yongxin Chen, Ming-Yu Liu
Jonathan 首先介绍了视频编解码器产生的整数溢出失真,如下图所示。事实上,很难计算出编解码器中整数需要多大才能避免这个问题。设计的足够大的整数实际上并不够大,当然太大的整数也会造成实现成本上升。
近年来,虚拟会议、在线直播、4K/8K电影电视播放等应用快速发展,对视频的画质提出了更高的要求,传统的图像增强算法已不能满足各种复杂场景中的实际需求。而单图像超分辨率 (SISR) 作为一项提高计算机视觉领域中图像分辨率的底层视觉任务,凭借从退化的低分辨率 (LR) 对应恢复高分辨率 (HR) 图像的优势,在上述场景中得以广泛应用,而这一任务被称为图像盲超分辨率问题。 随着深度学习技术的突破,该方法极大地促进了 SR领域研究,很多工作在基准数据集上取得了显著成果[1]。即:假设 LR 图像是由HR图像通过使用理想内核(例如,双三次)进行下采样得到的。借助于AI技术的不断革新,腾讯优图团队深入研究超分技术,提出了图像盲超分新算法,更好地处理真实世界图像超分,相关论文发表在神经信息处理系统大会NeurIPS 2021。
在深入理解自监督注意力(self-supervised attention)的含义之前,让我们先来了解一下光流估计(optical flow estimation)的直觉,以及它为何被人类和计算机视觉系统共同采用作为一种目标跟踪方法。
https://miro.medium.com/max/1200/1*s9raSe9mLeSSuxE3API-ZA.gif
卷积层是卷积神经网络的基本层。虽然它在计算机视觉和深度学习中得到了广泛的应用,但也存在一些不足。例如,对于某些输入特征图,核权值是固定的,不能 适应局部特征的变化,因此需要更多的核来建模复杂的特征图幅,这是多余的,效率不高。体积膨胀,由于输出转换的接受野始终是矩形的,作为层叠卷积的累积 效应,接受野会越来越大,接受野中会包含一些与输出转换无关的背景。不相关的背景会给输出位移的训练带来噪声。
一个人走路的样子很能说明人在特定时刻的感受。例如,当你感到压抑或沮丧时,相比感到心满意足时,走路的时候更可能耷拉着肩膀。
领取专属 10元无门槛券
手把手带您无忧上云