我最近创建了一个视频扫描变压器模型,它接受(batch_size,3,32,224,224) batch_size,通道,temporal_dim,高度,视频宽度张量,输出逻辑。我们的目标是让这个模型从摄像机中预测出一个实时流。是否有办法重复捕获32帧的固定序列,并在活流上对模型进行预测。如果预测时间超过32帧,我能像一分钟那样在更长的时间内展开这些帧吗?谢谢。
发布于 2022-04-12 15:55:41
您可以尝试使用我的库范佩乔,这符合您的需要:
安装:
pip install ffmpegio
从输入url中获取32帧的块
import ffmpegio
url = 'input stream url'
temporal_dim = 32
height = 224
width = 224
size = [width,height]
pix_fmt = 'rgb24'
with ffmpegio.open(url,'rv',blocksize=temporal_dim,s=size,pix_fmt=pix_fmt) as stream:
for frames in stream: # frames in [time,height,width,ch] ndarray
vswim_in = frames.transpose(3,0,1,2) # reorg for your library
您可以指定您想要添加的任何其他ffmpeg选项(例如,使用缩放/裁剪筛选器来生成输入帧224 as平方或输入流选项)。
警告。我还没有对实时流缓冲进行广泛的测试。如果您遇到任何问题,请在GitHub上发布一个问题。
https://stackoverflow.com/questions/71845302
复制相似问题