文档中心>媒体处理

视频内容识别

最近更新时间:2024-07-29 11:25:31

我的收藏
视频内容识别是一项使用 AI 对视频内容进行智能识别的功能。对视频执行内容识别后,执行结果将给出识别到的视频画面中的文字,以及语音中的文字。根据视频内容识别的结果,您可以准确高效地管理视频。
视频内容识别涵盖了语音和文字,具体如下表所示。
功能名称
功能说明
用途举例
语音全文识别
识别语音中出现的全部文字
为演讲内容生成字幕。
对视频的语音内容做数据分析。
文本全文识别
识别画面中出现的全部文字
对画面中的文字做数据分析。
语音关键词识别
识别语音中存在的关键词
排查语音中的敏感词。
检索语音中提到的特定关键词。
文本关键词识别
识别画面中存在的关键词
排查画面中的敏感词。
检索画面中出现的特定关键词。
部分内容识别功能需要依赖素材库,有公共库和自定义库两种:
公共库:MPS 预置的素材库。
自定义库:用户自行创建和管理的素材库。
识别类型
公共库
自定义库
语音单词识别
暂不支持
支持,调用 服务端 API 管理关键词库。
文字单词识别
暂不支持
支持,调用 服务端 API 管理关键词库。

视频内容识别模板

视频内容识别集成了多项识别功能,需要通过参数进行精细化控制,控制的目标如下:
启用的识别类型:启用内容识别中的哪几项功能。
使用的素材库:对于智能识别,使用公共库还是自定义库。
指定过滤分数:智能识别识别的置信度达到多少分的结果才返回。
指定过滤标签:智能识别的标签在什么范围内的结果才返回。
针对常见的操作组合,MPS 提供了 预置视频内容识别模板。另外,您还可以调用 服务端 API 创建和管理自定义视频内容识别模板。

任务发起

发起视频内容识别任务,有“通过 API 主动发起”和“通过上传自动触发”两种方式。
通过 API 主动发起:调用 发起媒体处理 接口,请求中的AiRecognitionTask参数指定 视频内容识别模板 的模板 ID。
通过上传自动触发:在控制台 创建工作流 并开启内容识别,然后向工作流绑定的触发目录上传视频。

结果获取

发起视频内容识别任务后,您可以通过同步进行 查询任务 和异步等待 结果通知 两种方式获取视频内容识别任务的执行结果。
下面是发起内容识别任务后,以“查询任务”方式获取的结果示例(省略了值为 null 的字段):
{
"TaskType":"WorkflowTask",
"Status":"FINISH",
"CreateTime":"2019-07-16T06:21:27Z",
"BeginProcessTime":"2019-07-16T06:21:28Z",
"FinishTime":"2019-07-16T06:21:46Z",
"WorkflowTask":{
"TaskId":"2356768367-WorkflowTask-2e1af2456351812be963e309cc133403t0",
"Status":"FINISH",
"InputInfo":{
"Type":"COS",
"CosInputInfo":{
"Bucket":"MyVideoBucket-235303****",
"Region":"ap-beijing",
"Object":"/input/Ruyizhuan.mp4"
}
},
"MetaData":{
"AudioDuration":243,
"AudioStreamSet":[
{
"Bitrate":125599,
"Codec":"aac",
"SamplingRate":48000
}
],
"Bitrate":1459299,
"Container":"mov,mp4,m4a,3gp,3g2,mj2",
"Duration":243,
"Height":1080,
"Rotate":0,
"Size":44583593,
"VideoDuration":243,
"VideoStreamSet":[
{
"Bitrate":1333700,
"Codec":"h264",
"Fps":29,
"Height":1080,
"Width":1920
}
],
"Width":1920
},
"MediaProcessResultSet":[

],
"AiContentReviewResultSet":[

],
"AiAnalysisResultSet":[

],
"AiRecognitionResultSet":[
{
"Type":"FaceRecognition",
"FaceRecognitionTask":{
"Status":"SUCCESS",
"ErrCode":0,
"Message":"",
"Input":{
"Definition":10
},
"Output":{
"ResultSet":[
{
"Id":183213,
"Type":"Default",
"Name":"张三",
"SegmentSet":[
{
"StartTimeOffset":10,
"EndTimeOffset":12,
"Confidence":97,
"AreaCoordSet":[
830,
783,
1030,
599
]
},
{
"StartTimeOffset":12,
"EndTimeOffset":14,
"Confidence":97,
"AreaCoordSet":[
844,
791,
1040,
614
]
}
]
},
{
"Id":236099,
"Type":"Default",
"Name":"李四",
"SegmentSet":[
{
"StartTimeOffset":120,
"EndTimeOffset":122,
"Confidence":96,
"AreaCoordSet":[
579,
903,
812,
730
]
}
]
}
]
}
}
}
]
},
"TasksPriority":0,
"SessionId":"",
"SessionContext":"",
"RequestId":"xxx-xxx-xxx"
}
回调结果中,ProcedureStateChangeEvent.AiRecognitionResultSetTypeFaceRecognition的识别结果,代表人脸识别。
TypeFaceRecognition的结果显示,Output.ResultSet中包含了两个识别出的人物,分别是张三李四SegmentSet表示人脸出现在视频中的时间段(由StartTimeOffsetEndTimeOffset确定)和在画面中的坐标(由AreaCoordSet确定)。