API 文档

视频内容识别

最近更新时间:2020-03-25 16:09:09

视频内容识别是一项使用 AI 对视频内容进行智能识别的功能。对视频执行内容识别后,执行结果将给出识别到的视频画面中的人脸、文字,以及语音中的文字。根据视频内容识别的结果,您可以准确高效地管理视频。

视频内容识别涵盖了人脸和文字,具体如下表所示。

功能名称 功能说明 用途举例
人脸识别 识别画面中出现的人脸
  • 标注明星在画面中出现的位置。
  • 排查画面中出现的敏感人物。
语音全文识别 识别语音中出现的全部文字
  • 为演讲内容生成字幕。
  • 对视频的语音内容做数据分析。
文本全文识别 识别画面中出现的全部文字 对画面中的文字做数据分析。
语音关键词识别 识别语音中存在的关键词
  • 排查语音中的敏感词。
  • 检索语音中提到的特定关键词。
文本关键词识别 识别画面中存在的关键词
  • 排查画面中的敏感词。
  • 检索画面中出现的特定关键词。

部分内容识别功能需要依赖素材库,有公共库和自定义库两种:

  • 公共库:MPS 预置的素材库。
  • 自定义库:用户自行创建和管理的素材库。
识别类型 公共库 自定义库
人脸识别 支持,素材人物主要涉及娱乐明星、体育明星和政治人物。 支持,调用 服务端 API 管理自定义人脸库。
语音单词识别 暂不支持。 支持,调用 服务端 API 管理关键词库。
文字单词识别 暂不支持。 支持,调用 服务端 API 管理关键词库。

视频内容识别模板

视频内容识别集成了多项识别功能,需要通过参数进行精细化控制,控制的目标如下:

  • 启用的识别类型:启用内容识别中的哪几项功能。
  • 使用的素材库:对于人脸识别和物体识别,使用公共库还是自定义库。
  • 指定过滤分数:人脸识别的置信度达到多少分的结果才返回。
  • 指定过滤标签:人脸的标签在什么范围内的结果才返回。

针对常见的操作组合,MPS 提供了 预置视频内容识别模板。另外,您还可以调用 服务端 API 创建和管理自定义视频内容识别模板。

任务发起

发起视频内容识别任务,有“通过 API 主动发起”和“通过上传自动触发”两种方式。

结果获取

发起视频内容识别任务后,您可以通过同步进行 查询任务 和异步等待 结果通知 两种方式获取视频内容识别任务的执行结果。

下面是发起内容识别任务后,以“查询任务”方式获取的结果示例(省略了值为 null 的字段):

{
    "TaskType":"WorkflowTask",
    "Status":"FINISH",
    "CreateTime":"2019-07-16T06:21:27Z",
    "BeginProcessTime":"2019-07-16T06:21:28Z",
    "FinishTime":"2019-07-16T06:21:46Z",
    "WorkflowTask":{
        "TaskId":"2356768367-WorkflowTask-2e1af2456351812be963e309cc133403t0",
        "Status":"FINISH",
        "InputInfo":{
            "Type":"COS",
            "CosInputInfo":{
                "Bucket":"MyVideoBucket-235303****",
                "Region":"ap-beijing",
                "Object":"/input/Ruyizhuan.mp4"
            }
        },
        "MetaData":{
            "AudioDuration":243,
            "AudioStreamSet":[
                {
                    "Bitrate":125599,
                    "Codec":"aac",
                    "SamplingRate":48000
                }
            ],
            "Bitrate":1459299,
            "Container":"mov,mp4,m4a,3gp,3g2,mj2",
            "Duration":243,
            "Height":1080,
            "Rotate":0,
            "Size":44583593,
            "VideoDuration":243,
            "VideoStreamSet":[
                {
                    "Bitrate":1333700,
                    "Codec":"h264",
                    "Fps":29,
                    "Height":1080,
                    "Width":1920
                }
            ],
            "Width":1920
        },
        "MediaProcessResultSet":[

        ],
        "AiContentReviewResultSet":[

        ],
        "AiAnalysisResultSet":[

        ],
        "AiRecognitionResultSet":[
            {
                "Type":"FaceRecognition",
                "FaceRecognitionTask":{
                    "Status":"SUCCESS",
                    "ErrCode":0,
                    "Message":"",
                    "Input":{
                        "Definition":10
                    },
                    "Output":{
                        "ResultSet":[
                            {
                                "Id":183213,
                                "Type":"Default",
                                "Name":"张三",
                                "SegmentSet":[
                                    {
                                        "StartTimeOffset":10,
                                        "EndTimeOffset":12,
                                        "Confidence":97,
                                        "AreaCoordSet":[
                                            830,
                                            783,
                                            1030,
                                            599
                                        ]
                                    },
                                    {
                                        "StartTimeOffset":12,
                                        "EndTimeOffset":14,
                                        "Confidence":97,
                                        "AreaCoordSet":[
                                            844,
                                            791,
                                            1040,
                                            614
                                        ]
                                    }
                                ]
                            },
                            {
                                "Id":236099,
                                "Type":"Default",
                                "Name":"李四",
                                "SegmentSet":[
                                    {
                                        "StartTimeOffset":120,
                                        "EndTimeOffset":122,
                                        "Confidence":96,
                                        "AreaCoordSet":[
                                            579,
                                            903,
                                            812,
                                            730
                                        ]
                                    }
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    },
    "TasksPriority":0,
    "SessionId":"",
    "SessionContext":"",
    "RequestId":"xxx-xxx-xxx"
}

回调结果中,ProcedureStateChangeEvent.AiRecognitionResultSetTypeFaceRecognition的识别结果,代表人脸识别。

TypeFaceRecognition的结果显示,Output.ResultSet中包含了两个识别出的人物,分别是张三李四SegmentSet表示人脸出现在视频中的时间段(由StartTimeOffsetEndTimeOffset确定)和在画面中的坐标(由AreaCoordSet确定)。

目录