微软的影片索引器服务(Video Indexer)以多模态主题推理(Multi-modal Topic Inferencing),为使用者提供更直觉的影片分类方法,还能优化其内容探索功能。微软提到,由于影片索引器可以理解媒体中的内部关系,因此比手动标记影片内容更加高效且低成本。大型媒体服务常会面临媒体内容管理的问题,而且要对媒体进行内容探索,也会因规模的关系变得更加困难,虽然将影片按主题分类是一个好方法,但是内容分类是需要演绎推理的,影片中不一定会明确的显示,微软举例,像是医疗保健相关的影片,内容并不一定会出现医疗保健这个词。有不少企业转而手动标记内容,但微软表示,手动不只成本高昂且耗时,容易发生错误并且无法有效扩展。为了解决这个问题,微软在其影片索引器加入了多模态主题推理,该功能使用跨频道模型,索引媒体内容以自动推理主题。该模型会将影片概念投影到3个本体(Ontology),并以3大讯号包含转译影片语音还有字幕OCR的文本,以及对影片进行名人人脸辨识结果,来推论影片主题。
影片索引器用于推理影片主题的本体包括IPTC、百科和影片索引器分层主题。IPTC本体在媒体企业中很受欢迎,提供超过1,100个术语的媒体主题分类。而百科的170万个类别,也可用作主题卷标,优点是这些类别受到良好的维护,主题与文章采用的类图连结,使其成为一种高解析的本体。影片索引器分层主题本体则是一个最大深度为3层,拥有超过2万条目的专有的分层本体。影片索引器过去使用关键词萃取模型,强调经转译与字幕OCR的重要词汇,微软以Build 2018开发人员大会的开幕主题演讲为例,透过萃取关键词索引主题,会出现网页开发、单词嵌入、无服务器运算等关键词。微软提到,关键词萃取与主题推理模型最大的差异在于,关键词是影片中明确提到的术语,而主题是推论出来的,像是使用知识图透过(Knowledge Graph)汇整相似的概念,以推论出高阶内隐概念。
影片索引器应用两个模型来萃取主题,第一个是深度神经网络,根据大型专有数据集,直接对原始文本进行评分和排名,该模型会将影片转译文本,映像至影片索引器本体与IPTC。第二个模型则是对影片中提到的命名实体,使用光谱图算法(Spectral Graph Algorithms),该算法利用经辨识名人的百科ID,以及OCR和翻译文本的讯号。
由于这两类讯号分属结构化和非结构化的数据,因此微软使用ELIS(Entity Linking Intelligent Service)会在自由格式文本中识别命名实体,将非结构化数据转成结构化,以便之后能完全利用结构化数据进行主题撷取。微软利用百科页面实体的相似度,以及从影片页面撷取到的不同概念,建置出图,并在最后阶段,根据后验机率(Posteriori Probability)排名百科类别,以找出适合的主题。更多相关IT信息:胜博发爱心公益