元数据(MetaData)

元数据是用来描述数据的数据(Data that describes other data)。单单这样说,不太好理解,我来举个例子。

下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子:

(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!

这段话里提供了这样几个信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑)。有了这些信息,我们就可以大致想像出瓦莲卡是个什么样的人。推而广之,只要提供这几类的信息,我们也可以推测出其他人的样子。

这个例子中的"年龄"、"身高"、"相貌"、"性格",就是元数据,因为它们是用来描述具体数据/信息的数据/信息。

当然,这几个元数据用来刻画个人状况还不够精确。我们每个人从小到大,都填过《个人情况登记表》之类的东西吧,其中包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等......这一套元数据才算比较完备。

在日常生活中,元数据无所不在。有一类事物,就可以定义一套元数据。

喜欢拍摄数码照片的朋友应该知道,每张数码照片都包含EXIF信息。它就是一种用来描述数码图片的元数据。按照Exif 2.1标准,其中主要包含这样一些信息:

Image Description 图像描述、来源. 指生成图像的工具 Artist 作者 有些相机可以输入使用者的名字 Make 生产者 指产品生产厂家 Model 型号 指设备型号 Orientation方向 有的相机支持,有的不支持 XResolution/YResolution X/Y方向分辨率 本栏目已有专门条目解释此问题。 ResolutionUnit分辨率单位 一般为PPI Software软件 显示固件Firmware版本 DateTime日期和时间 YCbCrPositioning 色相定位 ExifOffsetExif信息位置,定义Exif在信息在文件中的写入,有些软件不显示。 ExposureTime 曝光时间 即快门速度 FNumber光圈系数 ExposureProgram曝光程序 指程序式自动曝光的设置,各相机不同,可能是Sutter Priority(快门优先)、Aperture Priority(快门优先)等等。 ISO speed ratings感光度 ExifVersionExif版本 DateTimeOriginal创建时间 DateTimeDigitized数字化时间 ComponentsConfiguration图像构造(多指色彩组合方案) CompressedBitsPerPixel(BPP)压缩时每像素色彩位 指压缩程度 ExposureBiasValue曝光补偿。 MaxApertureValue最大光圈 MeteringMode测光方式, 平均式测光、中央重点测光、点测光等。 Lightsource光源 指白平衡设置 Flash是否使用闪光灯。 FocalLength焦距,一般显示镜头物理焦距,有些软件可以定义一个系数,从而显示相当于35mm相机的焦距 MakerNote(User Comment)作者标记、说明、记录 FlashPixVersionFlashPix版本 (个别机型支持) ColorSpace色域、色彩空间 ExifImageWidth(Pixel X Dimension)图像宽度 指横向像素数 ExifImageLength(Pixel Y Dimension)图像高度 指纵向像素数 Interoperability IFD通用性扩展项定义指针 和TIFF文件相关,具体含义不详 FileSource源文件 Compression压缩比。

我再举一个例子。在电影数据库IMDB上可以查到每一部电影的信息。IMDB本身也定义了一套元数据,用来描述每一部电影。下面是它的一级元数据,每一级下面又列出了二级元数据,总共加起来,可以从100多个方面刻画一部电影:

Cast and Crew(演职人员)、Company Credits(相关公司)、Basic Data(基本情况)、Plot & Quotes(情节和引语)、Fun Stuff(趣味信息)、Links to Other Sites(外部链接)、Box Office and Business(票房和商业开发)、Technical Info(技术信息)、Literature(书面内容)、Other Data(其他信息)。

元数据最大的好处是,它使信息的描述和分类可以实现格式化,从而为机器处理创造了可能。

(完)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Crossin的编程教室

Python有嘻哈:Crossin教你用代码写出押韵的verse

托某奇艺选秀节目的福,“嘻哈”无疑是这个夏天最热的音乐标签。年初的时候,我们教室实习生小D还是网易云上一只忧郁的民谣狗(参见 数据分析:当赵雷唱民谣时他唱些什么...

3617
来自专栏域名资讯

百度领投所问数据 组合域名获千万融资

百度风投领投,跟投方为南天盈富泰克、首建投所问数据3500万人民币完成A轮融资。本轮融资后,所问将通过百度风投的增值服务,建立与百度在AI技术上的合作。

420
来自专栏2018

刚刚购买的云服务-MySQL

不错支持贴屏!!!还要求不能少于140个字符?这?已经测试过金山云了。看看这次的腾讯云如何?

2145
来自专栏腾讯数据中心

数据中心专用术语词典首发!破译圈内暗语

随着互联网数据中心的蓬勃发展,IDC相关的讯息也呈几何级喷发。不胜枚举的行业术语、不拘一格的表达方式,对传递数据中心相关信息的影响已不可小觑。本文可以帮助大家更...

7684
来自专栏机器人网

干货教程:教你DIY一个萌蠢可爱的机器鸟

这个名叫RoboBrrd的鸟形机器人项目来自RobotGrrl,原文发布于Makezine。Makezine对本项目的难度评级为“适中”,制造耗时估计在3-20...

3456
来自专栏IT大咖说

一年一度的每周5晚程序员段子又来了

程序员设计的版本号,一般会从1.0开始,然后,1.1、1.2、1.3……1.9,接下来的版本号会是1.10、1.11、1.12……于是有一天,在你的面前放着1....

802
来自专栏机器人网

【干货】详解自动化机械臂维修&保养

自动化机械手可能会产生故障的原因:由于机械手衔接部位大大都是螺丝固定,可能会因为长时间震动形成螺丝松动松脱而形成机械手散架,部件的衔接块断裂等。另一方面机械手震...

3777
来自专栏VRPinea

Magic Leap One拆机报告:图文一览其设备细节与技术特点

iFixit是美国的一家著名的拆解网站。一旦有新的时尚IT产品出现,iFixit都不会错过,并会于不久后推出相关的拆解报告。于本月初登陆市场的Magic Lea...

2035
来自专栏机器学习和数学

自然语言处理 | 使用Spacy 进行自然语言处理

Spacy的github地址:https://github.com/explosion/spaCy

1972
来自专栏闻道于事

html导出pdf的四种方式

将html页面导出为pdf文件并打印,可以直接在windows下使用Ctrl + P,苹果下⌘ + P。

8845

扫码关注云+社区

领取腾讯云代金券