隐秘的巨人：谈谈音乐数据库（一）

打开这篇文章的你多半是某个音乐平台的会员——网易云音乐、QQ 音乐、Apple Music，或者 Spotify。在这些平台上，你可以随意搜索你想听到的音乐，通过你熟悉的歌手或者专辑的名字，你可以看到高清的专辑封面，这一切都很自然；如果你特别喜欢某张专辑，你也许会去豆瓣上找找乐评，只要输入同样的专辑名，就能看到结果；如果你有购买实体 CD 的习惯，在把 CD 放入光驱时，iTunes 等软件会自动跳出来，带着相应的曲目信息，这也很自然。

但是，或许你也曾察觉到一些不对劲的地方：不同的流播平台上，同一张专辑的信息有时候会有所不同，例如中文曲目的英文部分有时候是拼音，有时候是英文的翻译；豆瓣上有些专辑的封面是空白的；在光驱中插入 CD 时，有时候显示出来的曲目信息是空白或者乱码。

细微差异背后其实包含着一些大问题：这些信息都是从哪里来的？是版权方自己提供的吗？是音乐发行方自己嵌入的吗？

这些问题的答案其实相当复杂。环球、索尼这样的音乐巨头固然是大多数音乐资料的第一手提供方，但是音乐信息的「基础设施」实际上主要是一些独立的数据库构成的。这些数据库不但存储了远超单一的某一家唱片公司所拥有的音乐信息数据，也默默承担了许多对我们来说早已习以为常的工作——音乐识别、统计收听数据、匹配 CD 信息、记录音乐发行信息等等。更出乎意料的是，这些数据库中的大多数都是由用户建立并维护的，甚至许多商业音乐公司和服务需要反过来依赖它们。

本文想要介绍的正是这些平常不太容易被注意到的音乐数据库。不仅仅是因为它们的确非常的有用，也是因为它是一个如今已经罕见的仍保有早期互联网开放分享愿景的光明之所。在这些大大小小的网站、软件中，你会看到被非营利机构远远甩在身后的商业公司、完全由一个个用户录入的事无巨细的——甚至比官方的 CD 内页还要详细的专辑信息、和不求任何回报地投入了大量自己时间校对数据、扫描实体唱片、建立社区的音乐爱好者们。他们中有程序员、收藏家、听众，在几十年来来建立了任何一个商业音乐公司都没有做到的细致而通用的数据标准和内容，从世界上任何能够联网的地方都可以获取。

如今，音乐数据库的内容已经远不止音乐本身的信息，而更是已经扩散到了收听数据、音乐评论、听众评分，乃至依靠大数据实现的音乐风格和情绪分析数据和衍生的二手唱片交易市场等，而这之中大多数的数据都是完全开放的，你甚至可以直接打包下载源数据。

我挑选了一些比较主流、普通用户比较容易接触和使用的数据库，除了介绍他们的主要服务和功能，我也会介绍作为音乐爱好者，我们可以如何使用它们，又如何向这些数据库作出自己的贡献。

音乐大厦的暗线：发行数据库与唱片指纹

目前，被应用最广的，也是数据量最大的音乐数据库大都属于发行数据库。这类数据库的目的是收集音乐作品相关的一切元数据（metadata），也就是音乐作品的发行时间、厂牌、地区，参与制作的人员、封面和内页图像等等信息。几乎每一个发行数据库的目标远景都是「记录地球上发行过的所有音乐作品」，当然目前也并没有谁可以达到就是了。

对于音乐爱好者来说，这些数据库不但可以帮助我们辨别手上的唱片的版本，也可以让我们通过一个客观的视角深入了解自己感兴趣的音乐作品和作者。例如，某个音乐人从出道至今都参加过哪些乐队，分别担任什么角色？我喜欢的某张唱片所属的厂牌还发行过什么作品？某张唱片在不同国家发行的版本曲目有什么区别？