隐秘的巨人：谈谈音乐数据库（一）

当你打开一张音乐专辑时，一定会同时获取到专辑的信息，譬如专辑名称、乐曲名称、艺术家、发行时间等。这些信息都是从哪里来的？是版权方自己提供的吗？是音乐发行方自己嵌入的吗？在这个系列中，我们就来谈谈非常重要但总是被忽略的、音乐世界的地基——音乐数据库。

编者按：《隐秘的巨人：谈谈音乐数据库》系列始于少数派会员第一季，我们在这个系列中试图揭开音乐数据库的帷幕，谈谈这个音乐帝国大厦的根基。

系列回顾：

打开这篇文章的你多半是某个音乐平台的会员——网易云音乐、QQ 音乐、Apple Music，或者 Spotify。在这些平台上，你可以随意搜索你想听到的音乐，通过你熟悉的歌手或者专辑的名字，你可以看到高清的专辑封面，这一切都很自然；如果你特别喜欢某张专辑，你也许会去豆瓣上找找乐评，只要输入同样的专辑名，就能看到结果；如果你有购买实体 CD 的习惯，在把 CD 放入光驱时，iTunes 等软件会自动跳出来，带着相应的曲目信息，这也很自然。

但是，或许你也曾察觉到一些不对劲的地方：不同的流播平台上，同一张专辑的信息有时候会有所不同，例如中文曲目的英文部分有时候是拼音，有时候是英文的翻译；豆瓣上有些专辑的封面是空白的；在光驱中插入 CD 时，有时候显示出来的曲目信息是空白或者乱码。

细微差异背后其实包含着一些大问题：这些信息都是从哪里来的？是版权方自己提供的吗？是音乐发行方自己嵌入的吗？

这些问题的答案其实相当复杂。环球、索尼这样的音乐巨头固然是大多数音乐资料的第一手提供方，但是音乐信息的「基础设施」实际上主要是一些独立的数据库构成的。这些数据库不但存储了远超单一的某一家唱片公司所拥有的音乐信息数据，也默默承担了许多对我们来说早已习以为常的工作——音乐识别、统计收听数据、匹配 CD 信息、记录音乐发行信息等等。更出乎意料的是，这些数据库中的大多数都是由用户建立并维护的，甚至许多商业音乐公司和服务需要反过来依赖它们。

本文想要介绍的正是这些平常不太容易被注意到的音乐数据库。不仅仅是因为它们的确非常的有用，也是因为它是一个如今已经罕见的仍保有早期互联网开放分享愿景的光明之所。在这些大大小小的网站、软件中，你会看到被非营利机构远远甩在身后的商业公司、完全由一个个用户录入的事无巨细的——甚至比官方的 CD 内页还要详细的专辑信息、和不求任何回报地投入了大量自己时间校对数据、扫描实体唱片、建立社区的音乐爱好者们。他们中有程序员、收藏家、听众，在几十年来来建立了任何一个商业音乐公司都没有做到的细致而通用的数据标准和内容，从世界上任何能够联网的地方都可以获取。如今，音乐数据库的内容已经远不止音乐本身的信息，而更是已经扩散到了收听数据、音乐评论、听众评分，乃至依靠大数据实现的音乐风格和情绪分析数据和衍生的二手唱片交易市场等，而这之中大多数的数据都是完全开放的，你甚至可以直接打包下载源数据。

我挑选了一些比较主流、普通用户比较容易接触和使用的数据库，除了介绍他们的主要服务和功能，我也会介绍作为音乐爱好者，我们可以如何使用它们，又如何向这些数据库作出自己的贡献。

音乐大厦的暗线：发行数据库与唱片指纹

目前，被应用最广的，也是数据量最大的音乐数据库大都属于发行数据库。这类数据库的目的是收集音乐作品相关的一切元数据（metadata），也就是音乐作品的发行时间、厂牌、地区，参与制作的人员、封面和内页图像等等信息。几乎每一个发行数据库的目标远景都是「记录地球上发行过的所有音乐作品」，当然目前也并没有谁可以达到就是了。

对于音乐爱好者来说，这些数据库不但可以帮助我们辨别手上的唱片的版本，也可以让我们通过一个客观的视角深入了解自己感兴趣的音乐作品和作者。例如，某个音乐人从出道至今都参加过哪些乐队，分别担任什么角色？我喜欢的某张唱片所属的厂牌还发行过什么作品？某张唱片在不同国家发行的版本曲目有什么区别？在主流的音乐平台上，这些信息通常很难完整获取：一些活跃时间较长的音乐人会在许多不同的厂牌乃至不同的国家发表作品，版权归属也未必相同，单一商业平台未必会完整收录；大多数流播平台基本上只以专辑为单位收录作品，而厂牌、版本、参与的乐手等信息通常都是缺失的，很难在其中按图索骥。解决这些问题就是发行数据库的专长。

需要注意的是，几乎所有开放且合法的音乐数据库都不直接保存音乐本身，因为不但涉及到显而易见的版权问题 (互联网档案馆下属的音频档案项目收集了许多已过公版期的历史录音，但就目前来看，无论是项目的目标还是规模都远远没有到「应收尽收」的程度)，音频文件的巨大体积也会给多为公益或半公益性质的数据库带来很大的压力。

AllMusic

I'd work for you, I'd slave for you
I'd be a beggar or a knave for you
If that isn't love, it will have to do
Until the real thing comes along

——《(It Will Have to Do) Until the Real Thing Comes Along》

🎵《Paper Moon》

AllMusic 是目前仍在活跃的最「古老」的音乐数据库之一，成立于 1991 年，甚至比万维网还要早，堪称互联网活化石了。Allmusic 的创立者 Michael Erlewine 自己就是一个音乐人，苦于缺少靠谱的唱片导购信息，他在 90 年代初买到了一些劣质的山寨唱片，就产生了建立一个唱片信息数据库的主意，发出了要记录「自 Enrico Caruso 以来世界上发行的所有音乐」(Caruso 是最初黑胶唱片得以流行的一大助力) 的豪言。

Erlewine 在 1992 年以《完全音乐指南：最佳 CD、专辑和磁带：包含全部风格几千位艺术家的最佳作品的专家指南》（All Music Guide: The Best CDs, Albums & Tapes: The Expert's Guide to the Best Releases from Thousands of Artists in All Types of Music）为题以实体书和 CD-R 的形式发布了第一版成果，并在 1994 年以 Gopher 站点（注：Gopher 是一种早于万维网的网络协议，使用多层级菜单的形式来组织内容，目前已被事实淘汰）形式发布了在线版。在最早期的时候，AllMusic 就建立了多达 1400 个音乐流派和子流派条目，把音乐专辑分门别类。2016 年 Tedium 网站上的一篇文章中写道：「（AllMusic）不仅记录乐评专辑信息，它还会记录音乐的风格、流派和细分流派，甚至包括音乐的曲调和它们销售的平台。所有这些数据都被链接在一起，以一种智能的方式为你提供关于一个音乐类型的全部知识，无论是『古典音乐』这样的大流派还是『悲伤核』这样的冷门流派」。

从 AllMusic 的缘起也可以看出，它最大的目的是导购，通过海量的数据（那时候还没有「大数据」这个词）建立音乐作品的脉络，帮助消费者找到想要的唱片。早在 1999 年，AllMusic 的团队就扩张到了 100 人，数据库中容纳了 35 万张专辑和超过两百万首曲目，还有数以万记的音乐人介绍、碟评等内容。在大数据智能推荐还远远没有出现的 20 世纪末，在一个网站里任意输入一个音乐人、专辑或者流派，就可以看到精心写就的介绍文字，甚至还有相关内容的网状推荐，这不能不说是一种魔法般的体验。

2003 年 AllMusic 网站上的「送礼指南」版块，按不同年龄、不同音乐口味有着非常详尽的分类

AllMusic 的网站虽然向来都可以公开访问，但它也一直是一个以盈利为导向的项目。在 2010 年之前，AllMusic 先后针对各个不同的音乐流派出版了十余种导购指南。而到了 Web2.0 时代，它则转向了直接使用数据授权的方式来创造价值。2007 年，AllMusic 被 Macrovision（现在叫 TiVo）公司收购，向音乐相关的企业和平台提供 AllMusic 数据库的商业授权，客户包括 AT&T、CBS、Google、三星、松下等媒体和消费电子巨头。目前，AllMusic 的数据库归属于 TiVo 集团，而网站本身属于「All Media Network」实体，旗下还有 AllMovie、SideReel 等面向电视、电影等内容的其它多媒体数据服务。

各位或许到现在也能看出，AllMusic 其实并不是一个非常「开放」的数据库，这也是它和本文之后会介绍的其它主流数据库不同的一点。AllMusic 采用的是一种更加「精英」的数据整理方式，它从一开始就雇佣了大量专业的作者、乐评人来撰写介绍和评论文案，普通用户也无法直接向它的数据库中添加条目。

这样的好处是，AllMusic 的数据库质量很高，不但拥有许多独家的介绍和评论内容，而且由于大多数数据都直接从版权方获得（目前，在 AllMusic 添加条目需要版权方通过 TiVo 来申请），内容的错漏也更少。对于消费者来说，这意味着在 AllMusic 上看到的资料更加专业可靠，很少会看到别的数据库中常见的「只有个题目其它啥都没有」的现象，还有丰富的编辑精选和模块化推荐；对于需要音乐相关数据的企业客户来说，AllMusic 可以提供高质量的包括发行信息、简介和评论的全套音乐相关数据，无论是用作搜索匹配还是个性化推荐都非常实用。这样的运作方式也并非没有缺点，更依赖版权方的数据获取方式使得 AllMusic 上小语种的、独立发行的、较为稀有的音乐内容有更多的空缺，而这些内容恰恰是作为文化保育者的音乐数据库中最为「珍贵」的部分；此外，由于其盈利的性质，虽然 AllMusic 的大多数内容都可以免费浏览，但是如果要对原始数据进行进一步的分析和使用限制就比较多了，假设 All Media Network 在未来倒闭，那么这些数据将何去何从就不是用户可以控制的了。

作为音乐数据库的先行者，AllMusic 纯商业导向的音乐媒体和依赖用户贡献的开源数据库之间找到了自己独特的站位，在将近 30 年的时间里为全球的音乐爱好者提供了可靠的服务和宝贵的资料。

那么，作为音乐爱好者，我们今天可以如何使用 AllMusic？

你可能是第一次听说 AllMusic，不过大多数的读者对豆瓣网应该并不陌生。注册了 AllMusic 帐号之后，你可以像使用豆瓣一样对自己喜欢的、听过的音乐进行标记，或撰写评论。随着你的使用，Allmusic 也会根据你的标记学习你的收听喜好，推送你关注的艺术家的最新动态，并为你提供个性化的推荐。

在 AllMusic 上，无论是流派、乐队还是专辑，你都可以看到许多独家的介绍文本，专业且详尽，被许多网友称为「学院派风格」，这对于发掘新的音乐，了解一些新的知识非常有用。AllMusic 还会为每一个音乐人或乐队列出与之相关的其他音乐人。单纯说「相关」过于糢糊，例如 Beatles 这样成名已久的元老级乐队，和它相关相似的音乐人恐怕要数以千记。因此，AllMusic 把这个版块分为「相似（Similar To）」、「受影响的前人（Influenced By）」、「被影响的后人（Followed By）」和「有直接联系（Associated With）」这四类。对于相对冷门的乐队，例如我很喜欢的法国双人组合 Natural Snow Buildings，你可以在这个页面看到数十个相似的音乐人的推荐，以及与之直接相关的两个音乐计划——分别是组合的两个成员各自的单人计划。

而对于更有名、影响力更大的乐队，例如 Pink Floyd，这个版块就可以说是出离丰富了。从它的「受影响」部分中，你可以看到 Sun Ra 这样的先锋爵士音乐家、Bob Dylan 这样横跨民谣和摇滚的精神领袖，也可以看到威廉・巴勒斯这样的全栈当代艺术大师。从任何一个起点开始顺藤摸瓜，你都可以对相关的整个音乐谱系建立你自己的认知。对于任何一个想要按图索骥了解音乐源流的听众，这无疑都是一个不可多得的宝库。而这样的数据组织方式，必然需要建立在经年累月的专业作者的整理之上，是当今的算法远远做不到的。

对我个人而言，AllMusic 最有价值的就是他们的专业编辑团队。这一点有些类似 Apple Music 和 Spotify 之间的区别，用过这两家服务的读者应该知道，Apple Music 的算法智能推荐其实是公认的弱于 Spotify 以及大多数其它主流的音乐流播服务的，但是它的「愚蠢推荐」却相当地好——Apple Music 中有大量由专业编辑人工挑选的歌单，质量上乘，时有惊喜。音乐并非效率工具，由大数据识别出来的你的收听习惯制造出来的「舒适圈」非但未必能让你听到更多更好的音乐，许多时候甚至是艺术之敌：把你淹没在越来越多更像，而非更好，的音乐之中。今天的人工智能还远远不能判断什么是「好音乐」，而只能由「A 和 B 更像」、「C 和 D 都符合某一组标签」这样的逻辑判断来进行，而这和音乐本身的好坏并无直接关系，对于相对冷门的内容就更加乏力了。而这就是「人」介入的必要性，如果你想要成为一个更好、更深刻的听者，有比你品位更好的编辑来为你灌输「舒适圈」之外的、不那么习惯的音乐是绝对必要的。而这就是 AllMusic 最宝贵的，也是最独特的地方，它并非向后文介绍的一些其它的数据库一样仅由冰冷的客观数据组成，而是以一种音乐杂志式的数据库的形式在客观信息和人的智慧之间找到了一个平衡。