从出现到扩散:社会实践视角下的数据新闻
发布时间:2020-08-11 15:24:12 点击次数:262
自“维基解密”事件报道开始,数据新闻作为一种新闻报道形式创新进入到新闻界的实践话语之中。然而,作为一种社会实践,数据新闻究竟是如何发生的?本文尝试将数据新闻放置到其产生的社会情境中,去考察新闻业求生的创新尝试、政府处理信息开放时的逻辑、开源软件对技术壁垒的消解、编辑部里人员结构的重组以及实践的全球扩散等,这些貌似联系松散的行动者们是如何交织成独特的网络,一起完成对数据新闻这项社会实践的制造的。
关键词:数据新闻;精确新闻;政府信息分开;慕课;
【本文提要】自“维基解密”事件报道开始,数据新闻作为一种新闻报道形式创新进入到新闻界的实践话语之中。然而,作为一种社会实践,数据新闻究竟是如何发生的?本文尝试将数据新闻放置到其产生的社会情境中,去考察新闻业求生的创新尝试、政府处理信息开放时的逻辑、开源软件对技术壁垒的消解、编辑部里人员结构的重组以及实践的全球扩散等,这些貌似联系松散的行动者们是如何交织成独特的网络,一起完成对数据新闻这项社会实践的制造的。
【关键词】数据新闻;精确新闻;政府信息分开;慕课
【作者简介】钱进系上海外国语大学中国国际舆情研究中心助理研究员;周俊系上海外国语大学新闻与传播学院研究生。
【基金项目】本文是教育部人文社科青年基金项目《当代驻华外国记者职业共同体研究——一项基于“局内人”视角的考察》(项目号:13YJC860027)的系列成果,同时也受到 “上海外国语大学青年教师教学科研培育计划”(编号:QJTD13WY002)资助。
【中图分类号】G210
2010年7月26日,“维基解密”在《纽约时报》《卫报》和《明镜周刊》的配合下,在网上以9.2201万行数据的形式,公开美军在阿富汗重大军事行动的细目。同年10月,伊拉克战争记录被曝光,39多万份数据进入公众视野。对于新闻从业者来说,从如此大量数据中挖掘有价值的新闻故事,并以一种受众可接受的方式去呈现,这已经跨越传统新闻实践所触及的领域。也正是从“维基解密”事件开始,数据新闻作为一个概念进入媒体日常的话语之中。
数据新闻并非一种独立超然的存在,将其抽离出社会语境做孤立的考察,是很难理解其作为一种社会实践,为何在这个独特的时间和空间下产生。要想揭示围绕着这种社会实践所产生的复杂关系,在对象化考察主体时,需要有一种更具拓展性和包容性的思维,即跨越主体本身,去其所坐落的社会情境中,还原与主体相关的行动者以及它们之间的联系。对于数据新闻来说,这就意味着要对如下问题进行辨析:数据新闻作为一种社会实践是在怎样的背景下发生的?它本身所具有的信息和技术双重属性又如何驱使政府、科技公司以及新闻业几方围绕其展开角力?当数据新闻作为一种实践跨越其产生的欧美语境在全球铺展开时,这一扩散过程是如何完成的?实践在全球的传递中又如何改变着数据新闻自身?
新闻业的危机与新媒体实践的困境
要讨论数据新闻的产生,自然无法绕开对其与所植根的新闻业之前关系的考察。
正如Leonard Downie Jr. 和Michael Schudson在《重塑美国新闻业》中指出的那样,支撑传统媒体正常运转的商业模式,即广告和付费购买体系正在迅速坍塌。如何继续生存便是摆在整个新闻业面前的首要问题。整个行业在互联网环境下对新商业模式寻找的冲动也就不难理解。①
控制渠道,如版面、波段以及频道是传统新闻业确立自己在信息市场中独特性位置的基点,也是其整个新闻实践逻辑的起点。互联网恰恰颠覆了这个基础。如果说在早期网页新闻时代,新闻业所感到的是信息渠道多元化对其信息权威形成挑战,而在移动互联网的当下,它们必须面对无法接触到受众的可能。以移动APP为例,苹果公司不仅从与其合作的媒体APP在iOS平台上获得的盈利上抽取30%,它还独家占有非常重要的订户个人信息数据,且不与媒体共享。②在APP中出现的广告,苹果公司也有类似的安排。③
显然,掌握了渠道的科技公司重新设定了商业规则。在新的逻辑下,新闻业需要接受来自渠道控制者的各种安排,如新闻APP中内容布局的安排、多媒体元素的插入方式以及广告的摆放位置等。而在微信公众订阅号的实践中,新闻业不仅丧失对受众信息的掌控,而且对于自己所生产的内容也面临着来自腾讯的干涉。当然,也有新闻媒体尝试构建自己的社会化媒体平台,如新民网运营的“上海滩”微博平台等,但都未能具有新浪微博一样的规模。可以说,新闻业要在新媒体渠道之内重构自己的渠道优势困难重重。
与重新架构新媒体渠道这样难度较高的任务相比,在新闻内容生产方面与新媒体相结合进行实践创新,对于新闻业来说恐怕有着更多的把握和基础。数据新闻便为其在新闻报道实践维度寻求突破提供了一种想象的可能。
数据新闻进入新闻业视野当然离不开所谓“大数据”的外部话语环境,更重要的是这个概念本身之于新闻从业者的亲近性,而这就要追溯至精确新闻报道——一个有着近四十多年历史的新闻报道形式。
精确新闻的创始人菲利普·迈耶(Philip Meyer)认为精确新闻报道是一种侧重采用抽样检测、数据分析等手段,对社会现象进行精密的分析、加工,使公众从一般事件中看出其潜在意义的报道方式。④从20世纪90年代中期开始随着互联网和相关计算统计软件的出现,从事精确新闻报道的记者能更便捷地获取、存储、分析处理及制作和发送信息。也正是因为这样的演进历史,即精确新闻向旨在“通过反复抓取、筛选和重组来深度挖掘数据并最终合成新闻故事” ⑤的数据新闻的过渡,对新闻从业者们来说,也就不那么突兀。
数据新闻也与调查性新闻报道有着一定的相似,即强调通过对数据(对后者来说是事实)的分析来挖掘现象背后意义,这恰恰承载着新闻业在社会化媒体时代重塑其权威的期望。
在Twitter、新浪微博以及即时通讯软件渗透到日常生活中之后,这些后大众媒介时代所涌现出的工具逐步展示其社会化功能,即作为一种灵敏的触角(sensor),迅速洞悉、记录并传递社会的变化。曾经作为新闻业维系其自身信息权威的硬新闻,也逐渐被社会化媒介上流通的各类信息颠覆其统治性地位。然而,社会化媒体的繁荣带来消息来源极大丰富与活跃的同时,也造成诸如信息过载和寻找准确信息成本增高等问题。对这些信息进行挖掘、分类、整理以及分析的需求亦变得极为迫切。一定程度上说,旨在对事件进行深入分析与报道的调查性新闻报道,与这样的需求存在一定的契合。采用众筹模式的De Correspondent项目的初衷就是在互联网新闻时代提供高质量的调查性新闻报道。故而,在社会化媒体冲击下,新闻业也重新发现调查性新闻报道的价值,即填补由于收缩硬新闻业务而可能造成的信息权威真空。数据新闻所强调的是通过分析不断变动的数据,以找到其中意义结构,并让受众了解哪些信息对他们具有重要性和相关性。这也使它与调查性新闻报道产生一种天然的黏性,故而一并被纳入新闻业新媒体实践创新的话语之中。
数据开放中的政治
作为数据新闻重要的数据来源之一,开放数据的出现与开放政府概念有着密切联系。开放政府并非一个全新的理念,它最早可追溯至启蒙时期,知识界关于民主政府是否取消国家秘密存在的论辩。⑥自此之后,关于政府是否公开与其内部运作相关信息以及公开的程度,便成为各方在政府透明度方面讨论的关键所在。一系列信息公开法案的颁布,也进一步确保公民的知情权,如美国在1966年通过《信息自由法案》,丹麦、法国、日本和德国等国也先后通过类似法案。维基解密事件的发生,促使各国政府重新思考在互联网的开放性语境下,如何实践信息透明。⑦开放数据,便是尝试开放政府与互联网开源相结合的一个契机。
政府部门掌握涉及财政预算、教育、环保、居民消费和法律等领域的海量数据。无论是从社会公益还是商业应用方面看,这些数据都具有极高的再分析发掘价值。但在对数据做任何处理前,首先必须“解放数据”。⑧所谓“解放数据”,就是将这些分散在不同政府部门的数据汇聚起来,让公众以便利的方式获取这些数据。从全球范围来看,建立统一的政府开放数据门户,集中开放可加工的数据集是各国数据门户网站的一个普遍做法。⑨
将那些本是孤立存在于政府各部门电脑中的数据上传至网络并非数据开放的全部,选择以何种形式提供这些数据则是其中关键的一步。这也是新闻业与政府在数据开放问题上产生矛盾最多之处。对于新闻业来说,在督促政府开放何种数据议题上,它们有着丰富的经验。然而数据如何开放,则涉及一系列的技术性问题。在新闻业看来,政府可以利用这些技术制造壁垒,来控制数据的开放。例如,对这些数据进行收费、数据库的查询功能只面向注册用户、使用专有技术对数据进行编码、加密导致数据读取困难以及限制数据的再次利用等。在这些可能的技术壁垒中,存在争议较多的便是开放数据的格式问题。
对于从业者来说,政府所开放的数据并非都可以直接利用到新闻报道中。对这些数据进行筛选、梳理、加工和分析,则是他们日常工作中更多需要面对的内容。故而,数据通常需要在不同软件应用中被导入和导出。政府所开放数据的格式是否具有兼容性则将直接影响到记者们的工作效率。在政府所公开的数据文件中,PDF是常见的存储数据和图表的文档格式。这种文件格式存在的最大问题在于数据的不可提取性。这导致的直接后果便是记者们需耗费大量时间和费用对这些文件中的数据进行提取和转换,或是利用第三方软件,抑或是通过人工转录,才能使得这些数据转化成能被软件读取的数据。故而,提供难以读取的数据也就成为政府在某些情境下拖延和阻碍数据公开所采用的手段。
2013年5月阿根廷《国家报》与三个NGO组织合作开发了一款基于网页的官员财产数据可视化应用 “Declaraciones Juradas Abiertas”(“开放公示声明”)。该应用包括了来自800位政府官员的1540份财产公示声明,总统和她的内阁、立法委员、大法官的申报信息都在其中。数据团队从政府部门收到的信息公开文档材料几乎全为纸质版的财产声明。每份财产声明大概有6页左右,需要审核的文件大约共有1万页。该团队与所招募的30多名志愿者一起,进行为期6天的“马拉松”式文档录入与核对,从而才将1500条声明转为3万列的数据。⑩
因此,作为数据新闻对象的数据并非其所呈现的那样具有超然的客观存在。数据背后所隐藏的权力关系和利益分割,使得政府和新闻业围绕着数据的生产和散播展开博弈。
开源软件背后的逻辑
大量的数据产生后,从业者们面临的直接问题便是如何处理这些数据?通常的软件需要昂贵的购买费用,有些软件还会捆绑硬件或软件操作系统,即只有通过购买指定的设备才能运行这些软件。如最早的电子数据表格软件VisiCalc最初只能在苹果的Apple II电脑上运行,且软件的费用达到250美元。[11]因此通常是记者所在的新闻机构才有能力购买这些软件。对于规模较小的新闻机构,购买软件的昂贵费用给他们的财务状况可能带来的压力使得它们不得不放弃利用此类工具来辅助新闻报道。至于独立记者或是自由撰稿人,更是无力承担此类软件的费用。
开源(open source)理念的兴起改变了这一固化的生态。作为一种开放式的合作机制,开源提倡在产品开发设计时摈弃版权壁垒,以及允许任何人在后期对产品的设计进行修改。[12]通常意义上的开源多指计算机程序的代码向公众免费公开,基于这些开放的代码,公众可以做后续的开发。
开源软件的出现和普及使数据新闻被新闻界接受提供技术上的可能。与此同时,尽管它打破了商业软件的封闭和收费逻辑,但在免费和开放背后依然有着商业公司的影子。如被从事数据新闻记者们广为采用的Open Refine在其发展的早期,一直得到谷歌的技术支持。谷歌的工程师为软件撰写基本框架代码和示范性应用,从而吸引志愿开发者加入到后续功能的开发和完善。软件的更新和完善又会被谷歌用来优化其自身的搜索技术。[13]
编辑部里的重组
随着数据新闻作为新媒体实践的一种被新闻业所接受,数据新闻新的生产流程和大量工具软件便不断被引入到日常的新闻采集工作中,而正进行新媒体转型的编辑部将会如何面对这些新的实践?
最明显的变化便是,越来越多之前被认为处于新闻报道核心业务之外的程序开发人员被吸收到编辑室中。此前,新闻媒体也有着各自的技术支持团队,但他们大都远离新闻编辑部,完成的也是一些常规性的辅助性工作。由于思维方式和工作逻辑迥异,程序员和记者之间的交集甚少。然而数据新闻独特的工作流程,尤其是在新闻报道中融合入代码编写和程序开发等技术性工作,促使两者之间必须进行频繁的沟通与合作,故而打破两者之间的空间阻隔,将技术团队嵌入新闻编辑部中也就成为一种必然。《华盛顿邮报》和《芝加哥论坛报》都有着一支这样的“嵌入进编辑部的开发者”(Embedded Developers)团队。[14]这支由12~13位程序员和开发者组成的团队远离传统的IT服务部,“嵌入”在新闻编辑部里。程序开发员根据新闻报道过程中实时变化的需求,为记者挖掘报道所需的原始数据,编写针对政府网站进行数据抓取的工具,解析和转换大量PDF格式文档,将非数据类型的信息转化成可供分析的形式以及为记者最终的新闻报道提供不同的可视化方案。[15]除制作和开发数据新闻产品,双方的合作也激发程序员开发出一系列衍生品,即用于生产数据新闻的软件工具。事实上,众多减少记者数据处理工作量、极大简化和提高数据处理的开源软件多是开发者在与记者在交流过程中受启发完成的。
然而,数据新闻团队具体的人员配置又是如何?成员需具备何样的技术背景?具体的工作流程又如何确定?
在这里,本文依据团队中人员数量,将数据新闻团队大致分为四类:单人组、两人组、小型组和大型组。
单人组意味着记者一个人需要负责前期的调研、新闻报道撰写、数据挖掘清理、编码、可视化设计和呈现等诸多工作。除记者本身需对新闻、软件和视觉艺术等复合型技能进行掌握外,数据开源软件和工具的定制化与简易化,也使得单个记者可以完成高质量的数据新闻作品。《温哥华太阳报》记者查德·史可顿(Chad Skelton)便独自完成包括加拿大收入计算器、不列颠哥伦比亚省犯罪交互地图、游说者数据库、社区交通模型图和温哥华被盗自行车地图等一系列高质量的可视化作品。[16]而他日常的工作范围涉及分析数据、撰写故事和建立互动数据可视化等诸多内容。