Пособие по журналистике данных (ЛП)
Пособие по журналистике данных (ЛП) читать книгу онлайн
Эта книга адресована журналистам, программистам, дизайнерам, издателям, руководителям медиакомпаний, а также широкому кругу читателей, интересующихся развитием жанра журналистики данных. книга доступна для свободного копирования, распространения и повторного использования согласно условиям лицензии Creative Commons "Атрибуция - Распространение на тех же условиях". Соавторы книги сохраняют авторские права на свои произведения и любезно согласились на их публикацию на условиях данной лицензии. Иллюстрации к печатному варианту книги взяты из оригинального онлайн-издания.
Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала
— Скотт Клейн, ProPublica
9–месячное расследование в отношении Европейских структурных фондов
Рис 28. Расследование в отношении Европейских структурных фондов (Бюро расследовательской журналистики)
В 2010 году газета Financial Times Бюро расследовательской журналистики ( Bureau of Investigative Journalism (BIJ) объединили усилия, чтобы заняться расследованием Европейских структурных фондов. В их намерения входило исследовать то, кем являются бенефициары Европейских структурных фондов, и проверить, должным ли образом используются финансовые средства. Структурные фонды, объем поступлений в которые за 7 лет составил 347 миллиардов долларов, являются второй по величине программой субсидий в Евросоюзе. Программа существовала десятилетиями, но не беря в расчет широкие, очень общие по содержанию обзоры, не было практически никакой прозрачности относительно того, кто же является бенефициаром этих фондов. В рамках смены правил игры в текущем раунде финансирования власти обязаны обнародовать список бенефициаров, включая описания спонсируемых проектов и суммы, полученные по каналам финансирования на национальном уровне и на уровне ЕС.
Команда проекта состояла из 12 журналистов и одного штатного программиста. Сотрудничество длилось 9 месяцев. Только один лишь сбор данных занял несколько месяцев.
Результатом проекта стали пять дней освещения темы в Financial Times и в BIJ, а также документальный фильм на ВВС и еще несколько телевизионных документальных фильмов.
Прежде чем приступить к проекту, требующему подобного уровня усилий, необходимо удостовериться, что все выводы — оригинальны, свежи и подлинны, и что результатом станут сюжеты и материалы, которых не будет больше ни у кого.
Процесс был разбит на ряд отчетливых, обособленных шагов:
1. Определить, кто хранит данные и как они хранятся.
У Генерального директората Европейской комиссии по вопросам региональной политики есть портал с выходом на сайты региональных властей, которые публикуют данные. Мы были уверены, что у комиссии должна быть всеобъемлющая база данных для проекта, к которой мы могли бы либо получить прямой доступ, либо добиться его при помощи запроса на предоставление данных согласно нормам свободы информации. Однако никакой подобной базы, как оказалось, не существует, по крайней мере, настолько подробной, насколько нам требовалось. Мы быстро поняли, что многие из гиперссылок, предоставленных Еврокомиссией, были битыми, неработающими, а также что большинство органов власти публикуют данные в формате PDF, а не в легко поддающихся анализу форматах типа CSV или XML.
Команда из 12 человек работала над решением задачи определения самых свежих данных и превращения ссылок в одну большую таблицу, которую мы использовали для совместной работы. Так как графы и столбцы с данными не были однообразными (например, заголовки часто были на разных языках, в некоторых наборах данных использовалась разная валюта, а в какие–то данные была включена разбивка на европейское и национальное финансирование), нам нужно было быть очень точными при переводе и переформатировании, как и при описании групп данных, имевшихся в каждом из источников.
2. Загрузить и подготовить данные.
Следующий шаг представлял собой загрузку всех таблиц, PDF–файлов, и, в некоторых случаях, результатов вэб–скрэпинга исходных данных.
Потом каждый набор данных требовалось стандартизировать, привести к единому формату. Самой большой проблемой стало извлечь данные из PDF–файлов, длиной по несколько сотен страниц. Большая часть этой работы была выполнена при помощи программ UnPDF и ABBYY FineReader, которые позволяют извлекать данные, создавая файлы форматов CSV или Excel.
Также на этом этапе проводилась проверка и перепроверка — чтобы убедиться, что инструменты по извлечению информации из PDF–файлов провели захват информации правильно и корректно, без ошибок и пропусков. Это было сделано посредством использования фильтрации, сортировки и подсчета итоговых результатов (чтобы убедиться, что они совпадают с тем, что напечатано в PDF–файлах).
3. Создать базу данных.
Программист команды сделал базу данных в SQL. Каждый из предварительно подготовленных файлов потом был использован как один из кирпичиков для общей SQL–базы. Потом пошел процесс загрузки всех индивидуальных файлов данных в одну большую SQL–базу данных, к которой сразу можно было начинать направлять поисковые запросы.
4. Дважды перепроверить и проанализировать.
Команда анализировала данные двумя основными способами:
Через интерфейс базы данных
Можно было вводить определенные ключевые слова (например, «табак», «гостиница», «компания А») в строку поиска. При помощи Google Translate, который был встроен в функционал поиска нашей базы данных, эти ключевые слова переводились на 21 язык и выдавали соответствующие результаты. Эти результаты можно было загрузить, и журналисты могли начинать проводить дальнейшие исследования уже по индивидуальным проектам, по конкретным интересующих их моментам.
Через макроанализ с использованием всей базы данных
Время от времени мы могли загружать полный набор данных, который затем можно было анализировать, например, с использованием ключевых слов, или группируя данные по стране, району, типу расходов, количеству проектов у бенефициара, и т.п.
Наши сюжетные линии получали информацию как из результатов этих двух анализов, так и посредством полевых и кабинетных исследований.
Двойная проверка полноты и целостности данных (путем суммирования и сверки с тем, что, по словам властей, было выделено и распределено) заняла значительное время. Одной из основных проблем было то, что власти по большей части обнародовали лишь суммарное «финансирование на едином европейском и на национальном уровнях». По правилам ЕС, каждая программа на определенный процент может финансироваться из общих средств ЕС. Уровень финансирования ЕС определяется, на программном уровне, так называемой ставкой софинансирования. Каждая программа (например, в области региональной конкуренции), состоит из многочисленных проектов. На проектном уровне технически один проект может получить стопроцентное европейское финансирование, а другой — не получить денег от Европы вовсе, но если все эти проекты сгруппировать вместе, сумма финансирования по линии ЕС на программном уровне не должна быть выше одобренного уровня софинансирования.
Это означало, что нам надо было проверить каждую конкретную сумму финансирования со стороны ЕС, которую мы приводили и на которую ссылались в материалах о предположительных компаниях–бенефициарах.
— Синтия О'Мурчу, Financial Times
Мелтдаун Еврозоны
Итак, мы освещаем мелтдаун еврозоны. Во всех подробностях. Драму, которая разворачивается, когда правительства приходят в столкновение, а спасательные средства утрачены; реакцию со стороны мировых лидеров, меры жесткой экономии и протесты против мер жесткой экономии. Каждый день в Wall Street Journal появляются графики, схемы и таблицы по потерям рабочих мест, снижению ВВП, процентным ставкам, стремительно падающим мировым рынкам. И все это постепенно нарастает. И все это ошеломляет и поражает.
Редакторы передовиц созывают совещание, чтобы обсудить идеи для освещения конца года, и когда мы выходим с этого совещания, я ловлю себя на том, что задумываюсь: на что это должно быть похоже — пережить это?
Похоже ли это на 2008 год, когда меня уволили, а мрачные новости шли непрерывным потоком? Мы говорили о работе, о рабочих местах и о деньгах каждый вечер за ужином, практически забыв о том, как это может расстраивать мою дочь. А выходные — это было самое худшее. Я пыталась не поддаваться страху, который, казалось, постоянно хватал меня за шею. А беспокойство стягивало мне грудную клетку. И испытывает ли такие же или похожие ощущения, что я испытывала тогда, какая–нибудь семья в Греции сейчас? А в Испании?