Пособие по журналистике данных (ЛП)
Пособие по журналистике данных (ЛП) читать книгу онлайн
Эта книга адресована журналистам, программистам, дизайнерам, издателям, руководителям медиакомпаний, а также широкому кругу читателей, интересующихся развитием жанра журналистики данных. книга доступна для свободного копирования, распространения и повторного использования согласно условиям лицензии Creative Commons "Атрибуция - Распространение на тех же условиях". Соавторы книги сохраняют авторские права на свои произведения и любезно согласились на их публикацию на условиях данной лицензии. Иллюстрации к печатному варианту книги взяты из оригинального онлайн-издания.
Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала
Даже если у вас отсутствуют какие–либо знания из области математики или статистики, вы легко можете стать журналистом в сфере данных, задав три очень простых вопроса.
1. Как были собраны данные?
Удивительный рост ВВП
Самый простой способ продемонстрировать зрелищные данные — сфабриковать их. И этот способ применяется даже к таким привлекающим всеобщее внимание данным, как показатели ВВП. Бывший посол Великобритании Крейг Мюррей пишет в своей книге «Убийство в Самарканде», что показатели роста в Узбекистане являются объектом напряженных переговоров местных властей с международными организациями. Другими словами, они не имеют никакого отношения к местной экономике.
ВВП считается самым главным показателем, т. к. он необходим государству для контроля над своим главным источником дохода — НДС. Если государство финансируется не за счет НДС или если оно не раскрывает данные о своем бюджете, то у него нет причин собирать данные о ВВП, ему будет проще сфабриковать их.
Преступность всегда растет
«Преступность в Испании выросла на 3 %», пишет El Pais. Брюссель стал жертвой роста преступности, вина за которую возлагается на незаконных иммигрантов и наркоманов, говорит RTL. Такой вид сообщений, основанных на собираемых полицией данных, является широко распространенным, однако они не содержат какой–то особой информации о насилии.
Мы можем верить в то, что в Европейском Союзе данные не подтасовываются. Однако на полицейских влияют побуждающие стимулы. Например, когда эффективность работы определяется уровнем раскрытия преступлений, у полицейских появляется стимул сообщать о как можно большем количестве происшествий, не требующих расследований. Одним из таких преступлений является курение травки. Этим объясняется тот факт, что за последние 15 лет количество преступлений, связанных с наркотиками, увеличилось во Франции в четыре раза, в то время как уровень потребления остается неизменным.
Что вы можете сделать
Если вы сомневаетесь в достоверности данных, проверяйте и перепроверяйте их, так, как вы делали бы это, если бы источником данных было высказывание политика. В примере с Узбекистаном будет достаточно позвонить кому–нибудь, кто прожил там какое–то время («Можете ли вы сказать, что страна стала в 3 раза богаче, чем она была в 1995 году, как говорят официальные данные?»).
В случае с данными полиции, социологи часто проводят исследования виктимизации, в ходе которых они спрашивают респондентов, становились ли они жертвами преступлений. Результаты этих исследований обычно менее изменчивы, чем данные полиции. Возможно, именно поэтому они и не попадают в заголовки.
Наши тесты, например, применение закона Бенфорда, позволят вам точно оценить достоверность данных, однако ничто не заменит вашего собственного критического мышления.
2. Какую информацию из них можно извлечь?
Риск рассеянного склероза удваивается, если работать по ночам
Конечно, любая немка в здравом уме, прочитав подобный заголовок. перестанет работать в ночные смены. Однако в статье так и не сообщается, каков же реальный риск на самом деле.
Возьмем 1000 жителей Германии. На протяжении всей жизни только один из них заболеет рассеянным склерозом. Соответственно, если все эти немцы работают в ночную смену, то количество случаев рассеянного склероза вырастет до двух. Дополнительный риск заболевания рассеянным склерозом при работе в ночные смены составляет 1 шанс из 1000, а не 100 %. Конечно, такая информация более полезна в тот момент, когда вы размышляете, стоит ли идти на ту или иную работу.
В среднем 1 из 15 европейцев абсолютно безграмотен.
Такой заголовок пугает. Кроме того, это абсолютная правда. Из 500 миллионов европейцев 36 миллионов не умеют читать. А еще 36 миллионов находятся в возрасте до 7 лет (данные Евростата).
Когда вы собираетесь написать «в среднем», подумайте, «в среднем от чего»? Однородно ли описываемое население? Принципы неравномерного распределения, например, помогают объяснить, почему большинство людей водят машину лучше, чем в среднем. Многие люди за всю жизнь попадали в аварию лишь единожды, либо не попадали вовсе. Немногочисленные безрассудные водители попадали в аварии много раз, тем самым значительно увеличивая показатель среднего количества аварий, т. е. среднее количество аварий на всех водителей будет выше, чем реальное количество аварий у большинства водителей. То же самое происходит и с распределением доходов: доходы большинства людей ниже средних значений.
Что вы можете сделать
Всегда учитывайте распределение и базовые значения. Проверка среднего значения и медианы, а также моды (наиболее часто встречающееся значение в распределении) поможет вам в проникновении в суть данных. Знание порядка величины облегчает контекстуализацию, как видно в примере с рассеянным склерозом. И, наконец, применение в ваших материалах числовых значений (1 из 100) больше поможет читателям понять суть вопроса, чем применение процентов (1 %).
3. Насколько надежны данные?
Проблема объема выборки
«80 % граждан недовольны судебной системой», говорится в исследовании, о котором пишет газета из Сарагосы Diaro de Navarra. Но как можно экстраполировать ответы 800 респондентов на 46 миллионов испанцев? Конечно, эти данные нельзя воспринимать всерьез, подумаете вы.
При исследовании больших групп населения (больше нескольких тысяч) для достижения предела погрешности менее 3 % вам обычно потребуется не более одной тысячи респондентов. Т. е., если вы проведете то же исследование с другой выборкой, то в 9 случаях из 10 полученные ответы будут отличаться от ответов, полученных в первый раз, не более, чем на 3 %. Статистика — мощный инструмент, и объемы выборки редко бывают повинны в недостоверных результатах опросов.
Употребление чая снижает риск инфаркта
Статьи о пользе употребления чая появляются постоянно. Эта небольшая статья в Die Welt, говорящая о том, что чай снижает риск инфаркта миокарда, не является исключением. В то время как свойства чая подвергаются серьезным исследованиям, во многих случаях исследователи не принимают во внимание такие факторы образа жизни, как диеты, род деятельности или занятия спортом.
В большинстве стран чай является напитком заботящегося о своем здоровье высшего класса. Если исследователи не учитывают при исследовании свойств чая факторы образа жизни, то в результате они говорят нам лишь о том, что «богатые люди более здоровы — и, возможно, они еще пьют чай».
Что вы можете сделать
Математические выкладки, касающиеся взаимосвязей и погрешностей в исследованиях свойств чая, конечно правильны, по крайней мере, в большинстве случаев. Однако, если исследователи не обращают внимание на соотношения взаимосвязей (например, как употребление чая соотносится с занятиями спортом), то их результаты не имеют большой ценности.
Как журналисту вам не имеет смысла ставить под сомнение численные результаты исследования, например, объемы выборки, за исключением случаев, когда они вызывают серьезные сомнения. Однако, вы можете легко понять, не упустили ли исследователи в своих исследованиях какую–либо значимую информацию.
— Николас Кайзер–Брил, Journalism++
Советы по работе с цифрами в новостях
Наилучший совет по обработке данных — делайте это с удовольствием. Данные могут показаться вам устрашающими. Однако стоит вам позволить напугать себя — и вы не добьетесь никаких результатов. Отнеситесь к процессу как к игре, и может случиться так, что данные с удивительной легкостью раскроют вам свои секреты. Поэтому обрабатывайте их как обычно, как вы обрабатывали бы любые другие свидетельства, без страха или предпочтения. В частности, относитесь к этому процессу как к тренировке воображения. Примените творческий подход, подумайте, какие альтернативные факторы могут быть связаны с этими данными и могут объяснять их, проверяйте данные с помощью дополнительной информации. «Чем еще можно объяснить эти данные?» В некоторых случаях этот полезный подход может помочь понять вам, что эти цифры, эти очевидно большие или плохие показатели, эти ясные доказательства того или этого, могут оказаться совсем не тем, чем кажутся.