Пособие по журналистике данных (ЛП)
Пособие по журналистике данных (ЛП) читать книгу онлайн
Эта книга адресована журналистам, программистам, дизайнерам, издателям, руководителям медиакомпаний, а также широкому кругу читателей, интересующихся развитием жанра журналистики данных. книга доступна для свободного копирования, распространения и повторного использования согласно условиям лицензии Creative Commons "Атрибуция - Распространение на тех же условиях". Соавторы книги сохраняют авторские права на свои произведения и любезно согласились на их публикацию на условиях данной лицензии. Иллюстрации к печатному варианту книги взяты из оригинального онлайн-издания.
Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала
Данные включали в себя рейтинги (ныне уже несуществующие) качества работы конкретных домов престарелых, и указание на то, являлись ли они частными, государственными или были под контролем некоммерческих организаций. Комиссия по качеству ухода (Care Quality Commission – CQC) вплоть до июня 2010 года присваивала домам престарелых тот или иной рейтинг по качеству их работы (от нуля, что соответствовало плохому качеству, до трех звездочек, что соответствовало отличному качеству).
Первый шаг потребовал масштабной очистки данных, так как данные, представленные Комиссией по качеству ухода, например, содержали распределение по категориям, которое не было универсальным. Эту часть работы мы делали, в основном, при помощи Excel. Мы также определили – при помощи кабинетного и телефонного исследований – владели ли теми или иными домами престарелых группы частных инвесторов. До финансового кризиса сектор ухода за пожилыми людьми служил мощным магнитом для инвесторов, но некоторые из них, такие как «Южный крест» — начали испытывать серьезные финансовые затруднения. Мы хотели установить, какое воздействие факт частного владения домом престарелых оказывал на качество ухода в нем.
Относительно незатейливый и не очень сложный набор подсчетов в Excel позволил нам установить, что дома престарелых, находившиеся в собственности государства или под управлением некоммерческих организаций, в среднем демонстрировали значительно лучшие результаты деятельности, чем аналогичные организации частного сектора. Некоторые группы частных инвесторов, владеющие домами престарелых, в среднем тоже показывали неплохие результаты, а остальные были значительно ниже среднего.
Вкупе с материалами с мест событий, конкретными примерами небрежного отношения к своим обязанностям и глубоким анализом ошибок в политике регулирующих органов, а также другими данными по уровню оплаты услуг, по обороту и т.п., наш анализ смог нарисовать картину подлинного положения дел в сфере ухода за пожилыми людьми.
Подсказки и практические советы:
Убедитесь, что вы храните записи о том, что вы делаете с оригинальными данными.
Сохраняйте копию оригинальных данных и никогда не вносите изменений в оригинал.
Проверяйте и перепроверяйте данные. Осуществляйте анализ несколько раз (если нужно, то перепроверяйте с самого начала).
Если вы упоминаете конкретные компании или конкретных частных лиц в своих материалах, дайте им право на ответную реакцию.
— Синтия О'Мурчу, Financial Times
Откровенный телефон
Рис 46. Откровенный телефон (Zeit Online)
Большинство людей лишь чисто теоретически в курсе, что на самом деле можно сделать с данными, которые предоставляют наши мобильные телефоны; слишком мало было примеров из реального мира. Вот почему Мальте Спитц (Malte Spitz) из германской Партии зеленых решил опубликовать свои собственные данные. Чтобы получить доступ к информации, ему пришлось подать судебный иск против телекоммуникационного гиганта Deutsche Telekom. Эти данные стали основой для сопроводительной интерактивной карты ZEIT Online, содержались же они в массивном документе Excel. Каждая из 35 831 строчки файла представляла собой случай, когда мобильный телефон Спитца передавал информацию – это были данные за полугодовой период.
Если взглянуть на каждую из них в отдельности, то поодиночке они практически безвредны. Но если их взять все в совокупности, то получится, что все вместе они представляют собой то, что следователи называют профайлом, описанием, досье – четкую картину привычек и предпочтений конкретного лица, да и в целом, его или ее жизни. Этот профайл позволяет узнать все – когда Спитц шел вниз по улице, когда он сел на поезд, когда он был в самолете. Эта информация показывает, что в основном он работает в Берлине, а также рассказывает о том, какие города он посетил. Она рассказывает о том, когда он проснулся и когда заснул.
Чтобы проиллюстрировать то, сколь много подробности из чьей–то жизни можно извлечь из этих сохраненных данных, ZEIT Online «дополнил» информацию Спитца записями, к которым может получить доступ любой – твитами политика и его записями в блоге. В общем, прибавил все это к данным о его передвижениях. Это процесс такого рода, какой любой хороший следователь, вероятно, использует в отношении человека, находящегося под наблюдением. ZEIT Online решил не публиковать только одну часть записей Спитца, а именно, поименный список тех, кому звонил он и кто звонил ему. Такого рода информация не только нарушит тайну частной жизни многих людей, она также раскроет слишком много информации о Спитце, даже если номера телефонов зашифровать (но агенты спецслужб в реальном мире имели бы доступ к этой информации).
Нам было очень приятно работать с Лоренцом Матцатом (Lorenz Matzat) и Михаэлем Крейлем (Michael Kreil) из Open Data City над поиском решения, как понять и извлечь геолокационную информацию из набора данных. Для каждого соединения мобильного телефона Спитца мы произвели триангуляцию в зависимости от положения полюса антенны. У каждой антенны имеется три полюса, каждый из которых охватывает угол в 120 градусов. Два программиста выяснили, что сохраненное положение указывало направление от мачты, через которую мобильный телефон Спитца производил соединение.
Сопоставляя эти данные с положениями антенн, взятых с сайта государственного агентства, мы получили возможность узнать информацию о его положении в каждую из 260 640 минут того 181 дня, за которые у Спитца был отчет, и нанести эти данные через API на карту Google Map. Вместе с нашей собственной графическо–дизайнерской командой мы создали великолепный интерфейс для навигации: нажимая кнопку «play», можно было отправиться в путешествие по жизни Мальте Спитца.
После очень успешного запуска проекта в Германии, мы отметили, что он генерирует очень большой трафик из–за границы, и решили создать заодно и английскую версию приложения. Получив немецкую награду Grimme Online Award, проект был удостоен еще и награды ONA Award в сентябре 2011 года, это был первый подобный случай для немецкого новостного вебсайта.
Смотреть данные.
Читать материал.
— Саша Венор, Zeit Online
Какой автомобиль выбрать? Рейтинг поломок от Минтранса
Рис 47. Рейтинг поломок от Министерства транспорта (BBC)
В январе 2010 года ВВС получила данных об автомобилях, прошедших и не прошедших тесты Министерства транспорта, для разных марок и моделей машин. Это тест, который проводится для того, чтобы оценить, является ли автомобиль безопасным и пригодным для эксплуатации. Любой автомобиль в возрасте старше трех лет обязан проходить проверку Минтранса ежегодно.
Мы получили данные согласно правилу свободы информации после 18–месячной битвы с VOSA, агентством Министерства транспорта, которое отвечает за систему проверок Минтранса. Агентство VOSA поначалу отклонило наш запрос на предоставление данных по правилу свободы информации под предлогом, что это нарушит коммерческую конфиденциальность. Агентство заявило, что это может принести коммерческий ущерб производителям автотранспортных средств, у которых высокий рейтинг поломок. Однако мы подали апелляцию Комиссару по информации, который вынес решение о том, что раскрытие информации будет в интересах общественности. И только тогда VOSA предоставило данные, через 18 месяцев после того, как мы направили запрос об их предоставлении.
Мы проанализировали цифры, сконцентрировав внимание на наиболее популярных моделях и сравнив машины того же возраста. И тут были выявлены серьезные расхождения. Например, среди всех машин трехлетнего возраста 28% автомобилей Renault Mégane не прошли свои тесты Минтранса, по сравнению с всего 11% машин марки Toyota Corolla. Цифры были озвучены по телевидению, радио и в онлайне.