Книга «О чём говорят цифры»1 min read

«Данные не самоцель и цифры не самоцель, главное — это идея, которая за ними стоит».
Д. Шмитт

О чём говорят цифры

В мои руки попала книга с интригующим названием «О чём говорят цифры. Как понимать и использовать данные». Cразу скажу — русское название не соответствует содержанию и вводит в заблужение.
Лучше ориентироваться на оригинальное название Keeping Up with the Quants. Your Guide to Understanding and Using Analytic.
В нём видно непонятное слово quants. В начале книги ему даётся объяснение.

Квант — специалист по применению математических методов, методов количественного анализа в решении финансовых вопросов, оценке рисков и пр. Сленговое сокращение от quantitative analyst, quantitative analysis — количественные методы анализа.

Т. е. эдакие ботаны-аналитики, которые умеют работать с большими объёмами данных, находить зависимости и пр.

Сама же книга ориентирована на тех, кому с квантами нужно общаться, чтобы пусть не понимать всё, чем и как они занимаются, но хотя бы говорить на одном языке.
Книга учит общению с квантами, вводит в их предментую область, чтобы уметь ставить задачу и понимать результат.

После прочтения вы не станете аналитиком, если были далеки от статистики. Но вам, возможно, станет интересна эта область, вы поймёте возрастающую важность аналитики и задумаетесь о применении анализа чисел, например, в маркетинге.

Так, топ-менеджеру полезно понимать аналитику, чтобы не просто слепо доверяться сотруднику с низкого уровня (не низкой квалификации!), который может не видеть всей структуры компании и решений, которые зависят от аналитики. Да и не должен. А вы можете проглядеть важные выводы, если не можете корректно трактовать результаты.

В книге содержится куча интересных примеров про то, как аналитика помогла в решении тех или иных задач. Здесь и анализ текстов для выявления подлинности текстов Марка Твена, и ошибка в применении математического аппарата для вынесения обвинительного приговора паре грабителей, и выбор питомца с помощью аналитики, и увеличение дохода отелей за счёт улучшения формы заказа и многие другие примеры.
Например, было очень интересно узнать про закон Бендфорда для выявления фальсификации налоговых отчётностей, баз данных и пр.
Местами возникает ощущение, что читаешь книгу «Фрикономика», только каждому примеру уделено значительно меньше внимания. Из каждого делается вывод, что аналитика важна, важна постановка задачи и пр. этапы, о которых ниже.
Хотя если вы смотрели фильм «Человек, который изменил всё» (Moneyball), или читали статью на Хабре про то, что победу сборной Германии в ЧМ-2014 по футболу обеспечил анализ больших данных, то сами представляете, как это может быть интересно и полезно.

Целевую аудиторию книги и подачу материала можно понять из следующей цитаты:

Если для решения проблемы необходимо провести сравнение между группами данных или показателей, то потребуется соответствующая процедура. Если проблема во взаимной связи переменных, то логично выбрать процедуру регрессионного анализа или ей подобную. Поскольку все эти аналитические процедуры широко используются в самых разных ситуациях, имеет смысл потрать время на овладение их теоретическими и практическими аспектами. Наверняка в вашей организации найдётся специалист, способный помочь вам советом в этом деле.

Т. е. книга перемежается терминами, которые использовались в университете на курсе матстата (например, говорится про t-критерий Стьюдента) и при этом дальше определений книга не уходит. Дальше нужно брать кванта для помощи.

В начале книги вводится понятие аналитики:

Аналитикой мы называем всестороннее использование баз данных, статистический и количественный анализ, объяснительные и прогнозные модели, а также доказательный
менеджмент, применяемые для поддержки решений и увеличения ценности для потребителей.

Далее нам рассказывают, что аналитика бывает разной.

Описательная аналитика включает сбор, систематизацию, представление данных в табличной форме и выделение их основных характеристик. Эдакие отчёты гугланалитикса.
При этом мы не знаем почему данные именно такие.

Предсказательная аналитика прогнозирует динамику показателей в будущем на основе данных за прошлые периоды. Определяются связи, анализируются и оценивается вероятность событий.

Нормативная ставит эксперименты, чтобы выяснить причину явлений и занимается оптимизацией.

Качественная аналитика занимается пониманием причин и мотивов явлений.

Количественная — это систематическое изучение событий при помощи статистических, математических и вычислительных процедур.

Не забыли авторы и определение дата майнинга:

Интеллектуальный анализ данных (дата майнинг, data mining) — автоматизированное или полуавтоматизированное выявление ранее неизвестных зависимостей в больших массивах данных с помощью специальных вычислительных алгоритмов или статистических методов.

Почему в общем важна аналитика?
Принимать решения на основе предположений всегда рискованно, интуиция может обмануть. Поэтому хорошо бы на что-то опираться.

При этом аналитика не всегда нужна. Если проблема незначительна или возникает разово, то нет смысла заниматься аналитикой.
Ещё аналитика не поможет, когда действовать нужно быстро.
И наоборот, когда решения приходится принимать периодически, а проблема серьёзная, чтобы оправдать затраты, то аналитический подход будет весьма полезен в её решении.

Авторы строят книгу на описании подхода к аналитике, которые состоит из 3 этапов и 6 шагов.

  1. Формулировка проблемы
    — определение проблемы
    — изучение предыдущих поисков решения
  2. Решение проблемы
    — моделирование ситуации
    — сбор данных
    — анализ данных
  3. Результаты и необходимые меры
    — демонстрация результатов и дальнейшие действия

Причём книга практически сразу начинается с формулирования этого подхода. С такого наскока сложно было понять к чему он, как им пользоваться, и вообще почему так, а не иначе? Дальше в каждой главе рассматривается каждый этап более подробно, с примерами, но какого-то введения с обоснованием этой системы я не увидел. Хотелось увидеть описание проблемы, примеры ошибочной аналитики (врага/антигероя), и затем подводки с нашему герою — суперподходу из 3 этапов и 6 шагов.

Авторы замечают, что аналитический процесс решения проблемы хоть и линейный, но должен быть итеративным. Так можно на основе полученных на текущем шаге данных уточнить предыдущие, возможно увидеть новые грани проблемы, даже уточнить формулировку проблемы.

Аналитики вообще склонны сразу переходить к выбору методики и способов анализа, не слишком задумываясь о тех, кто будет пользоваться результатами их труда. Чем больше они полагаются на свои аналитические навыки, тем меньше беспокоятся о распространении результатов и переходе к действиям.

В одной из глав авторы рассказывают про третий этап — представление результатов.

Оформление данных в виде чёрно-белых таблиц — это прекрасный способ заставить людей проигнорировать их.

Чтобы понять, насколько интересной может быть подача статистических данных посмотрите видео с Теда, где Ханс Рослинг (его сайт http://www.gapminder.org/) показывает интерактивные данные по демографии и пр.
http://www.ted.com/talks/hans_rosling_on_global_population_growth
http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen
http://www.ted.com/talks/hans_rosling_the_good_news_of_the_decade

То, как именно вы оформите и преподнесёте результаты количественного анализа, может и убедить слушателей, и полностью подорвать доверие к вашим словам.

Для понимания форматов подачи авторы рекомендуют ознакомиться с книгами Эдварда Тафти (и даже рекомендуют сходить на его выступления!). Ещё можно вспомнить про модную сейчас библиотеку для представления данных D3— http://d3js.org/

Ну и под конец могу привести рекомендацию авторов никогда не принимать за чистую монету никакие числа, которые вам представили. Они могут быть нерелевантными, их могли неверно трактовать, ошибочно интерпретировать. Возможно, даже со злым умыслом.

В целом, книга заставила задуматься о новом уровне аналитики. Хотя сейчас работают совсем простые решения, но скоро нужно будет почитать про аналитику сложных данных больше. Наверняка, придётся копнуть и матстат, вспомнить университетский курс. (Например, на тему выбора доверительного интервала и пр. важных вещей, которые нужно учесть для проведения качественного А/В-тестирования с точки зрения математического аппарата, интересно почитать книгу Тима Эша «Оптимизация целевых страниц».)

В книге «О чём говорят цифры» есть куча примеров, и она убеждает в том, что анализировать данные круто, потому и поэтому. Но как это делать после её прочтения непонятно (-:
Есть лишь 6 шагов. Но для них было много целой книги. Книга получилась скорее списком литературы и вводной методичкой, с которой стоит начать погружение в анализ чисел.

Цитаты

Комплексный сбор результатов любых предыдущих исследований той же тематики обязателен для любого вида количественного анализа. В аналитике невозможно получить нечто из ничего. Приступать к решению проблемы можно только ознакомившись с опытом тех, кто делал это до вас. Любая проблема не настолько уникальна, как вам кажется, и не исключено, что многие уже сделали то, что вы только собираетесь сделать. Не стоит заново изобретать колесо, достаточно выяснить, кто сделал это до вас.

Больший объём и лучшее качество данных почти в любом случае важнее, чем лучший алгорит расчётов.

Наиболее успешными аналитиками становятся те, кто способен понять, о чём рассказывают данные.

С точки зрения количественного анализа креативность — это всего лишь способность видеть неочевидные связи между переменными, предыварительно отобрав их для анализа и собрав необходимые данные.

Главная черта квалифицированного количественного аналитика — это умение обращаться с данными и не испытывать пред ними страха.

05 августа 2014
Рубрика: книги | Теги: , | Комментарии к записи Книга «О чём говорят цифры»1 min read отключены

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: