Analytics

10

Семь лет назад я написал в блоге своего бывшего работодателя (the amazing Reaktor) язвительную статью под названием «10 истин о данных».

Оглядываясь назад на это сегодня, я все еще горжусь делом своих рук, но я не могу не думать, что некоторые истины были потрачены впустую только для того, чтобы достичь магического числа 10.

Итак, сегодня я хочу вернуться к этим истинам и представить вам, мой дорогой читатель, переосмысленную версию.

Вы можете цинично подумать, что эта статья — просто способ для меня предотвратить то, что в первый месяц в истории этого блога не было опубликовано ни одной новой статьи. И вы были бы отчасти правы.

Вы также можете цинично посмеяться над понятием “истины”, которым бесцеремонно разбрасываются. И вы были бы правы в своем негодовании. Однако “истина” имеет более приятный оттенок, чем “утверждение” или “утверждение”.

10

В любом случае. Давайте перейдем к делу.

X

Информационный бюллетень The Simmer

Подпишитесь на рассылку новостей Simmer, чтобы получать последние новости и материалы от Simo Ahava в свой почтовый ящик!

Истина №1: Данные пассивны.

Одна из истин ОГ.

Часто при представлении данных люди используют фразу типа “Данные показывают, что…» или “Данные ясно указывают на то, что…». Хотя я знаю, что эти люди пытаются сказать, это все равно семантическая отговорка.

Данные ничего не делают. Это пассивная среда – ее используют, оспаривают, манипулируют, формируют и формируют, чтобы предоставить доказательства или оправдания или даже отвлечь от того, что пытается заявить ведущий.

Истина №2: Данные субъективны.

Еще один пересказ первой версии этой статьи, и еще один простой вопрос.

Когда вы смотрите на анализ, или график, или строки в таблице необработанных данных, вы создаете уникальную интерпретацию того, что видите. В представленных вам доказательствах нет объективной истины.

Это может легко перерасти в онтологический аргумент, и это нормально. Дело в том, что качество и анализ данных не являются фиксированными. Как я писал в оригинальной статье:

Один набор данных может превратиться из бесполезного в невероятно информативный без изменения формы, размера, формы или функции одного элемента данных.

Истина №3: Данные безграничны.

О да – и важность этой истины только возрастает по мере того, как масштабы того, что мы можем и делаем, чтобы собирать, увеличиваются на порядки с каждым годом технического прогресса.

Невозможно иметь все данные. Это не просто технологически невозможно – это философская невозможность.

Итак, необходимо провести черту. И очень, очень важно понять, где проложена эта линия. Вы должны понимать ограничения вашего набора данных, когда предлагаете его в качестве доказательства с любыми репрезентативными возможностями. Вы должны иметь возможность сообщать об этих ограничениях по запросу или даже заблаговременно, чтобы результаты были справедливыми и воспроизводимыми.

Истина №4: Данные ненавидят изолированные хранилища.

Хорошо, я использовал слово “ненавидит” в первой версии этого списка, но это был просто разговорный тезаурус.

По какой-то непонятной причине многие компании по-прежнему относятся к данным как к чему-то, что можно делегировать произвольной должности (аналитику, инженеру по обработке данных или ученому), в то время как остальная часть компании продолжает игнорировать (и пренебрегать) всеобъемлющим охватом конвейера данных.

Данные — это источник жизненной силы организации. Его не волнуют названия должностей. Его не волнует ваша матричная организация, или ваши плоские иерархии, или ваши неограниченные ПТО.

Вам нужно знать все закоулки и закоулки внутри вашей компании, где собираются и обрабатываются данные, и вам необходимо постоянно оценивать и проверять эти процессы.

Истина №5: Данные — это процесс.

Понимание сверху – помните, что данные — это не то, что вы можете просто включить в одноразовый проект. С точки зрения регулирования ваша компания несет ответственность за то, чтобы быть в курсе всех последствий обработки данных, происходящих в ее стенах (и за их пределами).

Но дело не только в этом. Ваша компания генерирует абсурдные объемы данных с каждой секундой. Вам нужно реагировать на их колебания (а ситуация постоянно меняется), и вам нужен процесс для надлежащего управления конвейерами данных в вашей компании.

Истина №6: Данные можно игнорировать.

Моя любимая правда.

Быть “управляемым данными” — это ложь! Не поддавайтесь на это! Основываясь на примерно 20-летнем опыте, большинство компаний работают с данными, которые совершенно неправильно понимаются и где базовое качество просто смехотворно низкое (хотя, помните Истину № 2!).

Если вы хотите, чтобы эта вонючая куча единиц и нулей управляла вашей компанией, тогда будьте моим гостем. Помашите мне рукой, погружаясь в бездну с управляемой данными улыбкой на лице.

Если данные говорят «А», и это подкреплено экспериментами, тщательным тестированием и самым надежным набором данных, с которым вы когда-либо сталкивались, но ваша интуиция говорит «Б», смело выбирайте последнее! Вы можете игнорировать эти данные. Нет никакого категорического императива, заставляющего вас делать то, что говорят данные (хотя помните Истину № 1!).

Однако. Однако. Вы должны быть в состоянии обосновать это так, чтобы бизнес-обоснование имело такой же или больший смысл, как и то, что вам предписывает анализ данных.

Вы не можете просто закатить истерику и проигнорировать данные, потому что считаете, что это ваше божественное право — сойти с края Земли только для того, чтобы доказать свою точку зрения. Вы должны быть в состоянии обосновать свое решение с точки зрения бизнеса, и вы должны быть в состоянии убедить своих коллег в том, что это стоит риска.

Истина №7: Инструменты не могут диктовать, как работает ваша организация.

По какой-то причине многие платформы обработки данных являются очень предписывающими. Они вынуждают компанию применять схемы, которые могут не иметь отношения к бизнес-кейсам компании, но вместо этого служат только для того, чтобы аналитическая платформа переваривала информацию предсказуемым образом.

Монолитные, универсальные схемы — это, в общем, плохо. Они заставляют компанию приспосабливаться к аналитической платформе, а не наоборот.

Я помню, как потратил много секунд, задаваясь вопросом, как я могу “обмануть” Google Analytics, чтобы переварить событие Добавления в корзину на веб-сайте, на котором не было корзины покупок; просто чтобы я мог использовать пакет отчетов об электронной коммерции. Это упражнение, которое никто не должен терпеть.

Истина №8: Настоящие озарения редки, и это нормально.

Я чувствую, что многие аналитики ведут себя как Джон Нэш в «Прекрасном уме«, когда они смотрят на набор данных и надеются, что закономерности просто выскочат наружу, подпитывая какое-то удивительное новое понимание, которое полностью изменит их компанию.

Что ж, либо вам придется долго ждать, либо вы плохо выполняете свою работу.

В эволюционной биологии есть прекрасная теория, которая называется прерывистое равновесие. В нем говорится, что большая часть эволюции на самом деле представляет собой очень медленный, устойчивый прогресс. Однако иногда случаются важные потрясения, вносящие хаотические, более быстрые изменения в процесс.

Я не биолог-эволюционист, но эта теория была принята в лингвистику Р.М.У. Диксоном, который является жанром, с которым я гораздо лучше знаком.

Я думаю, что многие аналитики не уважают это, и они либо безуспешно пытаются найти эти потрясения, либо, что еще хуже, пытаются внедрить их с помощью новых инструментов, новых методов сбора данных и новых схем, просто чтобы “получить результаты”.

Но дело в том, что многое из того, что мы делаем в аналитике, основано на постоянном наблюдении и предоставлении стабильных данных для обработки другими процессами.

Мы — садоводы. Не охотники за сокровищами.

Истина №9: Данные — это побочный эффект.

Хорошо, это не всегда так (шокирует!), Но это особенно остро ощущается в мире цифрового маркетинга и аналитики.

В приложениях, сайтах и сервисах очень, очень мало реальных функций, основной целью которых является генерация данных.

Вместо этого, как аналитики, мы чаще всего используем существующие функции и добавляем к ним сбор данных в качестве побочного эффекта.

Основная цель формы оформления заказа — не генерировать конверсию. Нет – его основная цель — сгенерировать покупку. Пинг конверсии — это всего лишь побочный эффект этого процесса.

Как аналитики, мы склонны зацикливаться на важности нашей работы и забываем, что большую часть времени наши компании, наши клиенты, наши разработчики или даже наши маркетологи не слишком заботятся о формировании данных. Они просто хотят, чтобы функция служила своей первоначальной цели.

По этой причине задачи разработки данных часто не имеют приоритета. Это позор, но это также факт.

Человек, работающий с данными, также должен разъяснить важность этих побочных эффектов. Роль инженера по обработке данных (или аналитика) часто заключается в консультировании, поскольку им необходимо дать другим понять, как эти побочные эффекты на самом деле могут стоить затрат времени и ресурсов, а не просто накладных расходов на разработку.

Истина №10: Данные — это сложно.

В течение многих лет все мои презентации заканчивались слайдом, на котором говорилось:

Данные — это сложно. Качество данных зарабатывается, а не приобретается.

Это, я думаю, все еще очень важно. Особенно в связи с пандемией COVID-19 все больше и больше людей сталкивались со все большим количеством графиков, все большим количеством анализов и все более ошибочными интерпретациями данных.

Я надеюсь, что люди понимают, насколько сложно не только собирать данные, но и определять потоки их обработки, их последующее воздействие, проблемы с регулированием и как представить их значимым образом.

Я надеюсь, что люди понимают, что “ML” и “AI” — это не просто волшебные модные словечки. Алгоритмы, которые стимулируют машинное обучение и искусственный интеллект, требуют тонкой настройки и человеческого компонента, обладающего достаточным опытом (и смелостью), чтобы привести процессы в движение.

Работать с данными так же сложно, как и когда-либо. По-прежнему нет коротких путей: качество данных должно быть заработано упорным трудом, пытливым умом и сильным сердцем.

Симо вышел.

Related posts

Разгоняем Google PageSpeed до 100 и больше

admin

Как я изготовил респиратор KN95 в домашних условиях из подручных материалов. Подробная инструкция

admin

Не держите людей за идиотов или почему человек с инженерным образованием может сжечь вышку сотовой связи (видео)

admin

Leave a Comment