32C3

Недостатки Big Data, о которых нельзя забывать

Анализ больших данных — удивительная штука. Но, как и любая другая новая технология, он несовершенен. Рассказываем о рисках, связанных с Big Data.

Alex Drozhzhin
29 марта 2016

В последние несколько лет везде только и говорят, что о Big Data. Чаще всего в центре внимания оказываются удивительные преимущества, которые может принести использование этой технологии. Однако у всего этого есть и обратная сторона. Мы согласны с тем, что большие данные — это очень многообещающая технология. Но нельзя закрывать глаза на ряд возможных проблем, к которым запросто приведет повсеместное внедрение аналитического ПО.

Ничего личного!

Первый недостаток, который обычно приходит в голову критикам больших данных, — это вопрос сохранения собственной конфиденциальности.

Программы для анализа больших данных работают с огромными массивами информации. Чем эти данные уникальнее, а следовательно, «приватнее», тем более интересные выводы может из них сделать алгоритм. Другими словами, личные данные — это та самая «волшебная пыль», на которой работает Магия больших данных. Нередко эта пыль рассыпается и оседает в разных темных углах, тем самым нарушается чья-то конфиденциальность.

Вот вам интересное на вечер: 10 неожиданных проектов, связанных с Большими Данными — http://t.co/4JPk7EPDV0 pic.twitter.com/WtzGOxeGxB

— Kaspersky Lab (@Kaspersky_ru) April 3, 2015

Однако важно понимать, что на этом возможные негативные последствия не заканчиваются: есть целый список менее очевидных проблем, тесным и запутанным образом связанных между собой.

Это наука, детка (на самом деле — нет)

Одна из проблем состоит вот в чем: люди считают, что анализ больших данных — это наука. Однако в действительности аналитические алгоритмы куда ближе к инженерному делу, а не к науке, и это вовсе не одно и то же.

Попробуйте сравнить физику и ракеты. Физика — это, без сомнения, наука, в которой каждая гипотеза исследуется и доказывается как теоретически, так и на практике. И после этого выводы обязательно выдаются на суд научного сообщества, просто потому, что наука работает именно так.

Более того, наука всегда открыта — любой желающий может проверить каждый закон и каждую теорему. И стоит кому-то обнаружить весомый изъян в расчетах или выдвинуть новую, более убедительную теорию, как она тут же становится частью активного обсуждения, в которое вовлекаются все мэтры научного мира.

Ракеты же — это всего лишь инженерно-технические сооружения, созданные на базе определенных физических знаний. И, как вы наверняка знаете, если дизайн ракеты несовершенен, это может с легкостью привести к неприятностям, что регулярно и происходит.

Самые неприятные случаи использования больших данных: банки, страховщики, HR и другие: https://t.co/xPVSal0f7Q pic.twitter.com/ZNnrQRxEK4

— Kaspersky Lab (@Kaspersky_ru) August 25, 2015

С математикой не поспоришь. Правда ведь?

Из предыдущего пункта есть одно важное следствие: ложное чувство непогрешимости выводов компьютера. Вы же не можете спорить с «математически обоснованным» выводом, не так ли?

Не зная математику, использованную в алгоритме, невозможно оспорить справедливость сделанных расчетов. В теории провести независимую оценку могли бы профессиональные математики — если бы им дали доступ. Но могут ли они это сделать в действительности? Зачастую нет.

Черный ящик такой черный

Даже если у вас есть знания, опыт и время, которое вы готовы потратить на проверку того, как работает тот или иной алгоритм, вам вряд ли дадут это сделать. В большинстве случаев технологии анализа больших данных — это коммерческая тайна. Их исходный код закрыт.

В своем выступлении «Оружие математического поражения» математик и борец за права человека Кэти О’Нейл рассказала о том, как она пыталась исследовать методику оценки эффективности преподавателей на основе Big Data, которую применяют в США.

«Моя подруга, которая владеет средней школой в Нью-Йорке, решила изучить этот алгоритм. Это специализированная школа с углубленным изучением естественных наук и математики, потому она была уверена, что разберется с алгоритмом. Она запросила данные в министерстве образования — и знаете, что они сказали? «Ой, да вы ничего не поймете, это же математика!»

«Она настаивала и наконец получила брошюру, а после показала ее мне. Документ оказался слишком абстрактным для того, чтобы прояснить ситуацию. Так что я отправила запрос, опираясь на закон США о свободном доступе к информации, но получила отказ. Позднее я узнала, что научно-исследовательский центр в Мэдисоне, штат Висконсин, который разрабатывает эту аналитическую модель, заключил контракт, согласно условиям которого ни у кого нет права заглянуть внутрь алгоритма».

«Никто в министерстве образования Нью-Йорка не понимает, как работает эта модель. Учителя не знают, на каком основании им ставят те или иные оценки и что нужно сделать, чтобы их повысить, — им никто ничего не может и не хочет объяснить».

Что-то попадает внутрь, что-то другое — наружу

Поскольку механизм работы алгоритма непрозрачен, неясно и то, какие именно данные обрабатываются, а какие — остаются за бортом. Причем непонятно это не только нам с вами, но и оператору, который работает с программой и действует в соответствии с тем, какие она делает выводы.

Поэтому одни и те же данные могут повлиять на суждения человека дважды: когда они попадают в программу и когда оператор принимает решение. Кроме того, какая-то информация может никак не повлиять на результат, если оператор подумал, что она уже была использована в анализе, а алгоритм на самом деле этого не сделал.

Как большие данные (то есть та самая #BigData) помогают ловить преступников: http://t.co/xwkCUg8ov8 pic.twitter.com/XD6ZChSJxI

— Kaspersky Lab (@Kaspersky_ru) April 17, 2015

К примеру, представьте, что полицейский попадает в криминальный район. Алгоритм предупреждает его, что человек перед ним с вероятностью 55% взломщик. В руках у этого человека подозрительный чемодан. Но учла ли программа при анализе этот факт? Возникает вопрос: делает ли наличие чемодана этого человека более подозрительным или нет?

Следует также учесть еще то, что в исходных данных может содержаться ошибка или вообще отсутствовать информация, критически важная для принятия правильного решения.

Стакан наполовину пуст или наполовину полон?

Выводы программы также не являются полностью прозрачными и могут быть неверно интерпретированы. Одни и те же цифры разные люди поймут по-разному. К примеру, вероятность в 30% — это много или мало? Ответ зависит от множества разных факторов, о которых мы можем даже и не подозревать.

Что еще хуже, этот процент вероятности может использоваться в конкурентной борьбе. К примеру, даже невысокая вероятность того, что тот или иной человек способен совершить преступление, конечно, не отправит его в тюрьму, но вполне может закрыть ему карьеру в некоторых учреждениях.

Похожие алгоритмы используют в госслужбах США, чтобы узнать, с какой вероятностью соискатель может допустить утечку. Так как за место борются множество людей, никого не обеспокоит тот факт, что некоторым кандидатам откажут просто потому, что для них эта вероятность оказалась чуть-чуть выше среднего.

Why Eugene Kaspersky has big problems with big data http://t.co/QPaWyddi via @itworldca cc: @e_kaspersky

— Kaspersky Lab (@kaspersky) May 22, 2012

Без предубеждений?

Все сказанное выше позволяет смело говорить, что одно из самых разрекламированных преимуществ больших данных — беспристрастность — на самом деле не работает. Решение, принятое человеком на базе расчетов, выполненных созданным людьми алгоритмом, все равно остается решением человека.

На него могли влиять те или иные предубеждения, а могли и не влиять. Проблема в том, что секретный алгоритм и непонятно какие вводные данные не позволяют вам точно сказать, было ли решение беспристрастным. И изменить ничего нельзя, ведь порядок жестко прописан в программном коде.

Недостатки больших данных, о которых нельзя забывать #BigData
Tweet

Добро пожаловать на темную сторону, Энакин

Еще один недостаток алгоритмов прогнозирования — это самосбывающиеся пророчества. К примеру, полиция Чикаго использует алгоритм, который определяет потенциально опасных подростков.

Полицейские решают за таким подростком «присматривать», навещают его дома и оказывают всякие другие «знаки внимания» со всей присущей им любезностью. Подросток понимает, что полиция уже относится к нему как к преступнику, хотя он ничего такого не делал, и начинает вести себя в соответствии с ожиданиями. В результате он действительно становится членом банды.

Конечно, проблема тут в большей степени в некорректном поведении сотрудников полиции. Но не будем забывать о том, что это алгоритмы дают им «научные основания» для подобных действий.

Или, как отметила Уитни Меррилл в своем докладе «Прогнозирование преступлений в мире больших данных», который прозвучал на Chaos Communication Congress 32: «Полицейский отправляется патрулировать, и алгоритм ему подсказывает, что в этом районе он с вероятностью 70% встретит взломщика. Найдет ли он взломщика только потому, что ему сказали: «Ты найдешь взломщика»?»

Не хотите участвовать? Не получится

Если какая-либо правительственная или коммерческая организация внедряет аналитическое ПО и вам это не нравится, вы не сможете просто сказать: «Мне надоело, я выхожу из игры». Никто не станет вас спрашивать, согласны ли вы стать частью такого исследования или нет. Более того, вам вообще вряд ли расскажут, что вы в нем участвуете.
Поймите меня правильно: я не говорю, что все эти недостатки должны заставить нас отказаться от продвинутых аналитических алгоритмов. Технологии Big Data сейчас в самом начале пути — они точно никуда не денутся и останутся с нами надолго. Тем не менее сейчас самое время обдумать все эти проблемы, пока не стало слишком поздно.

Нам нужны хорошо защищенные алгоритмы с прозрачными механизмами обработки данных. Необходимо допускать независимых исследователей к исходному коду, правительствам следует создать соответствующие законы. Также не помешает рассказывать людям, какие такие «математические штуки» за ними присматривают. И всем участникам процесса, конечно же, следует учиться на уже сделанных ошибках.

Приватность в Сети: «новое барокко»

Новые технологии меняют наши представления о многих вещах и явлениях. Александр Ерофеев размышляет, как Интернет меняет наши представления о приватности.

Бесплатные сервисы

Защита отдельных узлов сети

Недостатки Big Data, о которых нельзя забывать

Ничего личного!

Это наука, детка (на самом деле — нет)

С математикой не поспоришь. Правда ведь?

Черный ящик такой черный

Что-то попадает внутрь, что-то другое — наружу

Стакан наполовину пуст или наполовину полон?

Без предубеждений?

Добро пожаловать на темную сторону, Энакин

Не хотите участвовать? Не получится

Как открыть замок с помощью 3D-принтера

В чем суть скандала с дизельными двигателями Volkswagen

Приватность в Сети: «новое барокко»

Советы

Как безопасно покупать и продавать вещи на интернет-барахолках

Хакеры украли 68 миллионов паролей от Dropbox. И что теперь?

Как отключить слежку в iOS?

Почему «позаимствовать» Wi-Fi у соседа — плохая идея

Подпишитесь на нашу еженедельную рассылку

Для дома

Для малого бизнеса

Для среднего бизнеса

Для крупного бизнеса

Securelist

Nota Bene: блог Евгения Касперского

Энциклопедия «Касперского»