Присоединяйтесь к нашим группам
АКЦИИ СКИДКИ

ВКонтакте | ОдноКласники

Инстаграм и Фейсбук признаны террорестическими организациями на территории России




Спецслужбы и Guugle следят за тобой

Наши персональные данные — самое ценное «сырье» для рекламной индустрии. Кроме того, они уже давно не составляют тайны для спецслужб и таких веб-концернов, как Google.

Свободный доступ к информации, шопинг в любое время суток, новые виды коммуникаций и развлечений — преимущества, которые дает нам Интернет, вряд ли кто-либо станет отрицать. К тому же они почти всегда бесплатны. Но, несмотря на это, такие веб-концерны, как Google, зарабатывают миллиарды. На чем? На наших с вами данных. И уж совсем незаметно получают свою выгоду от цифровых следов, оставляемых нами на каждом шагу, спецслужбы.

В таблице сверху вы видите, кто и к каким данным может получить доступ. Легче всего сбор информации дается владельцам веб-сайтов. Они протоколируют каждый наш клик, каждый фрагмент введенного текста. Кроме технической статистики посещения страниц (метаданные), такие гиганты, как Google, Amazon или Facebook узнают и о совсем уже частных вещах — напри-
мер, личных интересах или отношениях. Рекламные службы, которые ведут свою работу на многих веб-сайтах одновременно, на основе метаданных могут составлять подробные профили пользователей. Следует упомянуть и торговцев данными, собирающих такую офлайновую информацию, как имена или адреса, и продающих ее в рекламных целях. И даже производители компьютерных и мобильных приложений знают о нас многое, будь то время нашей работы на ПК или местонахождение. Мы же, пользователи и потребители, наоборот, лишь с большим трудом можем выяснить, кто и какие данные собирает и что с ними потом происходит. IT-гиганты лишь делают вид, что они — друзья пользователей. По запросам о применении данных их спикеры лишь ссылаются на свои правила конфиденциальности информации. He-юристам они вряд ли понятны в деталях, а самые важные пункты часто бывают сформулированы неясно. Вот классический пример: «Мы предоставляем персональные данные нашим партнерским компаниям, прочим компаниям, заслуживающим доверия, и лицам, которые обрабатывают их по нашему заказу…». Но что же это за компании и лица? Формулировка взята из правил конфиденциальности информации Google, точно такие же есть и у многих других фирм.

Сначала собирают, потом — спрашивают зачем

Миллионы гигабайт бегут ежедневно по толстым оптоволоконным кабелям и сохраняются в гигантских вычислительных центрах. Чтобы понять, что может содержаться в этих объемах данных, их надо сначала собрать. Крупные веб-концерны делают это уже долгие годы. Google анализирует поисковые запросы с помощью Google Instant, который в реальном времени автоматически дополняет вводимое слово до наиболее вероятного поискового запроса — и сразу же показывает подходящие результаты поиска. Amazon годами анализирует наше покупательское поведение, делая свои рекламные предложения все более точными. Полиция на основе информации о совершенных преступлениях прогнозирует, где и когда с наибольшей вероятностью может произойти следующее, — в США это уже давно делают полицейские Лос-Анджелеса, Сиэтла и нескольких других городов. Секретные службы и антитеррористические подразделения тоже используют анализ больших объемов данных, чтобы заранее вычислить потенциальных террористов. Однако для точного прогнозирования недостаточно собрать отдельные данные — их нужно свести в пользовательские профили. Чтобы узнавать пользователя при повторных посещениях (а для этого надо суммировать и хранить данные в профиле), интернет-сайты сохраняют в его компьютере файлы сооkie. Каждый клик по веб-странице тоже становится частью этих данных. К тому же рекламные трекеры используют данные браузера, передаваемые по протоколу HTTP при поисковых запросах. Информация о версиях плагинов и расширений в сочетании с данными дисплея и другой информацией дают в итоге нечто похожее на уникальный отпечаток пальца. Американская компания Leads Please продает мейлинг-листы по смешной цене: 1000 адресов всего за 2700 рублей. А тот, кто закажет 50 ООО адресов, получит скидку более 40%. Наряду с именами и адресами эти массивы данных содержат до двух десятков записей по каждому человеку — например, оценку его доходов или отношение к домашним животным.

Всезнающие секретные службы

АНБ (Агентство национальной безопасности) и другие секретные организации пытаются свести воедино данные, собранные в режимах онлайн и офлайн, и привязать их к конкретным людям. Документы о тайном сборе данных, ведущемся под предлогом борьбы с терроризмом, с начала июня публикует бывший аналитик АНБ Эдвард Сноуден. Главными источниками являются интернет-провайдеры и телефонные операторы. Они обязаны выдавать информацию о подключениях следователям по уголовным делам и позволять им контролировать процессы коммуникации. Правда, согласно закону, это может касаться только подозреваемых, на которых заведены дела. Кроме того, спецслужбы анализируют потоки данных с помощью Deep Packet Inspection (DPI) — технологии накопления статистических данных, проверки и фильтрации сетевых пакетов по их содержимому. Она, например, может отфильтровывать электронные письма из потоков стриминга или P2P. Провайдеры не являются единственным источником информации. Секретные службы перехватывают данные в точках обмена трафиком или в местах подключения сетей к подводным кабелям. Владельцы самой крупной точки обмена трафиком в мире DE-CIX из Франкфурта-на-Майне уверяют, что они не дают такого доступа никому и никогда. Но что в действительности происходит на 340 других таких сетевых узлах, разбросанных по всему миру, из которых около 80 находятся в Северной Америке, не знает никто. Британская программа контроля Тешрога, согласно публикации газеты The Guardian, имеет прямой доступ к трансатлантическим оптоволоконным кабелям — основной артерии обмена информацией между Европой и США. Тешрога может контролировать более 200 оптоволоконных линий, параллельно перехватывать данные на 46 из них и хранить информацию до 30 дней. Доступ происходит в местах соединения между магистральными каналами передачи данных провайдеров и подводными кабелями. Третий источник данных, используемый спецслужбами, — сами провайдеры и операторы связи. Согласно информации Эдварда Сноудена, программа PRISM может получать прямой доступ к серверам Google, Facebook, Microsoft, Apple, Yahoo!, Drop-box, AOL и Paltalk. В середине июля он рассказал, как это выглядит на практике. Корпорация Microsoft дала прямой доступ ко всем своим коммуникационным данным, хотя Агентство национальной безопасности отрицает этот факт. У Outlook.com АНБ может перехватывать данные еще до того, как они будут зашифрованы. Что касается службы веб-телефонии Skype (которая, кстати, принадлежит Microsoft), то Агентство способно записывать ее аудио- и видеоматериалы. АНБ может подключаться и к онлайновому хранилищу данных SkyDrive для перехвата данных. Однако, если верить заявлениям Microsoft и Агентства, такие перехваты осуществляются только на основе судебных решений.
Секретные службы стоят перед теми же проблемами, что и Google & Со: как обработать эти гигантские неструктурированные массивы, в которых находится множество данных в самых разных форматах? Так же, как при переработке сырой нефти, здесь необходимы большие затраты, чтобы сделать эти данные пригодными для использования. Еще несколько лет назад процесс анализа длился бы неделями, сегодня же он происходит в реальном времени, потому что инструменты под общим названием Big Data сегодня выпускает целая индустрия.

Высокопроизводительные алгоритмы для фильтрации данных

Анализ начинается с первичной очистки данных. Из неструктурированных текстов, информации о соединениях и всего прочего создаются упорядоченные базы данных, которые уже можно анализировать с помощью простых запросов (например, «кто говорит и с кем?», «о чем они разговаривают?» , «в каком настроении они находятся?»). Одним из самых часто используемых инструментов Big Data является Hadoop. Это свободно распространяемый набор утилит, библиотек и фреймворков для разработки и выполнения распределенных программ, работающих на кластерах из сотен и тысяч узлов. Он используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе — для Yahoo! и Facebook. Данный комплекс позволяет анализировать данные, разбросанные по различным вычислительным центрам, в объемах петабайт. Процесс базируется на алгоритме MapReduce, разработанном Google (см. рис. на стр. 44). Hadoop делит данные на блоки — как правило, по 64 Мбайт — и затем они сортируются по отдельности. Обычные приложения, используемые в базах данных, могут обрабатывать блоки размером не более 32 кбайт. Можно пояснить это деление данных с помощью простой аналогии. Перепись населения продолжалась бы вечно, если бы одному и тому же переписчику пришлось поехать в каждый населенный пункт страны. Вместо этого назначают одного или нескольких переписчиков в каждом городе, и они передают результаты в единый статистический центр. В случае с пакетом Hadoop процесс анализа длится лишь доли секунды. На следующей стадии составляются модели прогнозов. Здесь, в зависимости от цели, применяют разные математические методы. Один из них — распознавание аномалий, которое находит особенности в рядах данных, или кластерный анализ. Его цель — разделить объекты на группы (кластеры) по принципу определенной общности или схожести. Подобный анализ позволяет на основе телефонных соединений или электронных писем создавать подробные картины социальных связей (так называемые социальные графы). Спецслужбы используют этот метод, чтобы выявлять контакты между людьми, даже если они находятся в разных странах. С помощью онлайн-утилиты Immersion (immersion.media.mit.edu) вы можете самостоятельно убедиться на примере своего почтового аккаунта Google, что электронные письма «выдают» вашу семью, друзей или коллег. Согласно заявлению заместителя директора АН Б Джона Инглиса, таким образом можно контролировать от двух до трех уровней контактов одного человека. Это значит, что если у каждого есть в среднем сто знакомых, то в контактах третьего уровня будет участвовать до миллиона человек (100x100x100), которых можно проконтролировать при наличии даже одного подозреваемого. После этого сотрудники спецслужб анализируют обобщенные данные — например, для того, чтобы найти определенное лицо и проверить его.

На пользователе зарабатывают все

Ключевой вопрос анализа любых данных: что мы хотим из них получить? Существует множество исключительно полезных применений сбора информации. Так, фирма, выпускающая кредитные карты, на основе изменения пользовательского поведения владельца может выяснить, что карта украдена. Google по статистике поисковых запросов «предсказывает» эпидемии гриппа. А исследователи анализируют геном человека, один из самых сложных источников информации в мире, с намерением добиться прогресса в медицине. Однако, хотя все это очень полезно, обратная сторона медали может выглядеть угрожающе. Когда Google предлагает неправильные ключевые слова, или Amazon рекламирует товар, который не нужен покупателю, это может разве что вызвать легкое раздражение. Но если на основе неправильного анализа спецслужбы начинают брать людей под подозрение, это уже неприемлемо для всего общества — и катастрофа для тех, кого это затрагивает напрямую. Мурат Курназ и еще несколько человек, которых в последние годы ошибочно заключили в тюрьму Гуантанамо из-за подозрений в терроризме — пример такого рода «профилактики преступлений». Между двумя названными крайностями находится обширная «серая» область, где мы, пользователи, по-настоящему не знаем, что происходит с нашими данными, — кроме того, что кто-то зарабатывает на них деньги. Для рекламной индустрии история болезни, информация о семейном положении или о предстоящем строительстве дома имеют большее значение, чем возраст и место жительства (см. таблицу на стр. 45). Для киберпреступников важны скорее личные данные. При этом выше всего ценятся полные комплекты сведений об отдельных лицах, так называемые fullz (от англ. full — «полный»). Обычно они содержат имя, номер банковской или кредитной карты и такую персональную информацию, как телефонные номера и адреса электронной почты. Если же к этому добавляются поддельные кредитные карты или водительские удостоверения, получаются kitz. Согласно информации Dell SecureWorks, цена комплекта на одного человека может составлять до 40 000 рублей. Fullz, в зависимости от содержания, продаются в среднем за 16 000 рублей. Отдельные данные дешевле: так, доступ к аккаунту PayPal стоит от 60 до 6000 рублей, а номера кредитных карт вместе с кодами безопасности можно получить всего по 40 рублей за карту. Все утечки данных вызваны нашими кликами на компьютерах, и это — хорошая новость, ведь в таком случае каждый пользователь может сделать все, чтобы оставлять после себя как можно меньше цифровых следов. Ради повышения личной безопасности можно пожертвовать небольшой долей комфорта, в и этом вы убедитесь, если прочтете наши советы справа, нзп?

Источник статьи: журнал CHIP № 11 ноябрь 2013 сайт http://www.ichip.ru/