Предсказание заражения рабочих станций как практический пример использования технологий Big Data и машинного обучения freshcvvsu, freshbasecc

В настоящее время никого не удивить программами, блокирующими вредоносное ПО при обнаружении малейших признаков его присутствия.
Автор: Екатерина Купчихина, инженер отдела средств защиты информации InnoSTage
В настоящее время никого не удивить программами, блокирующими вредоносное ПО при обнаружении малейших признаков его присутствия. Но в начале этого года на Kaggle (крупнейшая платформа для специалистов по машинному обучению и анализу данных) прошло соревнование Microsoft Malware Prediction https://www.kaggle.com/c/microsoft-malware-predict… , поставившее цель не просто обнаружить вредонос, но и предсказать его появление на машине еще до ее заражения.
Денежный приз этого соревнования составлял $25,000. Любое мероприятие, на которое Microsoft выделяет такие суммы, заслуживает внимания, даже если конечной целью было всего лишь продвижение своего продукта. Также в числе спонсоров соревнования Windows Defender ATP Research и университеты Northeastern University College of Computer and Information Science и Georgia Tech Institute for Information Security & Privacy. Компания Microsoft предоставила около 10 Гб обезличенной информации с 17 миллионов девайсов. В нее входят категориальные признаки машин, такие как тип устройства, версия и тип операционной системы, количество установленного антивируса и т.д. То есть вся та информация, что доступна службе Windows Defender ATP. Таким образом, идея вполне оправдана: опасный паттерн из данных параметров будет сигнализировать защитнику Windows о том, что его хозяин вскоре будет атакован вредоносом, и необходимо обновиться до более поздней версии, чтобы это предотвратить.
В теории от того, насколько хорошо участники соревнования справились с этой задачей, зависит число зараженных машин в будущем. Но только в теории: если считать, что появление уязвимостей нулевого дня коррелирует с теми же признаками, что и уже известные. На практике же появление зловредов – проблема более комплексная, зависящая и от таких параметров, как, например, поведение пользователя, которые не могут быть доступны службе Windows Defender ATP. Поэтому надеяться на то, что участники соревнования покажут 99 % точность, было бы глупо. Забегая вперед, заметим, что лучший результат показал участник с 67% точностью. То, что было предоставлено организаторами – это всего лишь косвенные признаки зараженных и незараженных машин, но никак не напрямую влияющие на заражение. Таким образом, мы ограничиваем свое видение прямых причин появления зловредов. Но машинное обучение – это не универсальное решение для любой задачи. Прежде всего нужно понимать постановку задачи и продумать датасет (набор данных, на котором обучаются и тестируются модели) для обучения – те данные, которые помогут модели.
Это уже не первое соревнование Microsoft и Kaggle на тему вредоносов. В 2015 году проводилось соревнование: https://www.kaggle.com/c/ malware-classification, где необходимо было классифицировать вредоносный файл как один из девяти классов: Ramnit, Lollipop, Kelihos_ver3, Vundo, Simda, Tracur, Kelihos_ ver1, Obfuscator.ACY или Gatak. Всего в датасете было порядка 0,5 Тб данных, содержащих код на Ассемблере.
Победитель соревнования, команда «say NOOOOO to overfittttting», показавшая 99% точность, использовала ансамбль из трех Xgboost-моделей, обученных с частичным привлечением учителя. В числе методов, которые они использовали, алгоритм Apriori, который предназначен для поиска наиболее часто встречающихся элементов – команда использовала его, чтобы найти циклы в программном коде.
Несмотря на объемный датасет того соревнования, в обучающей выборке было чуть более 10 тысяч вредоносов. В новом же соревновании количество элементов в обучающей выборке значительно больше – почти 9 млн. Однако не все так безоблачно, как может показаться, глядя на такую цифру. Некоторые признаки пусты у 99% элементов выборки. 26 признаков принимают одно и то же значение у 90% элементов. Это значит, что с точки зрения машинного обучения данные признаки бесполезны. Итого остается около пяти десятков характеристик, на основании которых должна обучиться модель. В то время как Joshua Saxe и Hillary Sanders в своей книге «Malware Data Science» говорят о том, что современные обнаружители вредоносных файлов используют тысячи, а то и миллионы характеристик.
Участниками соревнований была выявлена следующая статистика на основании предоставленного датасета.
Рис. 1
Средняя доля заражений с версией 1.275 = 0,49, а с версией 1.273 = 0,53.
Среди машин, на которых установлен всего один антивирус, число зараженных было больше, чем незараженных. (Рис. 2)
Рис. 2
Рис. 3
Рис. 4
На самом деле, это не значит, что больше половины компьютеров с оперативной памятью в 16 Гб, заражены. Дело в том, что классы зараженных и незараженных машин сбалансированы: в обучающей выборке 49,98% машин с вредоносом и 50,02% – без. Поэтому отклонение в несколько процентов в таком наборе данных – значительное заявление о важности того или иного параметра.
Победитель данного соревнования, команда «abuurista», к сожалению, не раскрыла свой способ решения. Только две из пяти команд, получивших денежный приз, рассказали о своих методах: они использовали дерево решений LightGBM. Если посмотреть на модели, которые участники выкладывали в обсуждения, то можно заметить, что именно это дерево решений и занимает львиную долю всех решений. По существу, участники соревновались в обработке исходных данных и подборе гиперпараметров данного дерева.
Но не стоит забывать, что модели решений на данном соревновании показывают точность в 67% на машинах с уже известными заражениями. И тот факт, что какие-то признаки коррелируют с присутствием заражения, еще не означает, что у этих признаков есть причинно-следственная связь. Таким образом, при появлении нового вируса или эксплойта, который будет использовать принципиально другие методы, данная модель окажется бессильной.
Как призывают авторы книги «Malware Data Science», в наше время безопасность в целом следует рассматривать как задачу Big Data. Применение алгоритмов машинного обучения с использованием большого количества данных – необходимое условие в борьбе с вредоносным ПО, и новое соревнование Kaggle – важный шаг в этом направлении. Поэтому если в компании есть большой собственный пул серверов или ПК, на которых огромное количество информативных данных, можно попробовать использовать их для создания собственной модели Big Data. В качестве задачи может выступить не только предсказание вредоносов, а в качестве датасета – не только категориальные признаки машин. Это может быть и анализ трафика, и обнаружение уязвимостей, и выявление аномалий. На Kaggle есть множество примеров таких решений – главное, чтобы было желание.
В статье мы расскажем о наиболее интересных стартапах в области кибербезопасности, на которые следует обратить внимание.
Хотите узнать, что происходит нового в сфере кибербезопасности, – обращайте внимание на стартапы, относящиеся к данной области. Стартапы начинаются с инновационной идеи и не ограничиваются стандартными решениями и основным подходом. Зачастую стартапы справляются с проблемами, которые больше никто не может решить.
Обратной стороной стартапов, конечно же, нехватка ресурсов и зрелости. Выбор продукта или платформы стартапа – это риск, требующий особых отношений между заказчиком и поставщиком . Однако, в случае успеха компания может получить конкурентное преимущество или снизить нагрузку на ресурсы безопасности.
Ниже приведены наиболее интересные стартапы (компании, основанные или вышедшие из «скрытого режима» за последние два года).
Компания Abnormal Security, основанная в 2019 году, предлагает облачную платформу безопасности электронной почты, которая использует анализ поведенческих данных для выявления и предотвращения атак на электронную почту. Платформа на базе искусственного интеллекта анализирует поведение пользовательских данных, организационную структуру, отношения и бизнес-процессы, чтобы выявить аномальную активность, которая может указывать на кибератаку. Платформа защиты электронной почты Abnormal может предотвратить компрометацию корпоративной электронной почты, атаки на цепочку поставок , мошенничество со счетами, фишинг учетных данных и компрометацию учетной записи электронной почты. Компания также предоставляет инструменты для автоматизации реагирования на инциденты, а платформа дает облачный API для интеграции с корпоративными платформами, такими как Microsoft Office 365, G Suite и Slack.
Копания Apiiro вышла из «скрытого режима» в 2020 году. Ее платформа devsecops переводит жизненный цикл безопасной разработки «от ручного и периодического подхода «разработчики в последнюю очередь» к автоматическому подходу, основанному на оценке риска, «разработчики в первую очередь», написал в блоге соучредитель и генеральный директор Идан Плотник . Платформа Apiiro работает, соединяя все локальные и облачные системы управления версиями и билетами через API. Платформа также предоставляет настраиваемые предопределенные правила управления кодом. Со временем платформа создает инвентарь, «изучая» все продукты, проекты и репозитории. Эти данные позволяют лучше идентифицировать рискованные изменения кода.
Axis Security Application Access Cloud – облачное решение для доступа к приложениям , построенное на принципе нулевого доверия. Он не полагается на наличие агентов, установленных на пользовательских устройствах. Поэтому организации могут подключать пользователей – локальных и удаленных – на любом устройстве к частным приложениям, не затрагивая сеть или сами приложения. Axis вышла из «скрытого режима» в 2020 году.
BreachQuest, вышедшая из «скрытого режима» 25 августа 2021 года, предлагает платформу реагирования на инциденты под названием Priori. Платформа обеспечивает большую наглядность за счет постоянного отслеживания вредоносной активности. Компания утверждает, что Priori может предоставить мгновенную информацию об атаке и о том, какие конечные точки скомпрометированы после обнаружения угрозы.
Cloudrise предоставляет услуги управляемой защиты данных и автоматизации безопасности в формате SaaS. Несмотря на свое название, Cloudrise защищает как облачные, так и локальные данные. Компания утверждает, что может интегрировать защиту данных в проекты цифровой трансформации. Cloudrise автоматизирует рабочие процессы с помощью решений для защиты данных и конфиденциальности. Компания Cloudrise была запущена в октябре 2019 года.
Cylentium утверждает, что ее технология кибер-невидимости может «скрыть» корпоративную или домашнюю сеть и любое подключенное к ней устройство от обнаружения злоумышленниками. Компания называет эту концепцию «нулевой идентичностью». Компания продает свою продукцию предприятиям, потребителям и государственному сектору. Cylentium была запущена в 2020 году.
Компания Deduce , основанная в 2019 году, предлагает два продукта для так называемого «интеллектуального анализа личности». Служба оповещений клиентов отправляет клиентам уведомления о потенциальной компрометации учетной записи, а оценка риска идентификации использует агрегированные данные для оценки риска компрометации учетной записи. Компания использует когнитивные алгоритмы для анализа конфиденциальных данных с более чем 150 000 сайтов и приложений для выявления возможного мошенничества. Deduce заявляет, что использование ее продуктов снижает ущерб от захвата аккаунта более чем на 90%.
Автоматизированная платформа безопасности и соответствия Drata ориентирована на готовность к аудиту по таким стандартам, как SOC 2 или ISO 27001. Drata отслеживает и собирает данные о мерах безопасности, чтобы предоставить доказательства их наличия и работы. Платформа также помогает оптимизировать рабочие процессы. Drata была основана в 2020 году.
FYEO – это платформа для мониторинга угроз и управления доступом для потребителей, предприятий и малого и среднего бизнеса. Компания утверждает, что ее решения для управления учетными данными снимают бремя управления цифровой идентификацией. FYEO Domain Intelligence («FYEO DI») предоставляет услуги мониторинга домена, учетных данных и угроз. FYEO Identity будет предоставлять услуги управления паролями и идентификацией, начиная с четвертого квартала 2021 года. FYEO вышла из «скрытого режима» в 2021 году.
Kronos – платформа прогнозирующей аналитики уязвимостей (PVA) от компании Hive Pro , основанная на четырех основных принципах: предотвращение, обнаружение, реагирование и прогнозирование. Hive Pro автоматизирует и координирует устранение уязвимостей с помощью единого представления. Продукт компании Artemis представляет собой платформу и услугу для тестирования на проникновение на основе данных. Компания Hive Pro была основана в 2019 году.
Израильская компания Infinipoint была основана в 2019 году. Свой основной облачный продукт она называет «идентификация устройства как услуга» или DIaaS , который представляет собой решение для идентификации и определения положения устройства. Продукт интегрируется с аутентификацией SSO и действует как единая точка принуждения для всех корпоративных сервисов. DIaaS использует анализ рисков для обеспечения соблюдения политик, предоставляет статус безопасности устройства как утверждается, устраняет уязвимости «одним щелчком».
Компания Kameleon , занимающаяся производством полупроводников, не имеет собственных фабрик и занимает особое место среди поставщиков средств кибербезопасности. Компания разработала «Блок обработки проактивной безопасности» (ProSPU). Он предназначен для защиты систем при загрузке и для использования в центрах обработки данных, управляемых компьютерах, серверах и системах облачных вычислений. Компания Kameleon была основана в 2019 году.
Облачная платформа безопасности данных Open Raven предназначена для обеспечения большей прозрачности облачных ресурсов. Платформа отображает все облачные хранилища данных, включая теневые облачные учетные записи, и идентифицирует данные, которые они хранят. Затем Open Raven в режиме реального времени отслеживает утечки данных и нарушения политик и предупреждает команды о необходимости исправлений. Open Raven также может отслеживать файлы журналов на предмет конфиденциальной информации, которую следует удалить. Компания вышла из «скрытого режима» в 2020 году.
Компания Satori, основанная в 2019 году, называет свой сервис доступа к данным “DataSecOps”. Целью сервиса является отделение элементов управления безопасностью и конфиденциальностью от архитектуры. Сервис отслеживает, классифицирует и контролирует доступ к конфиденциальным данным. Имеется возможность настроить политики на основе таких критериев, как группы, пользователи, типы данных или схема, чтобы предотвратить несанкционированный доступ, замаскировать конфиденциальные данные или запустить рабочий процесс. Сервис предлагает предварительно настроенные политики для общих правил, таких как GDPR , CCPA и HIPAA .
Компания Scope Security недавно вышла из «скрытого режима», будучи основана в 2019 году. Ее продукт Scope OmniSight нацелен на отрасль здравоохранения и обнаруживает атаки на ИТ-инфраструктуру, клинические системы и системы электронных медицинских записей . Компонент анализа угроз может собирать индикаторы угроз из множества внутренних и сторонних источников, представляя данные через единый портал.
Основным продуктом Strata является платформа Maverics Identity Orchestration Platform . Это распределенная мультиоблачная платформа управления идентификацией. Заявленная цель Strata – обеспечить согласованность в распределенных облачных средах для идентификации пользователей для приложений, развернутых в нескольких облаках и локально. Функции включают в себя решение безопасного гибридного доступа для расширения доступа с нулевым доверием к локальным приложениям для облачных пользователей, уровень абстракции идентификации для лучшего управления идентификацией в мультиоблачной среде и каталог коннекторов для интеграции систем идентификации из популярных облачных систем и систем управления идентификацией. Strata была основана в 2019 году.
SynSaber , запущенная 22 июля 2021 года, предлагает решение для мониторинга промышленных активов и сети. Компания обещает обеспечить «постоянное понимание и осведомленность о состоянии, уязвимостях и угрозах во всех точках промышленной экосистемы, включая IIoT, облако и локальную среду». SynSaber была основана бывшими лидерами Dragos и Crowdstrike.
Traceable называет свой основной продукт на основе искусственного интеллекта чем-то средним между брандмауэром веб-приложений и самозащитой приложений во время выполнения. Компания утверждает, что предлагает точное обнаружение и блокирование угроз путем мониторинга активности приложений и непрерывного обучения, чтобы отличать обычную активность от вредоносной. Продукт интегрируется со шлюзами API. Traceable была основана в июле 2020 года.
Компания Wiz, основанная командой облачной безопасности Microsoft, предлагает решение для обеспечения безопасности в нескольких облаках, рассчитанное на масштабную работу. Компания утверждает, что ее продукт может анализировать все уровни облачного стека для выявления векторов атак с высоким риском и обеспечивать понимание, позволяющее лучше расставлять приоритеты. Wiz использует безагентный подход и может сканировать все виртуальные машины и контейнеры. Wiz вышла из «скрытого режима» в 2020 году.
Работает на CMS “1С-Битрикс: Управление сайтом”
freshcvvsu freshbasecc

Author: wpadmin