Дескриптивный дата-майнинг делает упор на создание сводок и понимание характеристик исторических данных. Он старается выявить паттерны, взаимоотношения и структуры в имеющихся данных, что помогает понять внутреннее поведение данных. Методики дескриптивного дата-майнинга:
- Кластеризация
- Обобщение
- Ассоциативные правила
Кластеризация группирует различные примеры данных на основании их схожести, формируя кластеры, члены которых имеют больше общего, чем находящиеся в других кластерах. В отличие от классификации, при которой данные сортируются в заранее установленные категории на основании известных атрибутов, кластеризация — это исследовательское группирование данных без готовых меток.
Например, бизнес по организации круизов может применять кластеризацию для сегментации клиентов с целью более эффективного маркетинга. Изучая такие данные, как история путешествий, траты на борту и демографический состав, круизные компании могут выявлять естественные группы среди своих клиентов. Один кластер может состоять из семей, предпочитающих удобные для детей активности, а другой — из пар пенсионеров, стремящихся к изысканным удовольствиям.
Обобщение (Summarization) — это сжатие крупных датасетов в более удобную и понятную форму без потери важной информации. Этот процесс включает в себя извлечение ключевых признаков данных, позволяющих быстро просматривать и понимать их основные характеристики.
Возьмём для примера большую сеть отелей со множеством отделений по всему миру. Обобщение можно использовать для консолидации и презентации таких ключевых операционных данных, как коэффициент заполнения номеров, средняя стоимость номеров и демография посетителей. Также это может включать в себя создание краткого отчёта или дэшборда для быстрой оценки показателей.
Ассоциативные правила — это методика дескриптивного моделирования данных, нацеленная на выявление интересных взаимосвязей и ассоциаций между разными переменными в крупных датасетах. В отличие от обобщения, конденсирующего данные, и классификации/кластеризации, группирующих схожие элементы, ассоциативные правила выявляют паттерны, связи и совместное появление элементов в данных. Эта методика особенно ценна при выявлении паттернов, которые могут быть неочевидны на первый взгляд.
В контексте отелей ассоциативные правила могут помочь в выявлении взаимосвязей между сервисами, используемыми посетителями. Например, анализ может показать, что путешествующие в одиночку часто предпочитают номера, окна которых не выходят на бассейн (и готовы платить за них больше). Этот паттерн может быть показателем того, что эти посетители (возможно, путешествующие с деловыми целями) предпочитают более тихие места, удалённые от потенциальных источников шума.
Аналогично, может выясниться, что семьи с детьми часто просят соседние номера и с большой вероятностью будут питаться в удобном для семей ресторане отеля.