WebClub - Всероссийский Клуб Веб-разработчиков
WebClub.RU » Советы » Кластеризация транзакций

Кластеризация транзакций


Дата публикации: 29-04-2008

Основной областью применения для кластер-анализа в Web usage mining, является персонификация наполнения страниц. Пользователь распределяется в одну из категорий, после чего соответствующим образом изменяется выводимая для данного пользователя информация [9]. Еще одной традиционной для кластеризации областью применения является поддержка принятия решений [5].

В [10] кластеризация используется для автоматической модификации страниц. В данной работе особый интерес представляет выбор объекта кластеризации. Ее авторы предлагают не проводить разбиение по транзакциям. Отказ от традиционного подхода объясняется трудностями с выбором метрики, а также слишком большим количеством транзакций, относительно общего числа страниц. В этой работе используется метод ARHP. На первом этапе с помощью алгоритма нахождения ассоциативных правил выделяются группы страниц, к которым часто обращаются на протяжении одной транзакции. На втором полученные группы проецируются на ребра графа, и к графу применяется алгоритм кластеризации. При запросе пользователя, система размещает текущую транзакцию в один из заранее созданных кластеров. В зависимости от свойств данного кластера формируется результирующий список ссылок, интересных пользователю, который выводится на просматриваемой странице.

При применении кластеризации всегда требуется решить две различные проблемы: выбор метрики и выбор алгоритма. Основной проблемой при кластеризации транзакций является выбор метрики. По ряду причин классические евклидовы метрики оказываются неэффективными.

Можно попробовать сравнивать сеансы пользователей следующим образом. Поскольку количество страниц ограничено, представим все сессии как вектора одинаковой длины, где длина — общее количество анализируемых страниц, а значениями элементов будет Истина, если такая страница входит в сеансы — Ложь, если не входит. Используя подходящие методы кластеризации, при таком подходе можно добиться достаточно точных результатов (например, алгоритмы ROCK или CACTUS). Но при таком подходе теряется количество обращений к одной странице за время одной транзакции, также не учитывается последовательность посещения страниц.

Второй проблемой, сопряженной с выбором метрики, является нормализация транзакций. Достаточно часто приходится сравнивать между собой транзакции из двух-трех страниц, и транзакции длинной свыше 25 переходов. На данный момент работ, посвященных этой проблеме, нет. Следует отметить, что проблема нормализации данных отпадает при применении некоторых специальных метрик. Очень перспективно выглядит возможность изучения применимости для кластеризации транзакций метрики n-грамов, но на данный момент таких работ также нет.

 

Домен продается

Популярное

Не так давно в сети появился новый сервис, под названием Dead Man Zero. Этот сервис сделал...
Рынок социальных площадок уже давно стал стабильным. Несмотря на то, что время от времени...
Artisteer 4 – единственный в своем роде продукт, позволяющий автоматизировать работу над созданием...
Август 2024 (1)
Май 2024 (1)
Апрель 2024 (1)
Октябрь 2018 (14)
Февраль 2017 (3)
Январь 2017 (1)

Карта сайта: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41

Друзья сайта



Случайная цитата

Edward V Berard:

"Ходить по воде и разрабатывать программы, следуя спецификации, очень просто… если они заморожены."

Опрос

Ваша ОС?

Windows XP
Windows 7
др. версия Windows
Linux
др. ОС