WebClub.RU » Советы » Анализ полученных схем

Анализ полученных схем

Дата публикации: 30-04-2008

OLAP является мощным инструментом для стратегического анализа баз данных. Показано, что анализ, требуемый при извлечении знаний из сети, сходен с проводимым в хранилищах данных. Хорошим примером применения OLAP в данной области является система WebLogMiner [10]. Работа данной системы напоминает многоуровневую базу данных.

На первом уровне записи журналов очищаются и помещаются в реляционные таблицы. На втором уровне строится куб данных на основании выбранных атрибутов. В качестве атрибутов могут быть выбраны: пользователь, расположение пользователя, тип ресурса, время, затраченное на просмотр ресурса, дата, ответ сервера и т.д. На третьем — используется механизм OLAP, для изучения полученных данных экспертами. Для изучения можно запрашивать различные срезы куба данных. Например, можно получить статистику по всем запросам, по запросам от одного домена или от одного типа браузера. Можно получать информацию по различным пользовательским сессиям или временным отрезкам. На четвертом уровне используются методы data mining для предсказания, классификации и нахождения интересных закономерностей. Этот этап может предоставлять информацию, которую в силу различных причин не удалось обнаружить на предыдущем.

Визуализация является мощным инструментом для облегчения понимания различного рода задач. Еще в 1996 году была разработана система WebViz для визуализации образцов сетевого доступа. Система использует парадигму Web-пути, при которой наборы записей в журнале используются для извлечения последовательных наборов прохождения сети. WebViz позволяет аналитику обработать часть сети, отфильтровав неподходящую информацию по различным критериям, как-то, по именам серверов или по локальным адресам страниц. При этом сеть представлена как направленный, цикличный граф, в котором узлам соответствуют страницы и ребрам — переходы пользователей по ссылкам со страницы на страницу.

Заключение

Методы извлечения знаний из использования Internet, на данный момент, становятся все более популярными. Хорошим показателем может служить возросшее число научных публикаций за год; при этом, например, методы content mining, наоборот получают меньше внимания, чем раньше. На данный момент хорошо работающих систем позволяющих проводить точный анализ Сети, практически нет, а существующие плохо масштабируемы и мало эффективны. При этом в связи с резким ростом числа пользователей Сети, потребность рынка в подобных информационных системах крайне велика, но реализации мешает отсутствие готовых теоретических решений. Нет окончательного решения для целого ряда задач: идентификации пользователей, сохранения конфиденциальности, выбора метрики для пространства транзакций и т.д.

Литература

Alexandrin Popescul, Lyle Ungar, David Pennock, Steve Lawrence. "Probabilistic Models for Unified Collaborative and Content-Based Recommendation in Sparse-Data Environments", 17th Conference on Uncertainty in Artificial Intelligence, 2001, August 2-5.
Francesco Bonchi, Fosca Giannotti, Giuseppe Manco, Mirco Nanni, Dino Pedreschi, Chiara Renso, Salvatore Ruggieri. "Data Mining for Intelligent Web Caching", 2001 December.
Cyrus Shahabi, Farnoush Banaei-Kashani. "A Framework for Efficient and Anonymous Web Usage Mining Based on Client-Side Tracking", Department of Computer Science, Integrated Media Systems Center, University of Southern California, USA, 2001.
Jason I. Hong, James A. Landay. "WebQuilt: A Framework for Capturing and Visualizing the Web Experience", Berkley, USA, 2001
Chung-Min Chen, Munir Cochinwala, Claudio Petrone, Marc Pucci, Sunil Samtani, Patrizia Santa, Marco Mesiti. "Internet traffic Warehouse", Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, May 16-18, 2000, Dallas, Texas, USA.
Birgit Hay, Geert Wets, Koen Vanhoof. "Clustering navigational patterns on a website using a Sequence alignment method", Limburg University center, Belgium. 2001.
Robert Cooley, Bamshad Mobasher, Jaideep Srivastava. "Data Preparation for Mining World Wide Web Browsing Patterns", Knowledge and Information Systems. 1, 1999.
Osmar R. Zaiane, Man Xin, Jiawei Han. "Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs", Advances in Digital Libraries, 1998.
B. Mobasher, H. Dai, T. Luo, Y. Sun, J. Zhu. "Combining web usage and content mining for more effective personalization", In Proc. of the Intl. Conf. on ECommerce and Web Technologies (ECWeb), 2000.
B. Mobasher, R. Cooley, J. Srivastava. "Creating adaptive web sites through usage-based clustering of urls", In IEEE Knowledge and Data Engineering Workshop (KDEX'99), 1999.

Домен продается

Друзья сайта

Случайная цитата

Неизвестный автор:

"На чужой СДЛ рот не разевай, а пинок себе под зад давай и свой делай!"

Анализ полученных схем

Популярное

Друзья сайта

Навигация

Случайная цитата

Неизвестный автор:

Опрос

Анализ полученных схем

Вам должно понравиться:

Популярное

Друзья сайта

Навигация

Случайная цитата

Неизвестный автор:

Опрос