Существует несколько вариантов расположения БД журнала и способов извлечения из него данных.
Существует несколько вариантов расположения БД журнала и способов извлечения из него данных.
Самым доступным и полным источником данных для анализа работы сайта является стандартный журнал Интернет сервера. Например, журнал сервера Apache содержит следующие поля: IP-адрес, Дата, Время, Имя запрашиваемого ресурса, Статус запроса, Страница, с которой пришел посетитель.
Автор: Владимир Некрасов, заместитель генерального директора компании Intersoft Lab
Итак, мы обработали клиентский запрос и в результате получили несколько переменных с интересующей нас информацией.
Следующим шагом неплохо было бы определить страну клиента. Конечно, это можно сделать по домену первого уровня, взятого из имени хоста, но, во-первых, физическое расположение хоста не всегда соответствует стране, которой приписан домен (например, хост зоны .com может находиться и в России), к тому же есть такие интернациональные домены как .org, .net, .edu и т.д.
Если в httpd.conf включено определение имен хостов (HostNameLookups on), в лог записываются не ip адреса клиентов, а имена хостов. Включать определение имен хостов не рекомендуется, так как ухудшает производительность веб-сервера.
Легко заметить, что далеко не все полученные данные подходят для загрузки на SQL сервер. Например, дата должна быть в формате, "понятном" серверу. Не говоря уже о том, что bytes и status могут и не быть числами, тогда как в базе данных для них имеет смысл завести поля типа integer (для последующего суммирования).
В логе каждый клиентский запрос представлен отдельной строкой, поэтому для чтения файла лога удобно воспользоваться конструкцией Python наподобие следующей
Для того, чтобы иметь возможность получать интересующую информацию из логов веб-сервера, нужно сначала настроить журнализацию так, чтобы эта информация туда попадала.
Автор: Олег Артемов, системный администратор компании Intersoft Lab
Подготовка данных для ClickStream Intelligence
Неизвестный автор:"ВКонтакте – место для лжи знакомым людям. Твиттер – место для выкладывания правды незнакомцам." |
Какой браузер Вы используете?