WebClub - Всероссийский Клуб Веб-разработчиков
WebClub.RU » Советы » Потоки данных в WWW

Потоки данных в WWW


Дата публикации: 10-02-2008

На протяжении нескольких десятилетий при анализе моделей, возникающих в теории вычислительных систем, исследователи привыкли считать входные потоки пуассоновскими, а распределения длин заявок кспоненциальными. Такие предположения позволяют строить марковский процесс и получать аналитические результаты, которые носят если и не предсказательный, то хотя бы объясняющий характер. Разумеется, когда в первой половине 90-х годов специалисты занялись моделированием столь сложной структуры, как Всемирная паутина, не мог не возникнуть вопрос, насколько эти предположения близки к реальности. Основополагающей явилась работа [9], авторы которой показали, что потоки в Web описываются не пуассоновскими, а иными законами распределения тяжелым хвостомeavy-tailed) или степенными.

Такие распределения описываются зависимостью Pr(X>x)~x-a, 0<a<2, Pr(X>x) ероятность превышения случайной величиной аданного числа Для подобного распределения характерно бесконечное значение дисперсии, а при a<1 бесконечное математическое ожидание. Кроме того, оказывается, что большая часть загрузки приходится на очень малую часть (<1%) линныхнтервалов.

Типичными примерами распределения с яжелым хвостомвляются распределения Парето и Вейбулла. Приведем оценки параметра a для некоторых характеристик, подчиняющихся распределению Парето (меньшее значение параметра соответствует большей выраженности свойств случайной величины):

  • размеры файлов, передаваемых по протоколу HTTP: 1,1<a<1,3;
  • размеры файлов, передаваемых по протоколу FTP: 0,9<a<1,1.

Авторы работы [5] собрали статистику по множеству запрашиваемых файлов (могут запрашиваться многократно), множеству передаваемых с сервера файлов (не обнаруженные в кэше и повторные файлы), множеству уникальных файлов. На ее основании был сделан вывод, что размеры файлов в каждом из множеств хорошо описываются распределением Парето. Более полная классификация статистических данных приведена в [2], где введено понятие инвариантов, т.е. характеристик, отражающих особенности некоторой целостной совокупности данных в Web:

  • доля успешных обращений составляет 88%, остальное - отсутствие документа на сервере или прав доступа к нему;
  • HTML-файлы и графические файлы составляют от 90% до 100%;
  • средний размер передачи - 21 Кбайт;
  • список файлов без повторов - менее 3% от общего числа передаваемых файлов;
  • распределение размера файла - Парето, 0,4<a<0,63;
  • концентрация ссылок - на 10% файлов приходится до 90% запросов, которые составляют 90% трафика;
  • география - обращения из 10% от общего числа доменов составляют свыше 75% всех обращений.

Неравномерность распределения показателей загрузки можно почерпнуть и из собственного опыта. Например, за июнь 2002 года с официального Web-сервера администрации Сургута было осуществлено 73740 запросов страниц; если их упорядочить по убыванию числа посещений, то получится список без повторов из 6616 HTML-файлов, причем 36194 запросов приходится на первые 61 файл. Таким образом, в этом случае менее чем на 1% файлов приходится свыше 50% запросов.

Так называемое ремя обдумыванияhinking time) ромежуток между получением ответа и новым запросом акже распределено по закону Парето. Это же распределение применимо к количеству гипертекстовых ссылок, ведущих на данную страницу (inbound) и со страницы (outbound).

 

 

 

 Теперь у нас на фирме заработала система "GPS контроль транспорта". С ее помощь через компьютер отслеживаются все без исключения автомобили на маршруте, фиксируется их местонахождение. Мало того, оператор следит почти за всеми мало-мальски важными показателями транспортного средства, будь то скорость, обороты двигателя, расход горючего, да и вообще любые манипуляции с топливным баком.

Домен продается

Популярное

Не так давно в сети появился новый сервис, под названием Dead Man Zero. Этот сервис сделал...
Рынок социальных площадок уже давно стал стабильным. Несмотря на то, что время от времени...
Artisteer 4 – единственный в своем роде продукт, позволяющий автоматизировать работу над созданием...
Апрель 2024 (1)
Октябрь 2018 (14)
Февраль 2017 (3)
Январь 2017 (1)
Август 2016 (1)
Май 2016 (2)

Карта сайта: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41

Друзья сайта



Случайная цитата

Неизвестный автор:

"Плохой анкор, вебмастеру укор."

Опрос

Какой антивирус Вы используете?

Kaspersky Antivirus
NOD32
Norton Antivirus
Dr.Web
Panda
Аvast!
ClamWin
Другой...