Журналы сервера / Webalizer, 206 частичное содержимое для аудио и видео файлов – как мне рассчитать количество загрузок?

ProgramBox

Журналы сервера / Webalizer, 206 частичное содержимое для аудио и видео файлов – как мне рассчитать количество загрузок?

Post author:admin
Запись опубликована:27 февраля, 2023
Post category:Вопросы по программированию

#audio #video #mp3 #logging #partial

#Аудио #Видео #mp3 #ведение журнала #частичное

Вопрос:

Мне нужно подсчитать количество загрузок видео и аудиофайлов с нашего медиасервера. На нашем медиа-сервере хранятся только аудио / видео файлы (mp3 и mp4), и мы ежемесячно анализируем наши файлы журналов IIS с помощью Stone Steps Webalizer.

Когда я смотрю на статистику вебализатора, большинство «попаданий» — это «частичное содержимое кода 206», а большая часть оставшегося — ‘код 200 ok’. Так, например, наша последняя ежемесячная статистика Webalizer выглядит примерно так —

Общее количество просмотров: 1 600 000 Код 200 — ok: 300 000 Код 206 — Частичный контент: 1 300 000

Общее количество просмотров намного больше, чем я ожидал бы, по отношению к объему обрабатываемых данных (общее количество Кбайт).

Когда я анализирую файлы журналов, кажется, что медиаплееры (iTunes, Quicktime и т. Д.) Создают несколько 206 для одной загрузки / воспроизведения, и я подозреваю, что Webalizer не группирует эти несколько 206 с одного и того же IP / посещения, а вместо этого записывает каждый 206 как «попадание» — и из-заэто показатель общего количества просмотров значительно завышен. На вики-странице есть критика Weblizer, которая, похоже, подтверждает это — http://en.wikipedia.org/wiki/Webalizer

Правильно ли я говорю о 206 и Webalizer, и если я прав, как мне рассчитать количество загрузок? Существует ли стандартная отраслевая методология и / или существуют ли альтернативные приложения для веб-аналитики, которые лучше подходят для этой задачи?

Любая помощь или совет будут высоко оценены.

Ответ №1:

Не получил никакого ответа на свой вопрос, но подумал, что дам обновление.

Мы проанализировали одночасовую выборку наших файлов журналов и провели некоторое тестирование различных браузеров / медиаплееров для файлов mp3 и mp4.

Вот наши результаты —

Некоторые медиаплееры, в частности iTunes / Quicktime, выдают серию из 206 запросов, но не выдают 200 запросов.
Большинство, но не все веб-браузеры (исключение — Chrome)
при загрузке медиафайла выдают 200 запросов и не запрашивают 206 запросов, т.Е.
загружают на рабочий стол, в отличие от воспроизведения в настольном медиаплеере
или подключаемом модуле медиаплеера
Если файл кэшируется браузером / медиаплеером, он может выдать 304 запроса, а не 200 и 206 запросов.

Учитывая вышесказанное, мы считаем, что невозможно подсчитать «загрузки» медиафайлов из анализа файлов журналов, если в программном обеспечении нет интеллектуального алгоритма, разработанного специально для этой цели. Например, потребуется сгруппировать все запросы на определенный медиафайл с одного и того же IP-адреса в течение заданного периода времени (скажем, 30 минут) и посчитать это как одну загрузку. Насколько мне известно, на рынке нет программного обеспечения для анализа файлов журналов, которое могло бы предложить такую функциональность.

Я быстро поискал в Google, чтобы узнать больше о подкастах / видеометриках / анализе файлов журналов, и это кажется очень реальной, хотя и узкоспециализированной проблемой. Google Analytics и другие инструменты веб-метрики, использующие веб-маяки, например SiteStat, не подходят, если ваши медиафайлы доступны только для скачивания с вашего сайта, т.Е. Без RSS или iTunes синдикации и т.д. Даже тогда я не уверен, смогут ли они выполнить эту работу.

Я думаю, именно поэтому такие компании, как podtrac и blubrry, предлагают специализированные инструменты для измерения подкастов / видео, использующие перенаправления, а не анализ файлов журналов.

Podtrac http://podtrac.com/publisher/measurement

Blubrry http://www.blubrry.com/podcast_statistics /

Если у кого-то есть опыт или знания в этой области, не стесняйтесь вмешиваться и давать советы или поправлять меня, если я ошибаюсь.

Ответ №2:

Попробуйте мое программное обеспечение. Я столкнулся с той же проблемой, когда mp3-файлы были разделены на несколько потоков для iPod и Iphone. Это действительно легко реализовать и работает с удовольствием.

Github

Ответ №3:

Вероятно, это слишком поздно, чтобы помочь вам конкретно, но если вы проанализировали журналы своего сервера и сохранили их где-нибудь разумно, например, в СУБД, быстрый SQL даст вам объединенные результаты, которые вам нужны. Учитывая очень простую таблицу журналов, где каждый 206 записывается с указанием «времени попадания», IP-адреса конечной точки и идентификатора / внешнего ключа выбранного элемента, вы можете выполнить этот запрос:

 select min(hit_time) as hit_time, ip_address, episode_id
from podcast_hit
group by DATE(hit_time), ip_address, episode_id

Это сгруппирует все 206 записей и сделает их уникальными по дням и пользователям, предоставляя вам более точную статистику. Надеюсь, это кому-то поможет!