Перейти к основному содержимому

Выборка и семплирование

Краткое содержание

Cемплирование — метод отбора представительной выборки из данных, позволяющий сократить время обработки, сохраняя достоверность результатов. Выборка измеряется в процентах от общего набора данных.

Как рассчитывается выборка
При расчёте учитываются:

  • средний дневной объём данных
  • период отчёта
  • количество показателей, параметров, сегментов

Чем больше объём данных и количество параметров, тем ниже процент выборки. Для больших объёмов могут быть предложены несколько вариантов.

Как изменить выборку
Рекомендуемая выборка определяется автоматически. Пользователь может использовать рассчитанную выборку или выбрать 100% данных.

При построении отчёта Аналитика использует данные о событиях и сессиях пользователя. Если объём данных очень большой, отчёты могут загружаться слишком долго. Чтобы это не происходило, в Аналитике есть возможность использовать только часть этих данных — выборку.

Важно

Выборка является репрезентативной — сохраняет основные характеристики всего набора.

Что такое выборка / семплирование

Cемплирование — это метод отбора и анализа представительной выборки из всего объема данных.

Обработка полного объема может занимать слишком много времени, особенно если данных очень много. Семплирование позволяет работать с меньшим объемом — выборкой, сохраняя при этом достоверность результатов. Выборка измеряется в процентах от общего набора данных.

Как рассчитывается выборка

При расчёте процента выборки учитывается ряд признаков. В зависимости, например, от объема данных и количества сегментов выборка может быть больше или меньше.

При расчёте выборки учитываются:

  • средний дневной объём данных — среднее количество передаваемых данных за 60 дней
  • период отчёта
  • количество показателей
  • количество параметров
  • количество сегментов

Чем больше набор данных, период отчёта и количество показателей, параметров и сегментов, тем ниже процент выборки. Для большого объёма данных может быть предложено несколько вариантов выборки.

Как изменить выборку

Рекомендуемая выборка определяется автоматически с учётом описанных признаков. Вы можете использовать рассчитанную выборку или 100% данных

sample

FAQ

Выборка репрезентативна?

Выборка является репрезентативной — сохраняет основные характеристики всего набора.

Как увеличить размер автоматической выборки?

Уменьшите отчётный период или количество показателей, параметров, сегментов.

Выборка работает детерминированно?

Да, семплирование работает детерминированно. При многократном выполнении одного и того же запроса с одинаковым процентом семплирования результат будет одинаковым.

Что происходит с исходными данными при семплировании?

Исходные данные не удаляются и не изменяются.