Выборка и семплирование
Краткое содержание
Cемплирование — метод отбора представительной выборки из данных, позволяющий сократить время обработки, сохраняя достоверность результатов. Выборка измеряется в процентах от общего набора данных.
Как рассчитывается выборка
При расчёте учитываются:
- средний дневной объём данных
- период отчёта
- количество показателей, параметров, сегментов
Чем больше объём данных и количество параметров, тем ниже процент выборки. Для больших объёмов могут быть предложены несколько вариантов.
Как изменить выборку
Рекомендуемая выборка определяется автоматически. Пользователь может использовать рассчитанную выборку или выбрать 100% данных.
При построении отчёта Аналитика использует данные о событиях и сессиях пользователя. Если объём данных очень большой, отчёты могут загружаться слишком долго. Чтобы это не происходило, в Аналитике есть возможность использовать только часть этих данных — выборку.
Выборка является репрезентативной — сохраняет основные характеристики всего набора.
Что такое выборка / семплирование
Cемплирование — это метод отбора и анализа представительной выборки из всего объема данных.
Обработка полного объема может занимать слишком много времени, особенно если данных очень много. Семплирование позволяет работать с меньшим объемом — выборкой, сохраняя при этом достоверность результатов. Выборка измеряется в процентах от общего набора данных.
Как рассчитывается выборка
При расчёте процента выборки учитывается ряд признаков. В зависимости, например, от объема данных и количества сегментов выборка может быть больше или меньше.
При расчёте выборки учитываются:
- средний дневной объём данных — среднее количество передаваемых данных за 60 дней
- период отчёта
- количество показателей
- количество параметров
- количество сегментов
Чем больше набор данных, период отчёта и количество показателей, параметров и сегментов, тем ниже процент выборки. Для большого объёма данных может быть предложено несколько вариантов выборки.
Как изменить выборку
Рекомендуемая выборка определяется автоматически с учётом описанных признаков. Вы можете использовать рассчитанную выборку или 100% данных

FAQ
Выборка репрезентативна?
Выборка является репрезентативной — сохраняет основные характеристики всего набора.
Как увеличить размер автоматической выборки?
Уменьшите отчётный период или количество показателей, параметров, сегментов.
Выборка работает детерминированно?
Да, семплирование работает детерминированно. При многократном выполнении одного и того же запроса с одинаковым процентом семплирования результат будет одинаковым.
Что происходит с исходными данными при семплировании?
Исходные данные не удаляются и не изменяются.