Jump to content

Введите пароль или зарегистрируйтесь

Авторизация
Ваш логин:У меня нет логина!Ваш пароль:Я забыл пароль!

Статистическая погрешность результатов и культура представления данных в маркетинге

Проблема качества маркетинговых исследований стоит перед разработчиками рекламных стратегий достаточно остро и, как правило, сводится к соответствию получаемых в результате данных реальному положению дел. Однако мало кто задумывается над тем, что те цифры, на основе которых будут приниматься судьбоносные для рекламной кампании решения, не являются величинами абсолютными, и чтобы действительно ориентироваться в ситуации, опираясь на исследования, необходимо учитывать погрешность измерений. Предлагаемая автором методика позволяет подойти к статистике со всей серьезностью и научиться за цифрами видеть то, что недоступно невооруженному взгляду неспециалиста.

Маркетинг для России — сравнительно новая прикладная наука. Здесь, в основном, работают представители «смежных» профессий — социологи, психологи, экономисты и т.д.

Смешение профессиональных культур тормозит развитие собственной культуры проведения маркетинговых исследований (в дальнейшем — МИ) и представления их результатов, на основании которых заказчик исследований должен принимать решения и вести свой бизнес.

Рассмотрим частный вопрос о статистической погрешности количественных МИ и о том, как в связи с наличием данной погрешности целесообразно представлять результаты.

Проводя количественные (или статистические) измерения различных параметров рынка, исследователь получает конкретные результаты, выраженные в цифрах, — проценты, рейтинги и т.д. Данные цифры, оформленные в виде системы таблиц, графиков и т.п., сопровожденные выводами и рекомендациями, представляются заказчику.

Здесь есть одна проблема, скорее всего не известная заказчику, но о которой исследователь должен знать.

Все представленные в отчете цифры — есть только оценка измеряемого параметра, сделанная исследователем на основании проведенных статистических измерений. Оценка в принципе не точна, хотя бы потому, что имеет т.н. «статистическую погрешность» (в принципе данные могут иметь иные виды погрешности, например, связанные с ошибками исследователя при проектировании и организации самого процесса исследования, неправильной постановки задачи и т.д. Мы их здесь не рассматриваем).

Иными словами, предоставленные цифры имеют свои %.

Естественно, чем больше величины выборки статистических измерений, тем меньше статистическая погрешность.

Исследователь является профессионалом, поэтому, скорее всего, знает о величине статистической погрешности в представленных заказчику данных. Исследователь в отчете указывает, как правило, величину статистической погрешности.

Но заказчик может и не знать, что означает указанная исследователем в отчете статистическая погрешность, а главное, что с этой погрешностью делать, как ее учитывать при проектировании своей дальнейшей деятельности.

Ниже рассмотрим два основных вопроса:

  1. Статистические погрешности измерений. (В основном, для профессионалов).
  2. Как корректно представлять заказчику количественные данные при имеющейся статистической погрешности.

Пример. Фрагмент отчета по статистике заболеваемости населения Москвы.

Вопрос: «Вы болели гриппом последнее время?»

При проведении выборочного опроса ответы распределились следующим образом (в абсолютных цифрах):

Болели гриппом в течение последних ...Частота (чел.)
2 недель43
1 месяца79
2 месяцев113
3 месяцев86
полугода80
Всего401

Величина статистических погрешностей

Допустим, мы хотим оценить некий параметр р рынка. С этой целью мы проводим статистическое измерение на выборке n.

Отметим, что число р есть абсолютно точное значение искомого параметра, которое нам неизвестно и не может быть известно в принципе, но которое нам надо оценить методом статистических измерений.

Доверительная вероятность и соответствующий ей интервал

Проводя статистическое измерение, мы можем получить оценку р* нашего искомого параметра р.

Наша оценка р* будет находиться где-то вблизи истинного значения параметра р, и, скорее всего, не будет точно равна р.

Распределение возможных значений оценок значения искомого параметра f(p*), подчиняется, в общем случае, нормальному (Гауссовому) закону — рис.1.

рис.1.

Здесь =3,14159...

— т.н. среднеквадратичное отклонение (СКО), величина, зависимая от объема выборки n: чем больше выборка, тем меньше отклонение.

Площадь, ограниченная гауссовой кривой и горизонтальной осью, равна 1.

Рассмотрим процент А% площади под кривой вблизи р в границах от р-х до р+х. (рис. 2)

рис.2.

С вероятностью А% полученная оценка р* будет находиться в границах от р-х до р+х.

Вероятность А% называют доверительной вероятностью. Говорят: с вероятностью А% наша оценка р* будет находиться в интервале между нижней границей р-х и верхней границей р+х вблизи р.

Или сокращенно — «р%х».

Принята стандартная величина доверительной вероятности А=95%, в этом случае наш интервал будет иметь границы %2 вблизи р. Или — р%2 (рис.3).

рис.3.

Правдоподобие

В предыдущем разделе вопрос стоял о том, где вблизи истинного значения параметра р может находиться наша оценка р*.

В жизни — наоборот. Мы не знаем истинного значения р, но, проведя статистические измерения, находим оценку р*.

Вопрос о погрешности нашей оценки ставится следующим образом: каков тот интервал вблизи р*, где может находиться (с вероятностью А%) истинное значение параметра р?

Иными словами, р% сколько? при данной выборке n.

Рассмотрим этот вопрос.

Итак, мы имеем оценку р*. Мы вправе выдвинуть гипотезу: «истинное значение параметра р есть р1 (рис. 4)», либо гипотезу: «истинное значение параметра р есть р2», либо «истинное значение параметра р есть р3», см рис.4.

рис.4.

ПРАВДОПОДОБИЕ гипотезы относительно истинного значения параметра р равно условной вероятности того, что мы получим оценку р*, если на самом деле истинное значение параметра равно р.

Иными словами, мы предполагаем, что знаем параметр р (условие). И мы смотрим, какова условная вероятность появления оценки р*:

W(p* | p)

Реально значение р нам не известно. Мы предполагаем (выдвигаем гипотезу), что, допустим, оно равно р1. Напомню, мы, проведя статистические измерения, получили число р* в качестве оценки параметра р.

Условная вероятность при гипотетическом значении р1 появления нашей оценки р*, иными словами, правдоподобие гипотезы р1, иными словами, W(p* | p), есть — рис.5.

рис. 5.

Строго говоря, вероятность есть площадь под кривой рис.5., поэтому вероятность получения данной конкретной оценки р* при гипотезе р1 есть бесконечно малое число.

Но это число все-таки меньше, чем вероятность получения нашей оценки р*, если мы примем гипотезу р3 = р*. (рис.6)

рис.6.

Удобно использовать отношение правдоподобий.

При условии, что в числителе и в знаменателе дроби бесконечно малые величины, отношение правдоподобий есть конкретная ненулевая величина, что делает отношение правдоподобий весьма практичным для решения многих задач.

В нашем случае наиболее правдоподобной будет гипотеза, что истинное значение параметра р равно нашей оценке р*. Однако весьма правдоподобной выглядит гипотеза, что истинное, но неизвестное нам, значение параметра р чуть больше, либо чуть меньше чем р*.

Нам необходимо:

  1. Найти численное значение границы отношения правдоподобий. Если отношение правдоподобий для данной гипотезы меньше этого числа, гипотеза считается достаточно правдоподобной, если больше — малоправдоподобной.
  2. На основании отношения правдоподобия определить интервал статистической погрешности оценки р* при данной выборке .
  3. Определим граничные значения отношения правдоподобия для стандартной доверительной вероятности А=95%. (рис.2)

Граничному отношению правдоподобия соответствуют границы интервала вблизи р*, (назовем их ргр), верхняя и нижняя, которые и определяют интервал статистической точности нашей оценки р*.

Граничное отношение правдоподобий

рис.7.

Правдоподобие при ргр: W(p* | p=ргр)

Граничное отношение правдоподобий (для А=95%):

Итак, для интервала, в пределах которого, вблизи р*, в условиях доверительной вероятности А=95%, может находиться истинное значение параметра р, иными словами — для интервала погрешности статистических измерений характерно следующее правило:
На границах данного интервала отношение правдоподобий равно 7,4; внутри интервала — меньше, вне — больше, чем 7,4.

Вычисление интервалов погрешности

Объем выборки, напомню, n.

Предположим, r из них подходят под условия параметра.

Оценка р*:

(1)

Если исследуемый параметр р достаточно большая величина, т.е. в пределах 5-95%, возможные значения оценок р* подчиняются биномиальному закону. Границы интервала статистической погрешности находим из уравнения:

сокращаем:

Решая уравнение численным методом, вычисляем границы интервалов статистической погрешности для каждого значения р*, лежащего в пределах 5-95%, для различных значений n.

Если исследуемый параметр р мал, лежит в пределах до 5%, то применим закон Пуассона:

сокращаем:

Результаты расчетов верхней и нижней границ интервалов статистической погрешности для различных значений оценок р* при разных выборках n представлены ниже в виде графиков на рис. 8.

Основные комментарии

1. На графиках представлен интервал возможных значений р* от 0% до 50% для экономии места. Графики симметричны относительно линии 50%.

Погрешность оценки (верхняя и нижняя границы интервалов), скажем, для р*=60% равна погрешности (соответственно, нижней и верхней границ интервалов) оценки р*=40%.

2.Чем меньше оценка р*, тем меньше погрешность статистических измерений. Максимальная погрешность измерений будет при оценках в районе 50%. При дальнейшем увеличении значения оценки погрешность статистических измерений снова уменьшается.

3. Интервал погрешности несимметричен. Например, при объеме выборки n=100 и получившейся оценке параметра р*=30% интервал погрешности будет от 30—8% до 30+9%.

Пример. (продолжение)

В таблице, приведенной ранее, добавим столбцы, в которых:

  1. Результаты расчета относительной частоты приводимых ответов, выраженных в % по формуле (1), округленные до первой цифры после запятой.
  2. Границы интервала погрешности для каждой цифры (на основании графиков рис.8.).
  3. Величины интервала погрешности.

Болели гриппом в течение последних ...Частота (чел.)Относительная частота (%)Границы интервала погрешности (%)Величина интервала погрешности (%)
2 недель4310,7от 8,2 до 13,75,5 (или +-2,3%)
1 месяца7919,7от 15,7 до 23,98,2 (или +-4,1%)
2 месяцев11328,2от 23,4 до 33,29,8 (или +-4,6%)
3 месяцев8621,4от 18,4 до 25,68,2 (или +-4,1%)
полугода8020,0от 16,0 до 24,28,2 (или +-4,1%)
Всего401100,0  

Отметим следующие факты:

  1. Статистическая погрешность указанных измерений (с выборкой 401) такова, что может однозначно выявить различия между частотами ответов «2 недели», «1 месяц» и «2 месяца». Границы интервалов погрешности для указанных ответов не пересекаются.
  2. Статистическая погрешность измерений не может однозначно определить различий в частоте ответов «1 месяц», «3 месяца» и «полгода».

Иными словами, на основании представленных данных, можно сделать вывод что «тех, кто болел гриппом в последние 3 месяца больше, чем тех, кто болел гриппом в последний 1 месяц». Но этот вывод будет недостоверен.

Погрешность измерений и представление результатов

На практике часто случается, что объем выборки — не круглое число, при вычислении оценки параметра р* по формуле:

вполне может оказаться, что оценка р* будет не слишком «удобна»:

например:

n = 324
r = 103
р* = 31,790123... %

Как корректно округлить результат?

Рассмотрим, как задачу округления результатов решают инженеры.

Допустим, при измерении некого напряжения в некой сети, имеющийся вольтметр показал результат: 36,3 В

Однако любой прибор несовершенен, т.е. его показания неточны, имеют погрешности. Величина погрешности прибора обычно указывается в его паспорте и на панели.

Если наш вольтметр имеет погрешность +-1 В, то в протокол измерений инженер записывает цифру: 36 В

Таким образом, инженер округляет показания прибора до ближайшей 1, в соответствии с паспортной погрешностью прибора.

Иными словами, в протокол измерений записывается результат, округленный до последней достоверной цифры.

Погрешность прибора +-1 В, следовательно, десятки в цифре 36,3 достоверны, единицы — достоверны, а десятые доли вольта — недостоверны. Погрешность прибора не позволяет измерять десятые доли.

Поэтому десятые доли округляются до ближайшей 1 — в соответствии с арифметическими правилами округления.

Если бы вольтметр имел погрешность измерений +-0,5 В, то, получив результат 36,3 В, в протокол измерений мы должны занести 36,5 В.

Представлять в протоколе измерений только достоверные цифры — так понимается корректность работы с количественными данными любого типа.

Наш «прибор» — количественные статистические измерения. Погрешность нашего прибора зависит от объема выборки — см. рис. 8.

Профессиональная культура требует, чтобы в отчете представлялись только достоверные результаты:

Пример. (Продолжение)

Окончательный вид таблицы в отчете, с представлением математически корректных результатов:

Болели гриппом в течение последних ...Частота (чел.)Относительная частота (%)Величина интервала погрешности (%)
2 недель4310+-2,3%
1 месяца7920+-4,1%
2 месяцев11330+-4,6%
3 месяцев8620+-4,1%
полугода8020+-4,1%
Всего401100 

Внимание! При округлении результатов следует иметь в виду: может получиться так, что сумма всех цифр не будет равна 100,0% (последняя строка в таблице).

Группа выводов 1

  1. При объеме выборки от 80 до 200 математически корректно округлять результаты статистических измерений до одного из следующих значений:
    0%, 5%, 10%, 20% .... 80%, 90%, 95%, 100%
  2. При объеме выборки 300-700 на участке оценок р* от 10% до 90% корректно округлять до ближайших 5%. На участках 0—10% и 90—100% до ближайших 3%.
  3. При объеме выборки 800-1500 на участках 10—90% округлять до ближайших 3%, на участках 0—10%, 90-100% — до ближайших 2%.
  4. При объеме выборки 2000-4000 на участке 10—90% — до ближайших 2%, на участке 0—10% и 90—100% — до ближайшего 1%.
  5. Только при объеме выборки свыше 5000 можно позволить на 10—90% округлять до 1%, на участках 0—10% и 90—100% — до ближайших 0,5%.

Группа выводов 2

  1. Если при проведении количественных измерений вас удовлетворяет точность +-10%, пользуйтесь объемом выборки 100: увеличение выборки вдвое ничего принципиально нового не принесет, кроме, разве что, увеличения бюджета.
  2. Аналогично и для требуемой точности +-5% вполне достаточно выборки около 350. Двукратное увеличение выборки не принесет существенных результатов.
  3. Для проведения прецизионных (особо точных) статистических измерений — с точностью до 0,1% — требуется выборка не менее 15-20 тыс.
  4. Если исследователь в отчете о количественных статистических измерениях указывает цифры с точностью до десятых долей %, и на основании десятых долей % делает некие выводы, то, скорее всего, он фальсифицирует их.

Представление математически корректных данных в отчете не избавляет от необходимости отдельно указывать статистическую погрешность проведенных статистических измерений.

Литература:

  1. Е.С. Вентцель. Теория вероятностей. Москва, 1962 г.
  2. В.С. Пугачев. Теория случайных функций и ее применения к задачам автоматического управления. Москва, 1960.
  3. Bierman H.J., Bonini C.P., Hausman W.H. Quantitative Analysis for Business Decisions. Irvin, 1991.
  4. Bowen E.K., Starr M.K., Basic Statistics for Business and Economics. McGraw-Hill, 1989.
Андрей Селин

Читайте также

Крапленые карты

Дважды два - пять

А видел ли слона? Измерения эффективности медиа

Культура потребления. Черты российского потребителя

Рынок масс медиа в России: реалии и тенденции 1

Еще статьи по теме ...

Комментарий

Новое сообщение

Проверочный код 

Рассылка



Проверочный код
_SECURITY_CODE 

настройка / отписаться ]