Справочники

Что такое случайная и систематическая ошибки. Систематические ошибки

Систематическая ошибка - ошибка исследования, не связанная с выборкой. Она может быть вызвана концептуальными или логическими ошибками, неправильной интерпретацией ответов, а также статистическими, арифметическими, табуляционными, кодовыми или отчетными ошибками.Систематические ошибки подразделяется на: случайные(дают оценки, отличные от истинного значения; они могут приводить к отклонениям и в большую, и в меньшую сторону и имеют при этом случайный характер) и неслучайные(приводят к односторонним отклонениям, для них характерна тенденция к смещению выборочного значения относительно параметра совокупности). Недостатки систематических ошибок: - не так часты, но и не настолько подконтрольны, как ошибки в выборке;- в систематических ошибках, как направление, так и величина ошибки могут оказаться совершенно непредсказуемыми, в отличие от выборок, где ошибки в выборке при использовании вероятностных методов могут быть оценены; - приводят к смещению выборочного значения относительно параметра совокупности;- влияют на достоверность выборочных оценок. Особенно критичными ошибки становятся при работе с широкомасштабными, хорошо продуманными вероятностными выборками, т.к. при увеличении эффективности проектирования выборки и уменьшении выборочной дисперсии, эффект систематических ошибок усиливается. Чем эффективнее составлена выборка, тем большую роль играют систематические ошибки и тем меньшим смыслом обладают вычисления по определению доверительного интервала, в основе которых лежат обычные формулы. Систематические ошибки делятся на два основных типа: ошибки, связанные с неполучением данных (ошибки ненаблюдения), и ошибки наблюдения. Ошибки ненаблюдения возникают вследствие невозможности получения данных от части элементов обследуемой совокупности и быть вызваны тем, что часть обследуемой совокупности не была представлена в выборке, или же элементы, отобранные для включения в выборку, не представили данных. Ошибки наблюдений возникают вследствие некорректной информации, полученной от элементов выборки, они могут возникнуть и на стадии обработки данных или формулирования итогового вывода.

48.Понятие и сущность ошибок ненаблюдения. Существуют два типа ошибок ненаблюдения: ошибки неохвата( систематическая ошибка, являющаяся следствием того, что определенные части или целые блоки генеральной совокупности не были включены в основу выборки) и ошибки неполучения данных. Неохват может стать источником серьезных неточностей, при этом ошибка неохвата относится только к ошибочно выпавшим из рассмотрения частям совокупности. Таким образом, проблема неохвата имеет отношение к основе выборки.Ошибка перебора может возникать из-за возникновения повторов в сводке элементов выборки.Ошибки неохвата:1) относятся к разряду систематических ошибок и потому не входят в стандартные стат. зависимос. ;2) как правило, не могут быть устранены посредством увеличения объема выборки;3) могут иметь существенный размер;4) могут быть уменьшены при осознании их наличия с помощью улучшения основы выборки и принятия ряда специальных мер, позволяющих до определенной степени компенсировать остаточное несовершенство основы. Ошибка неполучения данных – систематическая ошибка, порождаемая отсутствием информации о некоторых элементах, которые должны были войти в состав выборки. Для того, чтобы оптимизировать и стандартизировать практику исследований предлагается определение доли ответивших(отношение количества проведенных с респондентами интервью к количеству приемлемых респондентов в выборке). Различают две главные причины ошибки неполучения данных - это отсутствие и отказ от интервью. Отсутствие – систематическая ошибка, возник. вследствие неполучения ответов от заранее определенных респондентов, отсутствующих дома в момент звонка регистратора.Отказы от интервью – систематическая ошибка, возникающая вследствие того, что часть респондентов отказывается принимать участие в обследовании. Доля отказов зависит часто от особенностей респондентов, организаций, осуществляющих финансовое обеспечение обследования, обстоятельств контакта, темы обследования и искусства интервьюера.Стратегии, рекоменд. для корректировки ошибки:1. Увеличение доли первичных ответов (улучшение условий проведения интервью и углубленное обучение интервьюеров).2. Повторные попытки.3. Экстраполяция получ.информации(оценка возможного эффекта, обусловленного неполучением данных, и соответствующая коррекция результатов исследования).Частичное неполучение данных состоит в том, что респондент, согласившийся принять участие в опросе, не хочет или не может ответить на некоторые вопросы из-за специфики их формы или содерж. или вследствие нежелания обременять себя поиском инф.

49.Понятие и сущность ошибок наблюдения

Ошибка сбора – систематическая ошибка, возникающая при сборе данных.Человек отказ отвечать на одни и дает неправильные ответы на другие вопросы интервьюера - ошибками пропуска и ошибками свидетельства. Поведенческие факторы . Биографические данные, мнения, позиции, намерения респондента могут являться источниками ошибок. Существуют 3 модели поведения интервьюеров , которые приводят к появлению ошибок: ошибки при формулировке вопросов и неумение задавать уточняющие вопросы, ошибки при записи ответов, подтасовка данных.Достоверность:

1) Метод опроса - проверяется соответствие использованного метода заданному (например, действительно ли проводился персональный, а не телефонный опрос).

2) Поставленные вопросы - проверка того, не были ли выпущены из рассмотрения важные вопросы (демографического или классификационного характера).

3) Демонстрация продукции - проверка того, действительно ли была произведена потребная для проведения опроса демонстрация продукта или информационного листа.

4) Знакомство респондента с интервьюером - проверка того, не занимался ли интервьюер опросом своих знакомых или друзей.

5) Реакция на проведение опроса - проверка «качества» работы интервьюера.

Офисные ошибки . Систематические ошибки могут возникать не только при сборе информации. Они могут появляться при редактировании, кодировании, составлении таблиц и анализе данных.

Суммарные ошибки. Частные ошибки, складываясь, приводят к ошибке суммарной, которая и должна интересовать исследователей.

При работе с ошибками сбора данных можно воспользоваться схемой Кана- Кэннела

интервьюер респондент

Характеристики: Характеристики: теже что и у интер-ра

Возраст Психологические факторы:теже

Образование Поведенческие факторы:

Ответы на вопросы

(адекватные – неадекватные)

(точные – неточные)

Социально-экономический статус

Национальность,Религиозная принадлежность,Пол и т.д.

Психологические факторы: Восприятие,Позиция,Намерения,мотивы

Поведенческие факторы: Ошибки при вопросах,Ошибки при распределении типа респондентаОшибки мотивации,Ошибки при записи ответов

Личные особенности (характеристики). личные особенности могут серьезно повлиять на ответы. Психологические факторы . результаты работы интервьюеров имеют обусловленность их взглядами, позициями и стремлениями.

50.Редактирование данных. Редактирование включает в себя просмотр и, если необходимо, исправление каждой анкеты или формы регистрации наблюдений. Просмотр и внесение исправлений выполняются в 2 стадии: полевое редактирование и централизованное офисное редактирование.

Полевое редактирование - это предварительное редактирование, которое строится таким образом, чтобы обнаружить наиболее бросающиеся в глаза пропуски и неточности данных.

Оно также полезно для контроля поведения персонала полевых сил и внесения ясности. Полевое редактирование выполняется как можно скорее после того, как анкета заполнена. В этом случае проблемы могут быть устранены прежде, чем проводивший сбор информации будет расформирован. Полевое редактирование обычно выполняется руководителем полевых работ.

Централизованное офисное редактирование - всеобъемлющая проверка и коррекция заполненных форм сбора данных, включая принятие решения о том, что с этими данными делать.

Чтобы обеспечить логическую последовательность обработки материалов, лучше всего предоставить все носители собранных данных одному человеку. Если эту работу приходится делить по соображениям ее объема и имеющегося времени, подразделы должны определяться по частям анкеты, а не по респондентам. То есть, один редактор должен редактировать часть «А» всех анкет, а другой - часть «В».

В отличие от полевого, централизованное офисное редактирование в меньшей степенизависит от последующих процедур, и в большей - от степени полноты данных. При анализе необходимо решить, каким образом будут обрабатываться носители собранных данных, содержащие неполные ответы, явно неправильные ответы и ответы.

Вернувшиеся заполненные анкеты целиков. В некоторых окажутся пропущенными целые разделы. Другие будут оставленными без ответа отдельные позиции. Анкеты, в которых пропущены целые разделы, не должны отбрасываться автоматически. Тщательное редактирование анкеты иногда показывает, что ответ на какой-то вопрос очевидно неправилен.

При анализе необходимо не пропустить заполненные анкеты, которые неудачны с точки зрения интереса респондента. Свидетельства отсутствия интереса могут быть и очевидными, и очень трудно распознаваемыми.

51. Кодирование данных. Код-е – технический прием, с помощью которого данные распределяются по категориям. Прием связан со спецификацией альтернативных категорий или классов, в которые должны помещаться ответы, а самим классам должны назначаться кодовые номера.

I этап код-я заключается в специфицировании категорий или классов, к которым будут относиться ответы. Выбор ответов должен быть взаимоисключающим и исчерпывающим, чтобы каждый ответ логически попадал в одну категорию. Код-е закрытых вопросов и большинства средств балльной оценки не сложно; потому что оно устанавливается при конструировании самой анкеты. Код-е открытых вопросов более сложно и более дорогое, т.к. приходится определять подходящие категории на базе ответов, которые не всегда предсказуемы. Если анкет слишком много, и необходимо использовать для кодирования анкет нескольких кодировщиков, дополнительной проблемой может стать возникновение несоответствия в самом кодировании. Поэтому для получения логической последовательности обработки данных, эту работу необходимо разделять по задачам, а не в равных долях делить анкеты между кодировщиками.

II этап код-я касается назначения кодовых номеров классов. Принято, для обозначения классов использовать цифры, а не буквы. Когда для анализа данных предполагается использовать компьютер, кодирование необходимо выполнять таким образом, чтобы данные оказывались готовыми для ввода в машину, поэтому полезно обеспечить наглядность ввода посредством многоколонной записи. Когда вопрос допускает множество ответов, допускать отдельные колонки для кодирования каждого варианта ответа.

Необходимо использовать ровно столько колонок поля, назначаемого для переменной, сколько необходимо для полного охвата всех ее возможных значений. Кроме того, любому полю должна назначаться не более чем одна переменная.Рекомендуется применять стандартные коды для «отсутствия информации». Так, все ответы «не знаю» должны кодироваться цифрой 8, «нет ответов» - цифрой 9, а «не применялось» обозначаться как 0. Лучше, если во всем исследовании для каждого из этих типов «нет информации» используется один и тот же код.

Завершающий этап код-я состоит в подготовке книги кодов , которая содержит общие инструкции, указывающие, каким образом была закодирована каждая позиция данных. В ней перечисляются коды каждой переменной и категории, включенные в каждый код.

52.Табулирование данных. Табулирование заключается просто в подсчете количества событий, которые попадают в различные категории. Табулирование может принимать форму простой табуляции, или перекрестной табуляции . Простая табуляция - подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной переменной.Перекрестная табуляция - подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно.Одномерная табуляция используется в следующих целях:

1. для определения степени безответности позиций анкеты является важной проблемой в большинстве исследований. Когда степень безответности большая, исследование в целом становится сомнительным и возникает необходимость пересмотреть его цели и методы. Возможно использование нескольких стратегий. - Оставить позиции пустыми и описать их количество как отдельную категорию. -Исключать событие с утраченной позицией при анализе с использованием соответствующей переменной. -Подставить значения утраченных позиций анкеты. 2. для локализации грубых ошибок . Грубая ошибка– ошибка, которая возникает при редактировании, кодировании, клавиатурном наборе или табулировании данных.3. для локализации посторонних значений- наблюдение, настолько отличающееся по величине от остальных наблюдений, что возникает необходимость обрабатывать его как особое значение.4. для определения эмпирического распределения рассматриваемой переменной. Лучше всего представить в виде гистограммы.5. для расчета итоговых статистик.

Перекрестная табуляция является важным механизмом для изучения связей внутри и между переменными. В перекрестной табуляции выборка делится на подгруппы. Связь между двумя переменными в пределах категорий размера семьи, называется условной таблицей , позволяющей обнаружить условную связь между переменными.Условные таблицы, построенные на основе одной регулируемой переменной, называются условными таблицами первого порядка . Таблицы, составленные с использованием двух регулируемых переменных, называются условными таблицами второго порядка .В настоящее время табулированные результаты чаще представляются в виде баннеров. Баннер – это последовательныйряд перекрестных табуляций между критерием и несколькими факторными переменными, оформленный в виде единой таблицы.

53.Традиционный, классический метод анализа документов и его составляющая.Традиционный анализ – это цепочка умственных, логических построений, направленных на выявление сути анализируемого материала с определенной, интересующей исследователя точки зрения в каждом конкретном случае. Основным недостатком этого анализа является субъективность. В традиционном анализе различают внешний и внутренний анализ. Внешний анализ – это анализ контекста документа и тех обстоятельств, которые сопутствовали его появлению. Цель внешнего анализа – установить вид документа, его форму, время и место появления, автора и инициатора, какие цели преследовались при его составлении, степень надежности и достоверности, каков его контекст. Внутренний анализ – это исследование содержание документа. Отдельные виды документов из-за своей специфики, требуют специальных методов анализа и привлечения для их выполнения специалистов других областей знаний. Юридический анализ. Он применяется для всех видов юридических документов. Его специфика заключается в том, что разработан особый словарь терминов, в котором значение каждого слова строго однозначно определено.Психологический анализ. Он применяется при оценке отношения автора к какому-либо политическому, экономическому или социальному явлению. На основе таких исследований можно получить представление о формировании общественного мнения, общественных установок и т.д.

54. Формализованный, количественный (контект-анализ) и его состав-е . Его называют часто количественный метод анализа документов (контент-анализ).Суть этих методов сводится к тому, чтобы найти легко подсчитываемые признаки, черты, свойства документа, которые отражали бы определенные существенные стороны содержания. Тогда качественное содержание делается измеримым, становится доступным для точных вычислений.Контент-анализ – это техника выделения заключения проводимого с помощью объективного и систематического выявления соответствующих характеристик текста задачам исследования. Существуют общие принципы, когда применяется контент-анализ:1. Когда требуется высокая степень точности или объективности анализа.2. При наличии большого по объему и несистематизированного материала.3. Когда категории, важные для целей исследования, характеризуются определенной частотой появления в изучаемых документах.Основными направлениями использования контент-анализа являются:

1. Выявление и оценка характеристик текста как индикаторов определенных сторон изучаемого объекта;2. Выявление причин, породивших сообщение; 3. Оценка эффекта воздействия сообщения (например, рекламного).Требование объективности анализа предполагает решение ряда проблем, связанных:1. с выработкой категорий анализа. Категории анализа – это понятие, в соответствии с которыми будут сортироваться единицы. Требования, предъявляемые к категориям:- должны быть исчерпывающими, - взаимоисключаемыми, - надежность.2.С выделение единиц анализа. Единицей анализа (смысловой или качественной) является та часть содержания, которая выделяется как элемент, подводимый под ту или иную категорию. Индикаторами могут быть:- относящиеся к теме слова и словосочетания;- термины;- имена людей;- названия организаций;- географические названия;- пути решения экономических проблем, 3. с выделение единиц счета. Единицы счета обладают разной степенью точности измерения, а так же разным временем, уходящим на кодировку материала, попавшего в выборку. В практике методом контент-анализа были выделены общие единицы счета, отвечающие различным исследовательским требованиям.1.Время – пространство. 2.Появление признаков в тексте

3.Частота появления. При разработке программы маркетинговых исследований необходимо четко определить, какого рода характеристики объекта подвергаются изучению, и в зависимости от этого оценивать документы с точки зрения их адекватности, надежности, достоверности.

Адекватность документа определяется как степень, в которой он отражает интересующие исследователя характеристики объекта.

Надежность оценивается сопоставлением всех данных содержания с какими-то другими данными. Здесь возможны несколько вариантов проверки:

1.Сравнение содержания документов , исходящих из одного источника. Такое сравнение может проводиться:а) во времени б) в различных ситуациях

в) в различных аудиториях .2.Метод независимых источников , т.е. выбираются характеристики из нескольких различных источников информации. Затем различия в характеристиках сравниваются с различиями в содержании сообщений.Оценка достоверности данных документа проводится путем последовательного перебора источников встречающихся в документе ошибок. Источники ошибок можно разделить на две категории:

Случайные (например, опечатки в статистических данных) -систематические.

Систематические ошибки делятся на сознательные и несознательные

Сознательные ошибки часто определяются теми намерениями, которыми руководствуется автор при составлении документа.

Систематическая ошибка -- это систематическое (неслучайное, однонаправленное) отклонение результатов исследований от истинных значений. Выделяют несколько основных видов систематических ошибок.

Систематическая ошибка, обусловленная нарушением правил подбора пациентов (selection bias). Она чаще всего возникает на этапе формирования исследуемых групп в результате отбора для включения в исследование лиц, которые не являются репрезентативными для общей совокупности больных. Эта систематическая ошибка создаётся в результате того, что сравниваемые группы испытуемых различаются не только по основным признакам, но и по другим факторам, влияющим на результат исследования, т.е. участники фактически отбираются из разных популяций.

Пример: в том случае, когда в качестве группы контроля используются ранее набранные больные, а методика их обследования с течением времени претерпела изменения, наступает хронологическое смещение.

Пример: в исследование включаются добровольцы, сами откликнувшиеся на объявление об исследовании.

Систематическая ошибка отбора может приводить в ИСК к формированию контрольной группы, плохо сопоставимой с основной группой. Например, при формировании контрольной группы из больных с другим заболеванием вмешиваются привходящие факторы, связанные с этой болезнью. С другой стороны, если контрольная группа формируется из общей популяции, то результаты могут оказаться несопоставимыми с основной группой, например, по возрасту и полу. Для предотвращения этой ошибки нужно подбирать пациентов попарно в контрольную и основную группы по нескольким признакам, потенциально влияющим на изучаемые показатели. Другой вариант предотвратить ошибку - использовать несколько контрольных групп.

Ошибка подбора, более характерная для ИСК, может возникать и в РКИ, если, например, из контрольной группы теряются самые тяжелые пациенты.

Систематическая ошибка, возникающая при измерении, вследствие неудачно выбранного метода оценки результатов исследования. Подобная ошибка появляется тогда, когда пациенты в сравниваемых группах обследуются неодинаково (разные методы диагностики, частота обследований) или используются нестандартизованные схемы получения данных и субъективные оценки.

Субъективная оценка в большинстве случаев даёт завышенный результат по сравнению с оценкой независимого эксперта и/или объективными методами.

Пример: ошибка вследствие различия в степени подробности сбора анамнеза в группах больных и здоровых.

Пример: рентгенологи, если проводят оценку рентгенограмм, зная дополнительную информацию о пациенте, могут более пристально и критически оценивать «контрольных» пациентов, по сравнению с «получающими активное лечение».

Систематическая ошибка, обусловленная действием вмешивающихся факторов (confounding), проявляется тогда, когда изучаемые факторы взаимосвязаны, и одни из них искажают эффекты других. Это может произойти из-за систематической ошибки при отборе, под действием случайности или из-за реального взаимодействия факторов, что должно учитываться при анализе результатов исследования.

Пример: при проведении исследования влияния потребления овощей на возникновение заболевания, не была учтена разная распространенность второго фактора риска (например, курения) в сравниваемых группах.

Систематическая ошибка, обусловленная эффектом плацебо . «Эффект пустышки» - систематическое улучшение состояния пациентов при имитации лечения. Если в контрольной группе проводится лечение, внешне не отличимое от активного в группе вмешательства, то разница между этими группами исключает эффект плацебо.

В ходе наблюдения за больными у них наблюдается улучшение состояния. Часть этого эффекта объясняется естественным течением болезни, часть - неспецифическим влиянием лечения (эффект плацебо), а разница между группами соответствует дополнительной пользе, приносимой активным лечением. РКИ специально планируются так, чтобы отсеять все эффекты, за исключением собственно эффекта активного лечения.

Рисунок 1. Выявление эффекта активного лечения по сравнению с плацебо

Способы устранения систематических ошибок

Наиболее частыми источниками погрешностей при проведении КИ являются ожидания исследователей и испытуемых, влияние которых можно уменьшить путём использования стандартных способов контроля с использованием: анамнез лечение плацебо

грамотного отбора испытуемых в контрольные группы;

метода «ослепления» (маскирование вмешательства);

рандомизации (со стратификацией или без неё) при формировании различных групп испытуемых;

методов статистического моделирования.

Испытания с самоконтролем - для экспериментальной и контрольной групп привлекается один объект, например, пациент в отдельные дни получает лечение, в другие - плацебо.

Перекрестное испытание - одни пациенты выбираются для экспериментальной группы, другие - для контрольной; после остановки лечения в новом периоде группа лечения становится контрольной, а контрольная - группой лечения. При обобщенном рассмотрении результатов получается, что каждый пациент был сам себе контролем.

Рисунок 2. Источники систематических ошибок и методы борьбы с ними

Испытания с подобранным контролем - проводятся путём подбора контроля к каждому случаю так, чтобы они не отличались ни по одному из подозреваемых факторов. Это позволяет избежать различий между группами, связанных с известными факторами, которые не интересны в данном исследовании. Например, при изучении связи болезни с особенностями питания путем подбора контрольных лиц можно исключить влияние на здоровье дохода и курения. При подборе сравниваются различия не между всеми случаями и контролем, а совокупность различий внутри отдельных пар.

Метод маскирования вмешательств («слепое» исследование, ослепление)

Немаскируемый (открытый) метод выполнения РКИ - испытуемый и исследователь знают о лечении, которое получает испытуемый. При этом, например, испытуемый в контрольной группе может начать лечиться другими средствами и разница между группами исчезнет.

Простой слепой метод - испытуемый не знает, какое лечение он получает. Метод чреват ошибками, связанными с тем, что врач и другие медицинские работники будут относиться по-разному к ведению пациентов, получающих активное лечение и плацебо (старое и новое вмешательство).

Двойной слепой метод - исследователь и пациент не знают, какое лечение получает он или группа.

Тройной слепой метод - исследователь, пациент и руководители КИ, организующие исследование и анализирующие его результаты, не знают, какое лечение получает группа.

Рандомизация - способ распределения испытуемых в группы в случайной последовательности - с использованием таблицы случайных чисел или иного правильного метода. Рандомизация - обязательное свойство правильного проведения КИ, которое в таком случае называется рандомизированным. Использование случайных чисел гарантирует, что вероятность попадания в конкретную группу лечения одинакова для всех испытуемых. Рандомизация используется не только при проведении КИ, но и при проведении исследований на экспериментальных животных.

В настоящее время РКИ стали стандартом клинических испытаний. Разработаны разные методы рандомизации -рандомизация пациентов по группам, парная рандомизация, факторная, адаптивная и ряд других.

Рисунок 3. Схематическое изображение РКИ

Правильными методами рандомизации являются использование таблиц случайных чисел и компьютерных программ, а также иногда бросание монеты, т.е. методы, которые генерируют случайную последовательность распределения пациентов по группам.

Однако надо отметить, что, несмотря на всеобщее признание, суть рандомизации нередко понимают неверно и вместо случайного распределения испытуемых прибегают к упрощенным способам (по алфавиту, датам рождения, дням недели и т.д.) и даже допускают произвольное распределение в группы. Подобная «псевдорандомизация» не даёт ожидаемых результатов.

Стратификация - используется с целью обеспечения равного распределения испытуемых по группам лечения с учетом факторов, существенно влияющих на исход, например, возраста, длительности болезни и т.д. Иными словами, например, пациенты-мужчины рандомизируются независимо от женщин. Стратификация гарантирует одинаковое распределение указанных факторов в группах лечения.

Статистическое моделирование - применяется для оценки силы связи и эффекта воздействия с одновременным учётом действия множества переменных. Наиболее распространенным методом статистического моделирования вероятности качественных событий (госпитализация, смерть) является множественная логистическая регрессия.

Ошибки измеренийподразделяются на систематические и случайные.

Величина систематических ошибок одинакова во всех измерениях, проводящихся одним и тем же методом с помощью одних и тех же измерительных приборов. Различают четыре группы систематических ошибок:

1) ошибки, причина возникновения которых известна и величина которых может быть определена достаточно точно. Например, при определении результата прыжка рулеткой возможно изменение её длины за счёт различий в температуре воздуха. Это изменение можно оценить и ввести поправки в измеренный результат;

2) ошибки, причина возникновения которых известна, а величина нет. Такие ошибки зависят от класса точности измерительной аппаратуры. Например, если класс точности динамометра для измерения силовых качеств спортсменов составляет 2.0, то его показания правильны с точностью до 2% в пределах шкалы прибора. Но если проводить несколько измерений подряд, то ошибка в первом из них может быть равной 0,3%, а во втором – 2%, в третьем – 0,7% и т. д. При этом точно определить её значения для каждого из измерений нельзя;

3) ошибки, происхождение которых и величина неизвестны. Обычно они проявляются в сложных измерениях, когда не удаётся учесть все источники возможных погрешностей;

4) ошибки, связанные не столько с процессом измерения, сколько со свойствами объекта измерения. Как известно, объектами измерений в спортивной практике являются действия и движения спортсмена, его социальные, психологические, биохимические и т. п. показатели. Измерения такого типа характеризуются определённой вариативностью, и в её основе может быть множество причин. Рассмотрим следующий пример. Предположим, что при измерении времени сложной реакции хоккеистов используется методика, суммарная систематическая погрешность которой по первым трём группам не превышает 1%. Но в серии повторных измерений конкретного спортсмена получаются такие значения времени реакции (ВР): 0,653 с; 0,526 с; 0,755 с и т. д. Различия в результатах измерений обусловлены внутренними свойствами спортсменов: один из них стабилен и реагирует практически одинаково быстро во всех попытках, другой – нестабилен. Однако и эта стабильность (или нестабильность) может измениться в зависимости от утомления, эмоционального возбуждения, повышения уровня подготовленности.

Систематический контроль за спортсменами позволяет определить меру их стабильности и учитывать возможные погрешности измерений.

В некоторых случаях ошибки возникают по причинам, предсказать которые заранее невозможно. Такие ошибки называются случайными. Их выявляют и учитывают с помощью математического аппарата теории вероятностей.

Перед проведением любых измерений нужно определить источники систематических погрешностей и по возможности устранить их. Но так как полностью это сделать нельзя, то внесение поправок в результат измерения позволяет исправить его с учётом систематической погрешности.

Для устранения систематической погрешности используют:

а) тарирование – проверку показаний измерительных приборов путём сравнения их с показаниями эталонов во всём диапазоне возможных значений измеряемой величины;

б) калибровку – определение погрешностей и величины поправок.

Под случайными величинами понимают числовые характеристики случайных событий. Другими словами, случайные величины – это числовые результаты экспериментов, значения которых которые невозможно (в данное время) предсказать заранее. Случайные величины делят на дискретные и непрерывные в зависимости от того, каково множество всех возможных значений соответствующей характеристики – дискретное или же непрерывное.

Это деление довольно условно, но полезно при выборе адекватных методов исследования.

Случайные величины можно задавать разными способами. Дискретные случайные величины обычно задаются своим законом распределения. Тут каждому возможному значению x1, x2,... случайной величины X сопоставляется вероятность p1,p2,... этого значения. В результате образуется таблица, состоящая из двух строк:

Это и есть закон распределения случайной величины. Непрерывные случайные величины законом распределения задать невозможно, так как по самому своему определению их значения невозможно перенумеровать и потому задание в виде таблицы тут исключается. Однако для непрерывных случайных величин есть другой способ задания (применимый, кстати, и для дискретных величин) –это функция распределения:

равная вероятности события , которое состоит в том, что случайная величина X примет значение, меньшее заданного числа x.

14 При обработке данных используют такие характеристики случайной величины Х как моменты порядка q, т.е. математические ожидания случайной величины Xq, q = 1, 2, … Так, само математическое ожидание – это момент порядка 1. Для дискретной случайной величины момент порядка q может быть рассчитан как

Для непрерывной случайной величины

Моменты порядка q называют также начальными моментами порядка q, в отличие от родственных характеристик – центральных моментов порядка q, задаваемых формулой

Вопрос.

Диспе́рсия случа́йной величины́ - мера разброса данной случайной величины, то есть её отклонения от математического ожидания

Дисперсией дискретной случайной величины называют сумму квадратов отклонения значений случайной величины от своего математического ожидания. Дисперсия показывает величину разброса значений случайной величины от своего математического ожидания.

Пусть - случайная величина, определённая на некотором вероятностном пространстве. Тогда

D{X}=M [|X-M[X]| 2 ] , где символ M обозначает математическое ожидание.

Дисперсия любой случайной величины неотрицательна:

Если дисперсия случайной величины конечна, то конечно и её математическое ожидание;

Если случайная величина равна константе, то её дисперсия равна нулю

Дисперсия суммы двух случайных величин равна: , где - их ковариация;

Вероятность того, что истинное значение измеряемой величины лежит внутри некоторого интервала, называется доверительной вероятностью, или коэффициентом надежности, а сам интервал - доверительным интервалом. Каждой доверительной вероятности соответствует свой доверительный интервал. Однако это утверждение справедливо только при достаточно большом числе измерений (более 10), да и вероятность 0,67 не представляется достаточно надежной - примерно в каждой из трех серий измерений a может оказаться за пределами доверительного интервала. Для получения большей уверенности в том, что значение измеряемой величины лежат внутри доверительного интервала, обычно задаются доверительной вероятностью 0,95 - 0,99. Доверительный интервал для заданной доверительной вероятности учетом влияния числа измерений n можно найти, умножив стандартное отклонение среднего арифметического на так называемый коэффициент Стьюдента.

Ошибки измерения делятся на случайные (тот самый шум, о котором шла речь ранее) и систематические. Прояснить, что такое систематическая ошибка, можно на следующем примере: предположим, мы немного изменим в схеме по рис. 13.3 сопротивление резистора R2. При этом у нас на определенную величину сдвинется вся шкала измерений: показания термометра будут соответствовать действительности, только если мы прибавим (или вычтем, неважно) некоторую константу к полученной величине: / = /’ + 5, где / - «правильное» значение температуры (оно все же отличается от истинного значения из-за наличия случайной ошибки); /’ - показания термометра; 5 - величина систематической ошибки из-за сдвига шкалы. Более сложный случай систематической погрешности - если мы оставим R2 в покое, а немного изменим R5, то есть изменим наклон характеристики термометра, или, как еще это называют, крутизну преобразования. Это равносильно тому, что мы умножаем показания на некий постоянный множитель к, и «правильное» значение будет тогда определяться по формуле: t = ht\ Эти виды ошибок носят название аддитивной и мультипликативной погрешностей.

О систематических погрешностях математическая статистика «ничего не знает», она работает только с погрешностями случайными. Единственный способ избавиться от систематических погрешностей (кроме, конечно, подбора прецизионных компонентов) - это процедуры калибровки (градуировки), о них мы уже говорили в этой главе ранее.

Случайные ошибки измерения и их оценка

я предполагаю, что читатель знаком с таким понятием, как вероятность. Если же нет - настоятельно рекомендую книгу , которая есть переиздание труда от 1946 г. Расширить кругозор вам поможет классический учебник , который отличает исключительная внятность изложения (автор его, известный математик Елена Сергеевна Вентцель, кроме научной и преподавательской деятельности, также писала художественную литературу под псевдонимом И. Грекова). Более конкретные сведения о приложении методов математической статистики к задачам метрологии и обработки экспериментальных данных, в том числе с использованием компьютера, вы можете найти, например, в . Мы же остановимся на главном - расчете случайной погрешности.

В основе математической статистики лежит понятие о нормальном распределении. Не следует думать, что это нечто заумное - вся теория вероятностей и матстатистика, как прикладная дисциплина, в особенности, основаны на здравом смысле в большей степени, чем какой-либо другой раздел математики.

Не составляет исключения и нормальный закон распределения, который наглядно можно пояснить так. Представьте себе, что вы ждете автобус на остановке. Предположим, что автопарк работает честно, и надпись на табличке «интервал 15 мин» соответствует действительности. Пусть также известно, что предыдущий автобус отправился от остановки ровно в 10:00. Вопрос - во сколько отправится следующий?

Как бы идеально ни работал автопарк, совершенно ясно, что ровно в 10:15 следующий автобус отправится вряд ли. Пусть даже автобус выехал из парка по графику, но тут же был вынужден его нарушить из-за аварии на перекрестке. Потом его задержал перебегающий дорогу школьник. Потом он простоял на остановке из-за старушки с огромной клетчатой сумкой, которая застряла в дверях. Означает ли это, что автобус всегда только опаздывает? Отнюдь, у водителя есть план, и он заинтересован в том, чтобы двигаться побыстрее, потому он может кое-где и опережать график, не гнушаясь иногда и нарушением правил движения. Поэтому событие, заключающееся в том, что автобус отправится в 10.15, имеет лишь определенную вероятность, не более.

Если поразмыслить, то станет ясно, что вероятность того, что следующий автобус отправится от остановки в определенный момент, зависит также от того, насколько точно мы определяем этот момент. Ясно, что вероятность отправления в промежутке от 10.10 до 10.20 гораздо выше, чем в промежутке от 10.14 до 10.16, а в промежутке от 10 до 11 часов оно, если не возникли какие-то форс-мажорные обстоятельства, скорее всего, произойдет наверняка. Чем точнее мы определяем момент события, тем меньше вероятность того, что оно произойдет именно в этот момент, и в пределе вероятность того, что любое событие произойдет ровно в указанный момент времени, равна нулю.

Такое кажущееся противоречие (на которое, между прочим, обращал внимание еще великий отечественный математик Колмогоров) на практике разрешается стандартным для математики способом: мы принимаем за момент события некий малый интервал времени 5/. Вероятность того, что событие произойдет в этом интервале, уже равна не нулю, а некоей конечной величине бЛ а их отношение 5P/5t при устремлении интервала времени к нулю равна для данного момента времени некоей величине /?, именуемой плотностью распределения вероятностей. Такое определение совершенно аналогично определению плотности физического тела (в самом деле, масса исчезающе малого объема тела также стремится к нулю, но отношение массы к объему конечно) и потому многие понятия математической статистики имеют названия, заимствованные из соответствующих разделов физики.

Правильно сформулированный вопрос по поводу автобуса звучал бы так: каково распределение плотности вероятностей отправления автобуса во времени? Зная эту закономерность, мы можем всегда сказать, какова вероятность того, что автобус отправится в определенный промежуток времени.

Интуитивно форму кривой распределения плотности вероятностей определить несложно. Существует ли вероятность того, что конкретный автобус отправится, к примеру, позже 10:30 или, наоборот, даже раньше предыдущего автобуса? А почему нет - подобные ситуации в реальности представить себе очень легко. Однако ясно, что такая вероятность намного меньше, чем вероятность прихода «около 10:15». Чем дальше в обе стороны мы удаляемся от этого центрального наиболее вероятного срока, тем меньше плотность вероятности, пока она не станет практически равной нулю (то, что автобус задержится на сутки - событие невероятное, скорее всего, если такое случилось, вам уже будет не до автобусов). То есть распределение плотностей вероятностей должно иметь вид некоей колоколообразной кривой.

В теории вероятностей доказывается, что при некоторых предположениях относительно вероятности конкретных исходов нашего события, эта кривая будет иметь совершенно определенный вид, который называется нормальным распределением вероятностей или распределением Гаусса. Вид кривой плотности нормального распределения и соответствующая формула показаны на рис. 13.5.

Рис. 13.5. Плотность нормального распределения вероятностей

Далее мы поясним смысл отдельных параметров в этой формуле, а пока ответим на вопрос: действительно ли реальные события, в частности, интересующие нас ошибки измерения, всегда имеют нормальное распределение? Строгого ответа на этот вопрос в общем случае нет, и вот по какой причине. Математики имеют дело с абстракциями, считая, что мы уже имеем сколь угодно большой набор отдельных реализаций события (в случае с автобусом это была бы бесконечная таблица пар значений «плотность вероятности - время»). В реальной жизни такой ряд невозможно получить не только потому, что для этого потребовалось бы бесконечно долго стоять около остановки и отмечать моменты отправления, но и потому, что стройная картина непрерывного ряда реализаций одного события (прихода конкретного автобуса) будет в конце концов нарушена совершенно не относящимися к делу вещами: маршрут могут отменить, остановку перепестри, автопарк обанкротится, не выдержав конкуренции с маршрутными такси… да мало ли что может произойти такого, что сделает бессмысленным само определение события.

Однако все же интуитивно понятно, что, пока автобус ходит, какое-то, пусть теоретическое, распределение имеется. Такой идеальный бесконечный набор реализаций данного события носит название генеральной совокупности. Именно генеральная совокупность при некоторых условиях может иметь, в частности, нормальное распределение. В реальности же мы имеем дело с выборкой из этой генеральной совокупности. Причем одна из важнейших задач, решаемых в математической статистике, состоит в том, чтобы имея на руках две разных выборки, доказать, что они принадлежат одной и той же генеральной совокупности - проще говоря, что перед нами есть реализации одного и того же события. Другая важнейшая для практики задача состоит в том, чтобы по выборке определить вид кривой распределения и ее параметры.

На свете сколько угодно случайных событий и процессов, имеющих распределение, совершенно отличное от нормального, однако считается (и доказывается с помощью т. н. центральной предельной теоремы), что в интересующей нас области ошибок измерений при большом числе измерений и истинно случайном их характере, все распределения ошибок - нормальные. Предположение о большом числе измерений не слишком жесткое - реально достаточно полутора-двух дес5Гтков измерений, чтобы все теоретические соотношения с большой степенью точности соблюдались на практике. А вот про истинную случайность ошибки каждого из измерений можно говорить с изрядной долей условности: неслучайными их может сделать одно только желание экспериментатора побыстрее закончить рабочий день. Но математика тут уже бессильна.

Полученные опытным путем характеристики распределения называются оценками параметров, и, естественно, они будут соответствовать «настоящим» значениям с некоторой долей вероятности - наша задача и состоит в том, чтобы определить интервал, в котором могут находиться отклонения оценок от «истинного» значения и соответствующую ему вероятность. Но настало время все же пояснить - что же это за параметры?

в формуле на рис. 13.5 таких параметра два- величины ц и а. Они называется моментами нормального распределения (аналогично моментам распределения масс в механике). Параметр ц называется математическим ожиданием (или моментом распределения первого порядка), а величина а - средним квадратическим отклонением. Нередко употребляют его квадрат, обозначаемый как D или просто и носящий название дисперсии (или центрального момента второго порядка).

Математическое ожидание есть абсцисса максимума кривой нормального распределения (в нашем примере с автобусом это время 10:15), а дисперсия, как видно из рис. 13.5, характеризует «размытие» кривой относительно этого максимума- чем больше дисперсия, тем положе кривая. Этим моменты имеют прозрачный физический смысл (вспомните аналогию с фи^зическим распределением плотностей): математическое ожидание есть аналогия центра масс некоего тела, а дисперсия характеризует распределение масс относительно этого центра (хотя распределение плотности материи в физическом теле далеко от нормального распределения плотности вероятности).

Оценкой гпх математического ожидания ц служит хорошо знакомое нам со школы среднее арифметическое:

Здесь п- число измерений; /- текущий номер измерения (/= l,…,w); дс/ - значение измеряемой величины в /-м случае.

Оценка дисперсии вычисляется по формуле:

(2)

Оценка среднего квадратического отклонения, соответственно, будет:

Здесь (jc, – гПх) - отклонения конкретных измерений от ранее вычисленного среднего.

Следует особо обратить внимание, что сумму квадратов отклонений делить следует именно на « – 1, а не на «, как может показаться на первый взгляд, иначе оценка получится смещенной. Второе, на что следует обратить внимание - разброс относительно среднего характеризует именно среднее квадра-тическое отклонение, вычисленное по формулам (2) и (3), а не среднее арифметическое отклонение, как рекомендуют в некоторых школьных справочниках - последнее дает заниженную и смещенную оценку (не напоминает ли вам это аналогию со средним арифметическим и действующим значениями переменного напряжения?).

Заметки на полях

Кроме математического ожидания, средние значения распределения вероятностей характеризуют еще величинами, называемыми модой и медианой. В случае нормального распределения все три величины совпадают, но в других случаях они могут оказаться полезными: мода есть абсцисса наивероят-нейшего значения (то есть максимума на кривой распределения, что полностью отвечает бытовому понятию о моде), а медиана выборки есть такая точка, что половина выборки лежит левее ее, а вторая половина - правее.

В принципе этими формулами для расчета случайных погрешностей можно было бы ограничиться, если бы не один важный вопрос: оценки-то мы получили, а вот в какой степени они отвечают действительности? Правильно сформулированный вопрос будет звучать так: какова вероятность того, что среднее арифметическое отклоняется от «истинного» значения (то есть математического ожидания) не более чем на некоторою величину 8 (например, на величину оценки среднего квадратического отклонения s)?

Величина 5 носит название доверительного интервала, а соответствующая вероятность - доверительной вероятностью (или надежностью). Обычно решают задачу, противоположную сформулированной: задаются величиной надежности и вычисляют доверительный интервал 5. В технике принято задаваться величиной надежности 95%, в очень уж серьезных случаях - 99%. Простейшее правило для обычных измерений в этом случае таково: при уело-вии достаточно большого числа измерений (практически - более 15-20) доверительной вероятности в 95% соответствует доверительный интервал в 2Sy а доверительной вероятности в 99% - доверительный интервал в 3s. Это известное правило «трех сигма», согласно которому за пределы утроенного квадратического отклонения не выйдет ни один результат измерения, но на практике это слишком жесткое требование. Если мы не поленимся провести не менее полутора десятков отдельных измерений величины дс, то с чистой совестью можем записать, что результат будет равен

Cтраница 1

Случайные ошибки происходят при всяком измерении и в том числе при любом аналитическом определении, как бы тщательно оно ни проводилось. Наличие их сказывается в том, что повторные определения того или иного элемента в данном образце, выполненные одним и тем же методом, дают, как правило, не одинаковые, а несколько различающиеся между собой результаты.

Случайные ошибки возникают от различных помех, несовершенства органов чувств экспериментатора и других случайных причин. Ограниченная точность приборов, изменение условий, при которых проводится опыт (особенно это имеет значение при параллельных определениях), также приводят к возникновению случайных ошибок. Устранить их при измерениях невозможно, однако, пользуясь методом теории ошибок, можно уменьшить их влияние на результаты анализа и более точно установить вероятную ошибку в этих результатах.

Случайные ошибки, которые невозможно заранее предвидеть, учесть и избежать.

Случайные ошибки в каждом отдельном случае (приводят к различным результатам. Чтобы избежать таких ошибок, следует выполнять параллельные Количественные определения.

Случайные ошибки могут не подчиняться закону распределения Гаусса, которое обычно используют для анализа данных. И опять-таки статистические исследования можно использовать для того, чтобы определить, имеется ли значительное отклонение от распределения Гаусса, и соответственно этому интерпретировать данные.

Случайные ошибки предвидеть и учесть очень трудно. Если при этом получаются близкие результаты, то берут из них среднее арифметическое.

Случайные ошибки этих оценок хорошо известны; они вычислены в работе и приведены в табл. 2.1. Для оценок, получаемых усреднением по ансамблю статистически независимых реализаций, в табл. 2.1 приведены точные значения ошибок. В случае же оценок, полученных усреднением по времени, формулы для ошибок применимы только к процессам, энергия которых равномерно распределена в полосе частот шириной В. Поскольку такие процессы встречаются на практике редко, приведенные формулы нельзя использовать для вычисления ошибок; они могут служить только для ориентировочной оценки порядка ошибки.

Случайные ошибки в отличие от систематических не имеют видимой причины. Точнее говоря, причины их столь многочисленны в своей совокупности, и каждая из причин столь незначительно влияет на общий результат анализа, что их индивидуальное рассмотрение не имеет смысла. Общая случайная ошибка химического анализа не постоянна ни по абсолютной величине, ни по знаку, но появление значительной случайной ошибки тем менее вероятно для каждого анализа, чем больше ее абсолютное значение.

Случайные ошибки происходят при всяком измерении, и в том числе при любом аналитическом определении, как бы тщательно оно ни проводилось. Наличие их сказывается в том, что повторные определения того или иного элемента в данном образце, выполненные одним и тем же методом, дают, как правило, не одинаковые, а несколько различающиеся между собой результаты.

Случайные ошибки в атомно-абсорбционном анализе связаны ic нестабильностью источников света, атомизатора, приемника света и измерительного устройства.

Случайная ошибка при определении е не превышает 0 2 % при измерении частоты с точностью 2 МГц и измерении перемещения поршня с точностью 0 01 мм.

Случайные ошибки составляют 35 % от общего количества ошибок для неразмеченной ленты и 56 % для размеченной ленты.

Случайные ошибки, изменчивость которых проявляется при каждом отдельном измерении, будем называть случайными ошибками первого рода. Из сказанного выше следует, что при комплексных измерениях рассеивания начальной скорости артиллерийских снарядов с помощью счетно-импульсного хронометра случайными ошибками первого рода являются инструментальные ошибки хронометра и ошибки от несогласованности управляющих сигналов.