Довірчий інтервал показує. Довірчий інтервал

«Катрен-Стиль» продовжує публікацію циклу Костянтина Кравчика про медичної статистики. У попередніх статтях автор стосувався пояснення таких понять, як і .

Костянтин Кравчик

Математик-аналітик. Спеціаліст в області статистичних дослідженьу медицині та гуманітарних науках

Місто Москва

Дуже часто в статтях з клінічних досліджень можна зустріти загадкове словосполучення: «довірчий інтервал» (95% ДІ або 95% CI - confidence interval). Наприклад, у статті може бути написано: «Для оцінки значущості відмінностей використовували t-критерій Стьюдента з розрахунком 95% довірчого інтервалу».

Якого ж значення «95% довірчого інтервалу» і навіщо його розраховувати?

Що таке довірчий інтервал? - Це діапазон, в якому знаходяться справжні середні значення у генеральній сукупності. А що, бувають несправжні середні значення? У певному сенсі так, бувають. Ми пояснювали, що неможливо виміряти цікавий параметр у всій генеральній сукупності, тому дослідники задовольняються обмеженою вибіркою. У цій вибірці (наприклад, за масою тіла) є одне середнє значення (певна вага), за яким ми і судимо про середнє значення у всій генеральній сукупності. Однак навряд чи середня вага у вибірці (особливо невелика) збігається із середньою вагою в генеральній сукупності. Тому більш правильно розраховувати та користуватися діапазоном середніх значень генеральної сукупності.

Наприклад, уявимо, що 95% довірчий інтервал (95% ДІ) по гемоглобіну становить від 110 до 122 г/л. Це означає, що з ймовірністю 95% справжнє середнє значення по гемоглобіну в генеральній сукупності перебуватиме в межах від 110 до 122 г/л. Іншими словами, ми не знаємо середній показникгемоглобіну в генеральній сукупності, але можемо з 95% ймовірністю вказати діапазон значень для цієї ознаки.

Довірчий інтервал особливо доречний для різниці середніх значеннях між групами або, як це називають, у розмірі ефекту.

Припустимо, ми порівнювали ефективність двох препаратів заліза: давно присутнього на ринку і щойно зареєстрованого. Після курсу терапії оцінили концентрацію гемоглобіну в досліджуваних групах пацієнтів, і статистична програма нам визнала, що різниця між середніми значеннями двох груп з ймовірністю 95% знаходиться в діапазоні від 1,72 до 14,36 г/л (табл. 1).

Табл. 1. Критерій для незалежних вибірок
(порівнюються групи за рівнем гемоглобіну)

Трактувати це слід так: частина пацієнтів генеральної сукупності, яка приймає новий препарат, гемоглобін буде вищим у середньому на 1,72–14,36 г/л, ніж у тих, хто приймав уже відомий препарат.

Іншими словами, в генеральній сукупності різниця в середніх значеннях по гемоглобіну у груп з 95% ймовірністю знаходиться в цих межах. Судити, багато це чи мало буде вже дослідник. Сенс всього цього в тому, що ми працюємо не з одним середнім значенням, а з діапазоном значень, отже, ми вірогідніше оцінюємо різницю за параметром між групами.

У статистичних пакетах, на розсуд дослідника, можна самостійно звужувати чи розширювати межі довірчого інтервалу. Знижуючи ймовірність довірчого інтервалу, ми звужуємо діапазон середніх. Наприклад, при 90% ДІ діапазон середніх (або різниці середніх) буде вже, ніж при 95%.

І навпаки, збільшення ймовірності до 99% розширює діапазон значень. При порівнянні груп нижня межа ДІ може перетнути нульову позначку. Наприклад, якщо ми розширили межі довірчого інтервалу до 99%, то межі інтервалу розташувалися від –1 до 16 г/л. Це означає, що в генеральній сукупності є групи, відмінність середніх між якими за ознакою, що вивчається, дорівнює 0 (М = 0).

З допомогою довірчого інтервалу можна перевіряти статистичні гіпотези. Якщо довірчий інтервал перетинає нульове значення, то нульова гіпотеза, яка передбачає, що групи не відрізняються за параметром, що вивчається, вірна. Приклад описаний вище, коли ми розширили межі до 99%. Десь у генеральній сукупності у нас знайшлися групи, які не відрізнялися.

95% довірчий інтервал різниці по гемоглобіну, (г/л)


На малюнку у вигляді лінії зображено 95% довірчий інтервал різниці середніх значень по гемоглобіну між двома групами. Лінія проходить нульову позначку, отже, має місце різниця між середніми значеннями, що дорівнює нулю, що підтверджує нульову гіпотезу про те, що групи не відрізняються. Діапазон різниці між групами лежить від -2 до 5 г/л. Це означає, що гемоглобін може знизитися на 2 г/л, так і підвищитися на 5 г/л.

Довірчий інтервал – дуже важливий показник. Завдяки йому можна подивитися, чи були відмінності в групах дійсно за рахунок різниці середніх або за рахунок великої вибірки, тому що при великій вибірці шанси знайти відмінності більше, ніж за малої.

Насправді це може виглядати так. Ми взяли вибірку в 1000 осіб, виміряли рівень гемоглобіну та виявили, що довірчий інтервал різниці середніх лежить від 1,2 до 1,5 г/л. Рівень статистичної значимостіпри цьому p

Ми бачимо, що концентрація гемоглобіну підвищилася, але практично непомітно, отже, статистична значимість з'явилася за рахунок обсягу вибірки.

Довірчий інтервал може бути вирахований як для середніх значень, але й пропорцій (і відносин ризиків). Наприклад, нас цікавить довірчий інтервал пропорцій пацієнтів, які досягли ремісії, приймаючи розроблені ліки. Припустимо, що 95% ДІ для пропорцій, тобто для частки таких пацієнтів, лежить в межах 0,60-0,80. Таким чином, ми можемо сказати, що наші ліки мають терапевтичний ефект від 60 до 80% випадків.

Будь-яка вибірка дає лише наближене уявлення про генеральну сукупність, і всі вибіркові статистичні характеристики (середня, мода, дисперсія…) є деяким наближенням або говорять оцінкою генеральних параметрів, які обчислити в більшості випадків неможливо через недоступність генеральної сукупності (Малюнок 20). .

Малюнок 20. Помилка вибірки

Але можна зазначити інтервал, у якому з певною часткою ймовірності лежить справжнє (генеральне) значення статистичної характеристики. Цей інтервал називається д перевірливий інтервал (ДІ).

Так генеральне середнє значення з ймовірністю 95% лежить у межах

від до, (20)

де t - Табличне значення критерію Ст'юдента для α =0,05 та f= n-1

Може бути знайдено і 99% ДІ, у цьому випадку t вибирається для α =0,01.

Яке практичне значення має довірчий інтервал?

    Широкий довірчий інтервал показує, що середня вибіркова неточно відображає генеральну середню. Зазвичай це з недостатнім обсягом вибірки, чи з її неоднорідністю, тобто. великою дисперсією. І те, і інше дають велику помилку середнього і, відповідно, ширший ДІ. І це є підставою повернутись на етап планування дослідження.

    Верхні та нижні межі ДІ дають оцінку, чи будуть результати клінічно значущі

Зупинимося дещо докладніше на питанні статистичної та клінічної значущості результатів дослідження групових властивостей. Згадаймо, що завдання статистики є виявлення хоч якихось відмінностей у генеральних сукупностях, спираючись на вибіркові дані. Завданням клініцистів є виявлення таких (не будь-яких) відмінностей, які допоможуть діагностиці чи лікуванню. І не завжди статистичні висновки є основою клінічних висновків. Так, статистично значуще зниження гемоглобіну на 3 г/л не є приводом для занепокоєння. І, навпаки, якщо якась проблема в організмі людини не має масового характеру на рівні всієї популяції, це не є підставою для того, щоб цією проблемою не займатися.

Це положення розглянемо на прикладі.

Дослідники поцікавилися, чи не відстають у зростанні від своїх однолітків хлопчики, які перенесли якесь інфекційне захворювання. З цією метою було проведено вибіркове дослідження, в якому взяли участь 10 хлопчиків, які перенесли хворобу. Результати представлені у таблиці 23.

Таблиця 23. Результати статообробки

нижня межа

верхня межа

Нормативи (см)

середнього

З цих розрахунків випливає, що середній вибірковий хлопчиків 10 років, які перенесли якесь інфекційне захворювання, близький до норми (132,5 см). Проте нижня межа довірчого інтервалу (126,6 див) свідчить про наявність 95% ймовірність те, що справжнє середнє зростання цих дітей відповідає поняттю «низьке зростання», тобто. ці діти відстають у зростанні.

У цьому вся прикладі результати розрахунків довірчого інтервалу клінічно значущі.

Всі вони є оцінками своїх теоретичних аналогів, які можна було б отримати, якби в розпорядженні була не вибірка, а Генеральна сукупність. Але на жаль, генеральна сукупність - це дуже дорого і часто недоступне.

Поняття про інтервальне оцінювання

Будь-яка вибіркова оцінка має деякий розкид, т.к. є випадковою величиною, що залежить від значень у конкретній вибірці. Отже, для більш надійних статистичних висновків слід знати не лише точкову оцінку, але й інтервал, який з високою ймовірністю γ (гама) накриває оцінюваний показник θ (Тета).

Формально це два таких значення (статистики) T 1 (X)і T 2 (X), що T 1< T 2 для яких при заданому рівні ймовірності γ виконується умова:

Коротше, з ймовірністю γ або більше істинний показник знаходиться між точками T 1 (X)і T 2 (X), які називаються нижнім та верхнім кордоном довірчого інтервалу.

Однією з умов побудови довірчих інтервалів його максимальна вузькість, тобто. він має бути наскільки це можливо коротким. Бажання цілком природно, т.к. дослідник намагається точніше локалізувати знаходження шуканого параметра.

Звідси випливає, що інтервал довіри повинен накривати максимальні ймовірності розподілу. а сама оцінка бути у центрі.

Тобто ймовірність відхилення (справжнього показника від оцінки) у більшу сторону дорівнює ймовірності відхилення у менший бік. Слід зазначити, що з несиметричних розподілів інтервал справа не дорівнює інтервалу зліва.

На малюнку вище чітко видно, що чим більша довірча ймовірність, тим ширший інтервал – пряма залежність.

Це була невелика вступна частина в теорію інтервального оцінювання невідомих параметрів. Перейдемо до знаходження довірчих кордонів для математичного очікування.

Довірчий інтервал для математичного очікування

Якщо вихідні дані розподілені по , то середнє буде нормальною величиною. Це випливає з того правила, що лінійна комбінація нормальних величин також має нормальний розподіл. Отже, для розрахунку можливостей ми могли б використовувати математичний апарат нормального закону розподілу.

Однак для цього потрібно знати два параметри – матожидання та дисперсію, які зазвичай не відомі. Можна, звичайно, замість параметрів використовувати оцінки (середню арифметичну і ), але тоді розподіл середньої буде не зовсім нормальним, він буде трохи приплюснутий донизу. Цей факт спритно помітив громадянин Вільям Госсет з Ірландії, опублікувавши своє відкриття у березневому випуску журналу Biometrica за 1908 рік. З метою конспірації Держсет підписався Стьюдентом. Так виник t-розподіл Стьюдента.

Однак нормальний розподіл даних, що використовувався К. Гауссом при аналізі помилок астрономічних спостережень, у земному житті зустрічається вкрай рідко і встановити досить складно (для високої точності необхідно близько 2 тисяч спостережень). Тому припущення про нормальність найкраще відкинути та використовувати методи, які не залежать від розподілу вихідних даних.

Виникає питання: який же розподіл середньої арифметичної, якщо він розрахований за даними невідомого розподілу? Відповідь дає відома у теорії ймовірностей Центральна гранична теорема(ЦПТ). У математиці існує кілька її варіантів (протягом довгих років формулювання уточнювалися), але всі вони, грубо кажучи, зводяться до твердження, що сума великої кількості незалежних випадкових величин підпорядковується нормальному законурозподілу.

При розрахунку середньої арифметичної використовується сума випадкових величин. Звідси виходить, що середнє арифметичне має нормальний розподіл, у якого матожидання – це маточування вихідних даних, а дисперсія – .

Розумні людивміють доводити ЦПТ, але ми переконаємося з допомогою експерименту, проведеного в Excel. Змоделюємо вибірку із 50-ти рівномірно розподілених випадкових величин (за допомогою функції ExcelВИПАДМІЖ). Потім зробимо 1000 таких вибірок і кожної розрахуємо середню арифметичну. Подивимося з їхньої розподіл.

Видно, що розподіл середньої близько до нормального закону. Якщо обсяг вибірок та їх кількість зробити ще більше, то подібність буде ще кращою.

Тепер, коли ми переконалися в справедливості ЦПТ, можна, використовуючи , розрахувати довірчі інтервали для середньої арифметичної, які з заданою ймовірністюнакривають справжнє середнє чи математичне очікування.

Для встановлення верхньої та нижньої межі потрібно знати параметри нормального розподілу. Як правило, їх немає, тому використовують оцінки: середню арифметичнуі вибіркову дисперсію. Повторюся, такий спосіб дає гарне наближення лише за великих вибірках. Коли вибірки малі, часто рекомендують використовувати розподіл Стьюдента. Не вірте! Розподіл Стьюдента для середньої буває лише тоді, коли вихідні дані мають нормальний розподіл, тобто майже ніколи. Тому краще відразу поставити мінімальну планку за кількістю необхідних даних та використовувати асимптотично коректні методи. Говорять, достатньо 30 спостережень. Беріть 50 – не помилитеся.

T 1,2– нижня та верхня межа довірчого інтервалу

– вибіркове середнє арифметичне

s 0- Середнє квадратичне відхилення за вибіркою (незміщене)

n - Розмір вибірки

γ - Довірча ймовірність (зазвичай дорівнює 0,9, 0,95 або 0,99)

c γ =Φ -1 ((1+γ)/2)- Зворотне значення функції стандартного нормального розподілу. Простіше кажучи, це кількість стандартних помилок від середньої арифметичної до нижньої або верхньої межі (вказаним трьома ймовірностями відповідають значення 1,64, 1,96 і 2,58).

Суть формули в тому, що береться середнє арифметичне і далі від неї відкладається кілька ( з γ) стандартних помилок ( s 0 /√n). Все відомо, бери і рахуй.

До масового використання ПЕОМ для отримання значень функції нормального розподілу та зворотної їй використовували. Їх і зараз використовують, але ефективніше звернутися до готових формулам Excel. Всі елементи формули вище ( , і ) можна легко розрахувати в Excel. Але є і готова формула для розрахунку довірчого інтервалу ДОВІР.НОРМ. Її синтаксис наступний.

ДОВІР.НОРМ(альфа;стандартне_вимк.;розмір)

альфа– рівень значущості чи довірчий рівень, що у прийнятих вище позначеннях дорівнює 1- γ, тобто. ймовірність того, що математичнеочікування опиниться поза довірчого інтервалу. При довірчої ймовірності 0,95, альфа дорівнює 0,05 і т.д.

стандартне_відкл- Середнє квадратичне відхилення вибіркових даних. Стандартну помилку не треба розраховувати, Excel сам розділить на корінь з n.

розмір- Розмір вибірки (n).

Результат функції ДОВЕРИТ.НОРМ – це другий доданок з формули розрахунку довірчого інтервалу, тобто. напівінтервал. Відповідно, нижня та верхня точка – це середнє ± отримане значення.

Отже, можна побудувати універсальний алгоритм розрахунку довірчих інтервалів для середньої арифметичної, який залежить від розподілу вихідних даних. Платою за універсальність є його асимптотичність, тобто. необхідність використання щодо великих вибірок. Однак у вік сучасних технологійзібрати необхідну кількість даних зазвичай не становить труднощів.

Перевірка статистичних гіпотез за допомогою довірчого інтервалу

(Module 111)

Однією з основних завдань, вирішуваних у статистиці, є . Її суть коротко така. Висувається припущення, наприклад, що матожидання генеральної сукупності дорівнює якомусь значенню. Потім будується розподіл вибіркових середніх, які можуть спостерігатися при даному матожиданні. Далі дивляться, де цього умовного розподілу перебуває справжня середня. Якщо вона виходить за допустимі межі, то поява такого середнього дуже малоймовірна, а при одноразовому повторенні експерименту майже неможливо, що суперечить висунутій гіпотезі, яка успішно відхиляється. Якщо ж середнє не виходить за критичний рівень, то гіпотеза не відхиляється (але й доводиться!).

Так ось за допомогою довірчих інтервалів, у нашому випадку для матожидання, також можна перевіряти деякі гіпотези. Це дуже просто зробити. Припустимо, середня арифметична за деякою вибіркою дорівнює 100. Перевіряється гіпотеза про те, що матожидання одно, припустимо, 90. Тобто, якщо поставити питання примітивно, то він звучить так: чи може таке бути, щоб при істинному значенні середньої рівної 90, спостерігається середня виявилася дорівнює 100?

Для відповіді на це питання додатково знадобиться інформація про середнє квадратичне відхилення та розмір вибірки. Допустимо середньоквадратичне відхилення дорівнює 30, а кількість спостережень 64 (щоб легко витягти корінь). Тоді стандартна помилка середньої дорівнює 30/8 чи 3,75. Для розрахунку 95% довірчого інтервалу потрібно відкласти в обидві сторони від середньої по дві стандартні помилки (точніше, 1,96). Довірчий інтервал вийде приблизно 100±7,5 або 92,5 до 107,5.

Далі міркування такі. Якщо перевірене значення потрапляє у довірчий інтервал, воно не суперечить гіпотезі, т.к. укладається у межі випадкових коливань (з ймовірністю 95%). Якщо точка, що перевіряється, виходить за межі довірчого інтервалу, то ймовірність такої події дуже маленька, принаймні нижче допустимого рівня. Отже, гіпотезу відхиляють, як таку, що суперечить спостережуваним даним. У нашому випадку гіпотеза про маточування знаходиться за межами довірчого інтервалу (перевірене значення 90 не входить до інтервалу 100±7,5), тому її слід відхилити. Відповідаючи на примітивне питання вище, слід сказати: ні не може, принаймні таке трапляється вкрай рідко. Часто при цьому вказують конкретну ймовірність помилкового відхилення гіпотези (p-level), а не заданий рівень, яким будувався довірчий інтервал, але про це в інший раз.

Як бачимо, побудувати довірчий інтервал для середнього (або математичного очікування) нескладно. Головне, вловити суть, а далі йтиметься. На практиці в більшості випадків використовуються 95% довірчий інтервал, який має завширшки приблизно дві стандартні помилки по обидва боки від середньої.

На цьому поки що все. Всіх благ!

Довірчий інтервал(ДІ; в англ, confidence interval - CI) отриманий у дослідженні при вибірці дає міру точності (або невизначеності) результатів дослідження, для того щоб робити висновки про популяцію всіх таких пацієнтів (генеральна сукупність). Правильне визначення 95% ДІ можна сформулювати так: 95% таких інтервалів міститиме справжню величину в популяції. Дещо менш точна така інтерпретація: ДІ - діапазон величин, у межах якого можна на 95% бути впевненим у тому, що він містить справжню величину. При використанні ДІ акцент робиться на визначенні кількісного ефекту, на противагу величині Р, яка у результаті перевірки статистичної значимості. Величина Р не оцінює жодної кількості, а служить швидше мірою сили свідчення проти нульової гіпотези «ніякого ефекту». Величина Р сама по собі не говорить нам нічого ні про величину відмінності, ні навіть про його спрямування. Тому самостійні величини Р абсолютно неінформативні у статтях чи рефератах. На відміну від них ДІ вказує і кількість ефекту, що становить безпосередній інтерес, наприклад на корисність лікування, і силу доказів. Тому ДІ безпосередньо має відношення до практики ДМ.

Підхід оцінки до статистичного аналізу, що ілюструється ДІ, спрямований на вимірювання кількості цікавого для нас ефекту (чутливість діагностичного тесту, частота прогнозованих випадків, скорочення відносного ризику при лікуванні і т.д.), а також на вимірювання невизначеності в цьому ефекті. Найчастіше ДІ - діапазон величин з обох боків оцінки, у якому, ймовірно, лежить справжня величина, і можна бути впевненим у цьому 95%. Угода використовувати 95% можливість довільно, так само як і величину Р<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

ДІ заснований на ідеї, що те саме дослідження, виконане на інших вибірках пацієнтів, не призвело б до ідентичних результатів, але що їх результати будуть розподілені навколо істинної, проте невідомої величини. Іншими словами, ДІ описує це як «варіабельність, яка залежить від вибірки». ДІ не відображає додаткову невизначеність, обумовлену іншими причинами; зокрема, він не включає вплив селективної втрати пацієнтів під час відстеження, поганого комплайнсу або неточного вимірювання результату, відсутності засліплення тощо. ДІ, таким чином, завжди недооцінює загальну кількість невизначеності.

Обчислення довірчого інтервалу

Таблиця А1.1. Стандартні помилки та довірчі інтервали для деяких клінічних вимірювань

Зазвичай ДІ обчислюють з оцінки кількісного показника, такого, як відмінність (d) між двома пропорціями, і стандартної помилки (SE) в оцінці цієї відмінності. Приблизний 95% ДІ, що отримується таким чином, - d ± 1,96 SE. Формула змінюється відповідно до природи заходу та охоплення ДІ. Наприклад, у рандомізованому плацебо-контрольованому випробуванні безклітинної коклюшної вакцини кашлюк розвивався у 72 з 1670 (4,3%) немовлят, які отримали вакцину, і у 240 з 1665 (14,4%) у групі контролю. Відмінність у відсотках відома як абсолютне зниження ризику становить 10,1%. SE цієї відмінності дорівнює 0,99%. Відповідно 95% ДІ становить 10,1% + 1,96 x 0,99%, тобто. від 8,2 до 12,0.

Незважаючи на різні філософські підходи, ДІ та тести на статистичну значущість тісно пов'язані математично.

Отже, величина Р «значна», тобто. Р<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Невизначеність (неточність) оцінки, що виражається в ДІ, великою мірою пов'язана з квадратним коренем із розміру вибірки. Невеликі вибірки надають менше інформації, ніж більші, і ДІ відповідно ширше в меншій вибірці. Наприклад, стаття, яка порівнює характеристики трьох тестів, що застосовуються для діагностики інфекції Helicobacter pylori, повідомила про чутливість дихальної проби з сечовиною 95,8% (95% ДІ 75-100). У той час як число 95,8% виглядає переконливо, маленька вибірка з 24 дорослих пацієнтів з Я. pylori означає, що є значна невизначеність у цій оцінці, як показує широкий ДІ. Справді, нижня межа 75% набагато нижча, ніж оцінка 95,8%. Якби така ж чутливість спостерігалася у вибірці 240 осіб, то 95% ДІ становив би 92,5-98,0, даючи більше гарантій, що тест високочутливий.

У рандомізованих контрольованих випробуваннях (РКД) незначні результати (тобто ті, де Р> 0,05) особливо схильні до неправильного тлумачення. ДІ особливо корисний тут, оскільки він показує, наскільки сумісні результати клінічно корисним справжнім ефектом. Наприклад, у РКІ, що порівнює накладення анастомозу швом і скріпками на товстій кишці, ранова інфекція розвинулася у 10,9% та 13,5% пацієнтів відповідно (Р = 0,30). 95% ДІ для цього відмінності становить 2,6% (від -2 до +8). Навіть у цьому дослідженні, що включало 652 пацієнти, залишається ймовірність, що існує помірна відмінність у частоті інфекцій, що виникають внаслідок цих двох процедур. Чим менше дослідження, тим більша невпевненість. Сунг та співавт. виконали РКІ, щоб порівняти інфузію октреотиду з терміновою склеротерапією при гострій кровотечі з варикозно-розширених вен на 100 пацієнтів. У групі октреотиду частота зупинки кровотечі становила 84%; у групі склеротерапії - 90%, що дає Р = 0,56. Зауважимо, що показники кровотечі, що триває, аналогічні таким при рановій інфекції у згаданому дослідженні. В цьому випадку, однак, 95% ДІ для відмінності втручань дорівнює 6% (від -7 до +19). Цей інтервал досить широкий порівняно з 5% відмінністю, яка представляла б клінічний інтерес. Зрозуміло, дослідження не виключає значної різниці в ефективності. Тому висновок авторів «інфузія октреотиду та склеротерапія однаково ефективні при лікуванні кровотечі з варикозно-розширених вен» безумовно невалідно. У подібних випадках, коли, як тут, 95% ДІ для абсолютного зниження ризику (АСР; включає нуль, ДІ для ПВПП (NNT - number needed to treat, англ.) є досить скрутним для тлумачення . ЧПЛП та її ДІ отримують з величин, зворотних АСР (помножуючи їх у 100, якщо ці величини дані у вигляді процентов). Тут ми отримуємо ПВП = 100: 6 = 16,6 з 95% ДІ від -14,3 до 5,3. Як видно із виноски «d» у табл. А1.1, цей ДІ включає величини ПВПЛ від 5,3 до нескінченності і ПВПЛ від 14,3 до нескінченності.

ДІ можна побудувати більшості зазвичай уживаних статистичних оцінок чи порівнянь. Для РКІ він включає різницю між середніми пропорціями, відносними ризиками, відносинами шансів та ПВПЛ. Аналогічно ДІ можна отримати для всіх головних оцінок, зроблених у дослідженнях точності діагностичних тестів - чутливості, специфічності, прогностичної значущості позитивного результату (всі вони є простими пропорціями), і відносини правдоподібності - оцінок, які отримують метааналізах і дослідженнях типу порівняння з контролем. Комп'ютерна програма для персональних комп'ютерів, яка покриває багато цих способів використання ДІ, доступна з другим виданням «Statistics with Confidence». Макроси для обчислення ДІ для пропорцій безкоштовно доступні для Excel та статистичних програм SPSS та Minitab на http://www.uwcm.ac.uk/study/medicine/epidemiology_ statistics/research/statistics/proportions, htm.

Численні оцінки ефекту лікування

У той час як побудова ДІ бажана для первинних результатів дослідження, вони не є обов'язковими для всіх результатів. ДІ стосується клінічно важливих порівнянь. Наприклад, при порівнянні двох груп правильний той ДІ, що побудований для відмінності між групами, як показано вище в прикладах, а не ДІ, який можна побудувати для оцінки кожної групи. Мало того, що марно давати окремі ДІ для оцінок у кожній групі, це уявлення може вводити в оману. Так само правильний підхід при порівнянні ефективності лікування в різних підгрупах - порівняння двох (або більше) підгруп безпосередньо. Неправильно припускати, що лікування ефективне лише в одній підгрупі, якщо її ДІ виключає величину, що відповідає відсутності ефекту, а інші – ні. ДІ корисні також при порівнянні результатів у кількох підгрупах. На рис. А 1.1 показаний відносний ризик еклампсії у жінок з прееклампсією у підгрупах жінок з плацебо-контрольованого РКІ сульфату магнію.

Рис. А1.2. Лісовий графік показує результати 11 рандомізованих клінічних випробувань бичачої ротавірусної вакцини для профілактики діареї порівняно з плацебо. При оцінці відносного ризику діареї використано 95% довірчий інтервал. Розмір чорного квадрата пропорційний обсягу інформації. Крім того, показано сумарну оцінку ефективності лікування та 95% довірчого інтервалу (позначається ромбом). У метааналізі використана модель випадкових ефектів перевищує деякі попередньо встановлені; наприклад, це може бути розмір, використаний для обчислення величини вибірки. Відповідно до суворішого критерію весь діапазон ДІ повинен показувати користь, що перевищує встановлений мінімум.

Ми вже обговорювали помилку, коли відсутність статистичної значущості сприймають як вказівку на те, що два способи лікування однаково ефективні. Так само важливо не зрівнювати статистичну значимість із клінічною важливістю. Клінічну важливість можна припускати, коли результат статистично значимий і величина оцінки ефективності лікування

Дослідження можуть показати, чи значущі результати статистично і які клінічно важливі, які - ні. На рис. А1.2 наведено результати чотирьох випробувань, для яких весь ДІ<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Довірчий інтервал– граничні значення статистичної величини, яка із заданою довірчою ймовірністю γ буде у цьому інтервалі при вибірці більшого обсягу. Позначається як P(θ - ε. На практиці вибирають довірчу ймовірність γ з досить близьких до одиниці значень γ = 0.9, γ = 0.95, γ = 0.99.

Призначення сервісу. За допомогою цього сервісу визначаються:

  • довірчий інтервал для генерального середнього; довірчий інтервал для дисперсії;
  • довірчий інтервал для середнього квадратичного відхилення; довірчий інтервал для генеральної частки;
Отримане рішення зберігається у файлі Word (див. приклад). Нижче наведено відеоінструкцію, як заповнювати вихідні дані.

Приклад №1. У колгоспі із загального стада у 1000 голів овець вибірковій контрольній стрижці зазнали 100 овець. В результаті було встановлено середній настриг вовни 4,2 кг на одну вівцю. Визначити з ймовірністю 0,99 середню квадратичну помилку вибірки щодо середнього настригу вовни однією вівцю і межі, у яких укладена величина настрига, якщо дисперсія дорівнює 2,5 . Вибірка неповторна.
Приклад №2. З партії імпортованої продукції посаді Московської Північної митниці було взято як випадкової повторної вибірки 20 проб продукту «А». В результаті перевірки встановлено середню вологість продукту «А» у вибірці, яка дорівнювала 6 % при середньому квадратичному відхиленні 1 %.
Визначте з ймовірністю 0,683 межі середньої вологості продукту в усій партії імпортованої продукції.
Приклад №3. Опитування 36 студентів показало, що середня кількість підручників, прочитаних ними за навчальний рік, дорівнювала 6. Вважаючи, що кількість підручників, прочитаних студентом за семестр, має нормальний закон розподілу із середнім квадратичним відхиленням, рівним 6, знайти: А) з надійністю 0 ,99 інтервальну оцінку для математичного очікування цієї випадкової величини; Б) з якою ймовірністю можна стверджувати, що середня кількість підручників, прочитаних студентом за семестр, обчислена за даною вибіркою, відхилиться від математичного очікування абсолютної величини не більше, ніж на 2.

Класифікація довірчих інтервалів

По виду оцінюваного параметра:

За типом вибірки:

  1. Довірчий інтервал для безкінечної вибірки;
  2. Довірчий інтервал для кінцевої вибірки;
Вибірка називається повторноюякщо відібраний об'єкт перед вибором наступного повертається в генеральну сукупність. Вибірка називається безповторноюякщо відібраний об'єкт у генеральну сукупність не повертається. Насправді зазвичай мають справу з безповторними вибірками.

Розрахунок середньої помилки вибірки при випадковому відборі

Розбіжність між значеннями показників, отриманих за вибіркою, та відповідними параметрами генеральної сукупності називається помилкою репрезентативності.
Позначення основних параметрів генеральної та вибіркової сукупності.
Формули середньої помилки вибірки
повторний відбірбезповторний відбір
для середньоїдля часткидля середньоїдля частки
Співвідношення між межею помилки вибірки (Δ), що гарантується з деякою ймовірністю Р(t),та середньою помилкою вибірки має вигляд: або Δ = t·μ, де t- Коефіцієнт довіри, що визначається залежно від рівня ймовірності Р(t) по таблиці інтегральної функції Лапласа.

Формули розрахунку чисельності вибірки при власне-випадковому способі відбору

Поділіться з друзями або збережіть для себе:

Завантаження...