Статистика за Dummies
концепцията за доверителни интервали
Описание на длъжността на процеса на оценка
Общата формула на доверителния интервал
Тълкуване на резултатите от доверителния интервал
Откриване на анормални резултати
Байта статистика OST се използва за приблизително характеристиките на всяка целева група, например, средният
НИП семеен доход, процентът на хората, които купуват подаръци за Коледа онлайн, средният размер на сладолед се консумира годишно в САЩ (най-вероятно е по-добре да не се разбере). Тези характеристики са наречени общо параметри. Обикновено, хората искат да се направи оценка (т.е. приема се) стойността, посредством избор от снимачната площадка и с помощта на статистиката на пробата, която ще им позволи да се направи качествена предположение. И така, какво е "качествен предположение"?
Най-високото качество ще бъде пълната липса на предположения - т.е., ако имаш работа незабавно и точно определяне на параметрите. Но за да се определи точната стойност на параметъра, без провеждане на преброяване на цялото население, не е възможно - в повечето случаи това ще бъде изтощителна и скъпа работа. Но статистиката не се страхуват от трудностите, така че те често казват: "Да бъде статистик - така че никога не казват, че сте уверени. Основното нещо - просто да се доближи до истината ". Разбира се, статистика искат да са сигурни, че резултатите са възможно най-точни отразява действителността, защото изследванията са изразходвани пари и време. За да се постигне най-точни резултати много по-лесно, отколкото си мислите. Ако процесът се извършва правилно (и в медиите, че не се случва често!), Груба оценка може точно да отразява настройката. В тази глава ще научите накратко за доверителни интервали (т.е. видове, съмнително е изчислила, че статистиците използват и препоръчват), за това, защо те трябва да се използват (за разлика от една единствена хипотеза), как да се тълкуват на доверителния интервал и се вижда на погрешни предположения.
Не всички предположения са
Отворете списание или вестник, включване на радиото или телевизора, и вие ще намерите богат на статистически данни, много от които са с приблизителна стойност около на сума. Може би се чудите как те са получени
индикатори. В някои случаи цифрите са строго тествани, а в други - това е просто случаен изстрел. Ето някои примери за допусканията, на които съм срещал само една стая, от която списание за бизнеса. Всички те идват от различни източници.
26 милиона души най-малко веднъж годишно, за да играят голф.
6,7% от американските домове са закупени без заплащане.
Въпреки, че днес не е лесно да си намеря работа в някои райони на нов персонал наистина се нуждаят от: за следващите осем години ще отнеме 13000 помощници анестезиолози. Заплата - от 80 до 95 хиляди долара на година ..
По време на сезона, Мейджър лийг бейзбол играч използва средно по 90 бита.
Lamborghini Murcielago автомобил ускорява от 0 до 60 мили в час за 3,7 секунди. Максимална скорост - около 205 мили в час.
Някои от тези данни по-лесно да се получи, отколкото други. Ето някои наблюдения, че мога да направя за него.
Откъде знаеш, че 26 милиона души най-малко веднъж годишно, за да играят голф? В действителност, за да разберете, че не е толкова трудно, защото всички голфъри преди мача трябва да попълнят въпросника. Така че, след разглеждане на попълнените въпросници, може да бъде качествен предположение за това как много хора, които играят най-малко веднъж годишно. (Единственият проблем - не смятаме, че отново тези, които вече са разгледани преди това.)
Задайте процента от туристи, които изискват лекарска помощ, или жилища, закупени без заплащане, може да бъде в проучването. Ако изследването харчат правилно (виж гл. 16), тези данни могат да бъдат доста точни.
Как да разберете колко асистенти анестезиолози трябват за следващите осем години? Можете да започнете, като разберете колко много специалисти в този период ще се пенсионират, но тя не се взема под внимание развитието на индустрията. Направете предположение може да бъде доста точен, но гледаме към бъдещето в продължение на осем години, за една или две години - това е много по-трудна задача.
Намерете средния брой на битовете, които се използват за Мейджър Лийг Бейзбол сезон, е възможно, интервюиране на играчите, хората, които отговарят за тяхното оборудване, или компании, които доставят бита.
Определяне на скоростта на автомобила е по-трудно, но това може да се направи в един експеримент с помощта на хронометър. В този случай, трябва да се провери много различни машини (а не само един) от същия модел.
Word разстояние се използва, защото вашият резултат се превръща в интервала. Например, да речем, процентът на децата, които обичат бейзбол, е 40% плюс / минус 3.5%. Това означава, че процентът на децата, които обичат бейзбол, е някъде между 40% - 3,5% = 36,5% и 40% + 3,5% = 43,5%. Следователно, долната граница на интервала - е статистически минус допустима грешка, а горната граница - мярка плюс допустима грешка.
Доверието Думата се използва, тъй като сте в определена степен на доверие в процеса, по време на който е получил този интервал. Тя се нарича ниво на доверие.
Формули и примери за най-често използваните доверителните интервали, виж глава 13.
Ситуацията интерпретация на резултатите
Представете си, че сте - биолог и изследовател, се опитва да хване риба ръчна мрежа, чийто размер съответства на ширината на доверителен интервал. (Ширината на допустимата грешка се умножава по две за отчитане както събиране и изваждане.)
Да предположим, че нивото на доверие е 95%. Какво означава това? Това означава, че ако отново и отново, за да хвърли мрежата си във водата, за улов 95% от рибата. Риболов в този случай означава, че вашият доверителен интервал е правилно и се съдържа истинската параметър (тук параметъра е представена от риба).
Но означава ли това, че имате 95% шанс да хване риба, ако хвърлят мрежата само веднъж? Не. Не е ясно? Разбира се. Обяснявам: например, че си се опитват само да хвърли мрежата и затворете очите си, преди да го хвърлят във водата. В този момент, че имате 95% от улова на риба. Но дръпнете мрежата под водата, без да отваря очи - и вие ще имате само две възможности: или да хванеш риба, или не. Вероятността не играе роля.
По същия начин, след като данните са били събрани и доверителния интервал се изчислява, можете или да намерят истински параметър от общото население или не. Така че, не казвам, 95% сигурен, че параметърът е в този диапазон, защото правиш или го намери или не. Какво сте 95% сигурен, - така че
в процеса, по време на което се събира данни и е установено, доверителен интервал. Вие знаете, че интервали, които точно да отразяват средната стойност на 95% ще бъдат резултат от този процес. Останалите 5% на събраните данни в извадката, просто се случи да имат необичайно високи или ниски стойности, следователно, не представляват съвкупността. В такива случаи не можете да намерите опция.
По този начин, с правилния размер и структурата на мрежата, ще хване 95% от рибата
за предварително определен период от време. Но по време на всеки се опита ли сте някога улов на риба или не.
Ниво на сигурност, на размера на извадката и променливост на агрегата - всичко
Преди да вземе решения, основаващи се на някой друг оценка, се процедира по следния начин.
Разберете как статистическа мярка е получена. Тя трябва да бъде резултат от научна процес, чрез който се събират надеждни, обективни и точни данни. (Вж. Глави 2 и 3.)
Погледнете за допустима грешка. Ако не е уточнено, да намерите оригиналния източник.
Глава 11. Бюджетна прогноза: Концепцията за доверителни интервали
Изчисляване точните доверителните интервали
В очакване на определено ниво на доверие в прогнозните резултати
Общи методи за изчисляване доверителен интервал
Фактори, влияещи върху ширината на доверителния интервал
D overitelny интервал - измислено име статистика, с когото се съобщава, както и възможностите за грешки (обща информация за confi-
В тази глава ще научите как да се изчисли своя собствена CI. Вие ще се запознаете с някои от детайлите на доверителните интервали: какво ги кара да имат същата или по-широки от защо ви може да бъде повече или по-малко сигурен на получените резултати, както и че те се измерват, както и че - не. С тази информация, вие ще знаете какво да търсите, когато отговарят на статистическите резултати, и ще бъде в състояние да се определи колко точно са те.
Изчисляването на доверителния интервал
интервал на доверие е статистически показател плюс / минус допустима грешка (виж гл. 10). Да предположим, че искате да знаете процента на пикапи на всички превозни средства в САЩ (в този случай той ще бъде на параметъра). Невъзможно е да се направи преглед на всички автомобили в САЩ, така че да направите случайна извадка от 1000 превозни средства по различни пътища в различните часове на деня. В резултат на това е разкрито, че 7% от избраните превозни средства са пикапи. Но не може да се каже, че точно 7% от всички автомобили ще бъде пикапи по американските пътища, тъй като е известно, че този резултат се основава на всички избрани машини в 1000. Въпреки, че 7% - това е съвсем близо до истинската цифра, не е възможно да се знае със сигурност, защото сте се основава на резултатите въз основа на извадка, а не на всички превозни средства в Съединените щати.
тютюнев дим вредна, е 25,8% ± 1,6%.
Ширината на доверителния интервал - допустима грешка, умножена по две. Например, да предположим, че допустимата грешка е 5%. Следователно, индекса на доверителен интервал от 7% плюс / минус 5% е от 7% - 5% 2% до 7% + 5% = 12%. Това означава, че широчината на доверителния интервал е 12% - 2% = 10%. По-лесен начин да се определи този интервал - да кажем, че ширината на интервал на границата на доверието на грешка се умножава по две. В този случай ширината на доверителния интервал е равно на 2 х 5% = 10%.
Ширината на доверителния интервал - това разстояние от долната граница на интервала (перспективи - допустима грешка) до горната граница на интервала (статистиката + допустимата грешка). И за да се бързо да се определи ширината на доверителния интервал, ограничението за грешка може да се умножава по две.
По-долу са описани стъпките за оценка параметър с доверителни интервали, както и полезни съвети, където може да се намери по-подробна информация за всеки етап.
1. Изберете нивото на доверие и размер на извадката (виж гл. 9).
2. Осъществяване на произволна проба от множество елементи (виж гл. 3).
3. Събиране на надеждни и обективни данни за клетката на извадката. Още данните от изследването са описани в глава 16, както и експериментални данни - в глава 17.
4. определяне на статистиката, обикновено вторични или фракция (виж гл. 5) Въз основа на данните.
5. Изчислете граница на грешката (виж гл. 10).
6. Анализ на статистиката на плюс / минус граница на грешката и да даде окончателен параметър на оценка.
Това се нарича доверителен интервал за параметъра.
Избор на ниво на доверие
Имайте предвид, че в примера на отношението на подрастващите към бездимни тютюневи (вж. В съответната част по-горе) е фразата "95% доверителен интервал". Всеки от доверителния интервал (и ако става дума за това, всяка граница на грешката) е асоцииран ниво на доверие. В този пример, нивото на доверие е равно на 95%. Ниво на сигурност помага да се вземат предвид и други възможни резултати бихте могли да получите, ако направите предположението, на базата на една и съща проба. Ако искате да бъде 95% сигурен от другите възможни резултати, а след това си ниво на доверие ще бъде 95%.
Какво е нивото на доверие, изследователите обикновено използват? Има различни нива от 80 до 99%. Най-често нивото на доверие - 95%. Статистика като за шега: "Защо са статистици като тяхната работа? Тъй като те трябва да дават верни отговори на само 95% от случаите. " (Трябва да се отбележи, но доста добър?)
Уверете се, че до 95% - което означава, че ако направите много и много проби и всеки път, въз основа на резултатите, определяне на доверителния интервал е получен 95% доверителен интервал падане на прав път, т.е. наистина ще се отрази истинската параметър. За да получите ниво на доверие 95%, според правило, което трябва да добавите или извадите "за" 2 стандартни грешки. централната лимит теорема позволява по-точно да се обади на този номер, и така "около 2" всъщност означава 1.96. Таблица. 10.1 Глава 10 представя някои граници на сигурност и съответните им Z-стойности.
Ако искате да сте сигурни в резултатите си, повече от 95%, тогава ще трябва да добавите или извадите повече стандартни грешки. Например, за да бъде осигурена от 99%, е необходимо да се получи граница на грешка, добавяне и изваждане три стандартни отклонения. Колкото по-високо ниво на доверие, толкова по-голяма е стойността на Z, дълъг и по-широк от границата на доверие грешка интервал (при условие, че всички други данни остават същите). За допълнителна увереност да плащат.
Когато хипотезата на изказване с помощта на доверителен интервал основна цел е да доверителен интервал, че е тесен. След това можем по-добре да определи параметъра. Ако добавите и изважда по-голям брой, резултатът ще бъде по-малко точни. Например, да предположим, че се опитвате да се определи процентът на превозни средства
Глава 12. Изчисляване на точните доверителните интервали
с федерални магистрала ремаркета за между 12 и 18 часа, и като резултат са получени 95% доверителен интервал, според които процентът на такива транспортни е 50% плюс / минус 50%. Интервал наистина падане! (Разбира се, това е шега!) Въпреки това, можете да забравите за най-важното, като се опитва да даде качествена предположение.
В този случай, на доверителния интервал е твърде широк. Би било по-добре да се каже нещо подобно: 95% доверителен интервал за процента на автомобили с ремаркета на федералната магистрала между 12 и 18 часа на деня е равна на 50% плюс / минус 3%. За да направите това ще изисква по-голяма извадка, но фактът, че би било необходимо.
Така че, ако допустимата грешка е малка - това е добре, това означава, че по-малко - още по-добре? Не винаги. За увеличаване на тесния доверителния интервал, трябва да се харчат много по-трудно - и скъпи - на проучването, и в един момент увеличение на разходите не оправдава лекото покачване на точност. Повечето изследователи в определянето на интерес (например, процентът на жените републиканците или пушачи) тихо съдържание допустимата грешка от 2% до 3%.
Тясна доверителен интервал - това е добре.
Но как да се гарантира, че на доверителния интервал е достатъчно тесен? Помислете върху този въпрос ще има преди събирането на данни, тъй като след края на събирането на данни от интервал ширината на доверие вече е инсталиран.
Ширината на доверителния интервал се влияе от три фактора.
Ниво на сигурност (както е посочено в предишния раздел).
Степента на отклонение в популацията.
Формула допустима грешка по отношение на средната проба, е: Z х а. където п
Z - стойност от стандартната нормалното разпределение, съответстващо на нивото на степен на достоверност (виж Таблица 1.10 в раздел 10 ..).
размер на извадката (виж глава 9.) - п.
Грешка виж гл. 10).
интервал на доверие за х средна стойност е равна на плюс / минус допустима грешка. Глава 13 осигурява най-често срещаната формула на доверителни интервали, които може да срещнете.
Всяка от тези три фактора (ниво на достоверност, размер на пробата и променливостта на населението) значително влияе на ширината на доверителния интервал. Вие вече знаете какво е влиянието на нивото на увереност. В следващия раздел ще научите как ширината на доверителния интервал се отрази на размера на извадката и променливостта на населението.