1. Образователна математикаСтатика Какво е категорични данни и как се обобщава?
Статистическа работна книга за манекени с онлайн практика, 2-ро издание

От Дебора Дж. Румзи

Какво представляват категоричните данни? По принцип това са данни, при които индивидите са подредени в групи или категории - например пол, регион или тип филм. Обобщаването на категоричните данни включва събиране на цялата информация само в няколко числа, които разказват нейната основна история.

Тъй като категоричните данни включват части от данни, които принадлежат към категории, трябва да погледнете колко индивида попадат във всяка група и да обобщите числата по подходящ начин. Тук научавате как да правите, интерпретирате и оценявате честотни и относителни честотни таблици за категорични данни.

Разчитане на честотата

Един от начините за обобщаване на категоричните данни е просто преброяване или сумиране на броя на лицата, попадащи във всяка категория. Броят на хората във всяка дадена категория се нарича честотата (или броя) за тази категория. Ако изброите всички възможни категории заедно с честотата за всяка, създавате честотна таблица. Общият брой на всички честоти трябва да е равен на размера на извадката (защото поставяте всеки индивид в една категория).

Вижте следното за пример за обобщаване на данните, като използвате честотна таблица.

Да предположим, че вземете проба от 10 души и ги попитайте дали притежават мобилен телефон. Всеки човек попада в една от двете категории: да или не. Данните са показани в следната таблица.

Резюметата на данните свалят данните бързо и ясно.

Обобщена информация ви позволява да виждате модели в данните, които не са ясни, ако гледате само оригиналните данни.

Свързване на категорични данни с проценти

Друг начин за обобщаване на категоричните данни е да се покаже процентът на хората, които попадат във всяка категория, като по този начин се създава относителна честота. Относителната честота на дадена категория е честотата (брой индивиди в тази категория), разделена на общия размер на извадката, умножена по 100, за да се получи процентът. Например, ако анкетирате 50 души и 10 са за определен проблем, относителната честота на категорията „в полза“ е 10/50 = 0,20 × 100, което ви дава 20 процента. Ако изброите всички възможни категории заедно с техните относителни честоти, създавате таблица с относителна честота. Общата стойност на всички относителни честоти трябва да е равна на 100 процента (при възможна грешка при закръгляване).

Вижте следното за пример за обобщаване на данните, като използвате таблица с относителна честота.

Използвайки данните от мобилния телефон от следната таблица, направете таблица с относителна честота и интерпретирайте резултатите.

Следващата таблица показва таблица с относителна честота за данните на мобилния телефон. Седемдесет процента от включените в извадката хора съобщават, че притежават мобилни телефони, а 30 процента признават, че са технологично изостанали от времето.

Получавате 70 процента, като вземете 7/10 × 100, а 30 процента изчислявате, като вземете 3/10 × 100.

Гледайте за общите размери на пробите, когато имате таблица с относителна честота. Не се подвеждайте само по проценти, мислейки, че те винаги се основават на големи размери на извадката, защото много от тях не са.

Тълкуване на броя и проценти с повишено внимание

Не всички обобщения на категоричните данни са справедливи и точни. Знанието какво да търсите може да ви помогне да държите очите си отворени за подвеждаща и непълна информация.

Инструкторите често ви молят да „интерпретирате резултатите“. В този случай вашият инструктор иска да използвате наличната статистика, за да говорите за това как те се отнасят към дадената ситуация. С други думи, какво означават резултатите за човека, който събира данните?

Вижте следното за пример за критикуване на обобщение на данните.

Гледате реклама, в която производителят на ново лекарство за настинка ("Nocold") го сравнява с водещата марка. Резултатите са показани в следната таблица.

Таблицата за „Nocold“ прави „Nogood“.

Тази таблица е непълна таблица с относителна честота. Останалата категория е „не толкова добра“ за марката Nocold и рекламодателят не я показва. Но можете да направите математиката и да видите, че 100% - (47% + 18%) = 35% от хората казват, че водещата марка е по-добра.

Ако сложите двете групи заедно, 65% от пациентите казват, че Nocold е поне толкова добър, колкото водещата марка, а почти половината от пациентите казват, че Nocold е много по-добър.

Какво липсва? Оставащият процент (за да се запазят всички възможни резултати в перспектива). Но по-важното е, че общият размер на извадката липсва. Не знаете дали анкетираните са взели проби от 10 души, 100 души или 1000 души. Това означава, че точността на резултатите е неизвестна. (Прецизността означава колко последователни ще бъдат резултатите от проба до проба; тя е свързана с размера на извадката.)

С таблици с относителна честота, не забравяйте да проверите дали всички категории възлизат на 1 или 100 процента (подлежи на грешка при закръгляване) и не забравяйте да потърсите някакъв индикатор за общия размер на извадката.

Ако се интересувате от това как да представите категорични данни в графика, вижте „Как да обобщим и обобщим категоричните данни на графиката“.