1. Образователна математикаСтатика и статистика
Статистическа работна книга за манекени с онлайн практика, 2-ро издание

От Дебора Дж. Румзи

Хистограма е лентова графика, направена за количествени данни. Тъй като данните са числени, ги разделяте на групи, без да оставяте пропуски между тях (така че лентите са свързани). Y-оста показва честотите (броя) или относителните честоти (проценти) на данните, които попадат във всяка група.

Как да създадете хистограма

За да направите хистограма, първо разделяте данните си на разумен брой групи с еднаква дължина. Намалете броя на стойностите в набора от данни, които попадат във всяка група (с други думи, направете таблица на честотата). Ако точка от данни попадне на границата, вземете решение в коя група да я поставите, като се уверите, че сте постоянни (винаги я поставяйте в по-високата от двете или винаги я поставяйте в долната от двете). Направете лентова диаграма, като използвате групите и техните честоти - честотна хистограма.

Ако разделите честотите на общия размер на извадката, получавате процента, който попада във всяка група. Таблица, която показва групите и техните проценти, е таблица с относителна честота. Съответната хистограма е хистограма с относителна честота.

Можете да използвате Minitab или друг софтуерен пакет, за да направите хистограми, или можете да направите своите хистограми на ръка. Така или иначе, вашият избор на интервали от ширини (наречени кошчета от компютърни пакети) може да се различава от тези, които се виждат на фигурите, което е добре, стига вашите да изглеждат подобни. И те ще стигнат, стига да не използвате необичайно малък или висок брой барове и баровете ви да са с еднаква ширина.

Можете също да изберете различни начални / крайни точки за всеки интервал и това също е добре. Просто не забравяйте да маркирате всичко ясно, за да може вашият инструктор да види какво се опитвате да направите. И бъдете последователни относно стойностите, които се озовават точно на граница; винаги ги поставяйте в долната група или винаги ги поставяйте в горната група. Ако имате избор обаче, направете своите хистограми, като използвате компютърен пакет като Minitab. Това прави вашата задача много по-лесна.

Вижте следния пример за направата на двата типа хистограми.

Резултатите от теста за клас от 30 ученици са показани в следната таблица.

Честотните хистограми и хистограмите с относителна честота изглеждат еднакво; те просто са направени с помощта на различни везни по оста Y.

Честотната хистограма за данните за резултатите е показана на следната фигура.

честотна хистограма

Можете да намерите относителните честоти, като вземете всяка честота и разделите на 30 (общия размер на извадката). Относителните честоти за тези три групи са 8/30 = 0,27 или 27%; 16/30 = 0,53 или 53%; и 6/30 = 0,20 или 20%, съответно.

Хистограма, базирана на относителни честоти, изглежда същата като хистограмата (на същите данни). Единствената разлика е етикета на оста Y.

Осъзнаване на хистограмите

Хистограмата ви дава обща информация за три основни характеристики на вашите количествени (числови) данни: формата, центъра и разпространението.

Формата на хистограма е показана чрез нейния общ модел. Възможни са много модели и някои от тях са общи, включително следните:

  • Форма на камбана: Изглежда като звънец - голяма бучка в средата и опашки, които се спускат от всяка страна с приблизително една и съща скорост. (Фигура a) Изкривен вдясно: Голяма част от данните се отклонява вляво, а няколко по-големи наблюдения се отклоняват вдясно. (Фигура б) Отляво изкривен: Голяма част от данните се отклонява вдясно, а няколко по-малки наблюдения се отклоняват вляво. (Фигура в) Униформа: Всички пръти имат подобна височина. (Фигура г) Бимодален: Два върха, или (Фигура д) U-образна форма: Бимодална с двата върха в долния и високия край, с по-малко данни в средата. (Вижте фигура 4-1 (фигура е) Симетричен: изглежда същото от всяка страна, когато го разделяте по средата; zvono-образни, еднообразни и U-образни хистограми са всички примери за симетрични данни. (Цифри a, d и f)
общи модели на хистограма

Можете да видите центъра на хистограма по два начина. Едната е точката на оста x, където графиката балансира, като взема предвид действителните стойности на данните. Тази точка се нарича средна и можете да я намерите, като локализирате балансиращата точка (представете си, че данните са на тетер-тотер). Другият начин да видите центъра е локализиране на линията в хистограмата, където 50 процента от данните лежат от двете страни. Линията се нарича средна и представлява физическата среда на набора от данни. Представете си, че разрязвате хистограмата наполовина, така че половината от областта да лежи от двете страни на линията.

Разпространението се отнася до разстоянието между данните, или относително едно към друго, или спрямо някаква централна точка. Един суров начин за измерване на разпространението е намирането на обхвата или разстоянието между най-голямата и най-малката стойност. Друг начин е да се търси средното разстояние от средата, иначе известно като стандартното отклонение. Стандартното отклонение е трудно да се измисли само като погледнете хистограма, но можете да получите груба представа, ако вземете диапазона, разделен на 6. Ако височините на прътите близо до средата изглеждат много високи, това означава повечето стойностите са близки до средните, което показва малко стандартно отклонение. Ако лентите изглеждат къси, може да имате по-голямо стандартно отклонение.

Можете да направите реална обобщена статистика, за да изчислите количествените данни, но хистограма може да ви даде обща насока за намирането на тези основни етапи. И като пай диаграмите и графиките, не всички хистограми са справедливи, пълни и точни. Трябва да знаете какво да търсите, за да ги оцените.

Как да изправите изкривените данни с хистограми

Трябва да направите специални съображения за изкривените набори от данни, по отношение на това коя статистика е най-подходяща за използване и кога. Трябва също да сте наясно как използването на грешна статистика може да даде подвеждащи отговори.

Можете да свържете средната и средната стойност, за да научите за формата на вашите данни. Наличието на средна и средна стойност, равно на равно, ще създаде форма, която е приблизително симетрична

Средната стойност се влияе от остатъците в данните, но средната не е. Ако средната и средната стойност са близки една до друга, данните не се изкривяват и вероятно не съдържат отстъпки от едната или другата страна. Това означава, че данните изглеждат еднакво от всяка страна на средата, което е дефиницията на симетрични данни (виж a, d или f на предходната фигура).

Фактът, че средната и средната стойност, която е близка, ви казва, че данните са приблизително симетрични, може да се използва при различен тип тестов въпрос. Да предположим, че някой ви пита дали данните са симетрични и нямате хистограма, но имате средна и средна стойност. Сравнете двете стойности на средната и средната стойност и ако са близки, данните са симетрични. Ако не са, данните не са симетрични.

Как да забележим подвеждаща хистограма

Читателите могат да бъдат подведени с хистограма по начини, които не са възможни с графична диаграма. Не забравяйте, че хистограмата се занимава с цифрови данни, а не с категорични данни, което означава, че трябва да определите как искате числовите данни, разделени на групи, да се показват на хоризонталната ос. И как определяте тези групировки, може да накара графиката да изглежда много различно. Внимавайте за хистограмите, които използват мащаб, за да подведат читателите. Както при лентовите графики, можете да преувеличите разликите, като използвате по-малък мащаб по вертикалната ос на хистограма и можете да омаловажите разликите, като използвате по-голям мащаб.