สถิติสรุปใดที่จะใช้กับตัวแปรเด็ดขาดหรือเชิงคุณภาพ


18

เพียงเพื่อชี้แจงเมื่อฉันหมายถึงสถิติสรุปฉันหมายถึงช่วงค่าเฉลี่ย, ควอไทล์มัธยฐาน, ความแปรปรวน, ส่วนเบี่ยงเบนมาตรฐาน

เมื่อทำการสรุป univariate ซึ่งเป็นหมวดหมู่หรือเชิงคุณภาพเมื่อพิจารณาทั้งกรณีที่มีชื่อและลำดับก็ทำให้รู้สึกถึงการหาค่าเฉลี่ยมัธยฐานช่วงควอไทล์ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานหรือไม่

ถ้าเป็นเช่นนั้นจะแตกต่างจากถ้าคุณสรุปตัวแปรต่อเนื่องและอย่างไร


2
ฉันแทบจะไม่เห็นความแตกต่างระหว่างตัวแปรเด็ดขาดและเชิงคุณภาพยกเว้นหนึ่งในคำศัพท์ อย่างไรก็ตามมันยากที่จะคำนวณอะไรเช่นค่าเฉลี่ยหรือ SD ในตัวแปรระบุ (เช่นสีผม) บางทีคุณอาจคิดถึงตัวแปรเด็ดขาดที่มีระดับการสั่งซื้อหรือไม่
chl

ไม่ถ้าข้อมูลหมวดหมู่มีลำดับหรือระดับอันดับพวกเขาถูกกล่าวว่าเป็นลำดับตามเว็บไซต์นี้: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat]และมันบอกว่า "คุณสามารถนับได้ และคำสั่งซื้อ แต่ไม่ใช่การวัดข้อมูลอันดับ "
chutsu

แต่ฉันผิด
chutsu

คำตอบ:


8

โดยทั่วไปแล้วคำตอบคือไม่ อย่างไรก็ตามหนึ่งอาจโต้แย้งว่าคุณสามารถใช้ค่ามัธยฐานของข้อมูลลำดับ แต่แน่นอนคุณจะมีหมวดหมู่เป็นค่ามัธยฐานไม่ใช่จำนวน ค่ามัธยฐานแบ่งข้อมูลเท่า ๆ กัน: ครึ่งบน, ครึ่งล่าง ข้อมูลลำดับขึ้นอยู่กับการสั่งซื้อเท่านั้น

นอกจากนี้ในบางกรณีอาจมีการกำหนดให้เป็นข้อมูลระดับช่วงเวลาคร่าวๆ สิ่งนี้เป็นจริงเมื่อมีการจัดกลุ่มข้อมูลลำดับ (เช่นคำถามเกี่ยวกับรายได้มักถูกถามด้วยวิธีนี้) ในกรณีนี้คุณสามารถหาค่ามัธยฐานที่แม่นยำและคุณสามารถประมาณค่าอื่น ๆ โดยเฉพาะอย่างยิ่งหากระบุขอบเขตล่างและบน: คุณสามารถสมมติการแจกแจงบางอย่าง (เช่นชุด) ภายในแต่ละหมวดหมู่ อีกกรณีหนึ่งของข้อมูลลำดับที่สามารถทำช่วงเวลาคือเมื่อระดับจะได้รับเทียบเท่าตัวเลข ตัวอย่างเช่น: ไม่เคย (0%) บางครั้ง (10-30%) ประมาณครึ่งเวลา (50%) และอื่น ๆ

ถึง (อีกครั้ง) อ้าง David Cox:

ไม่มีคำถามเชิงสถิติประจำรูทีนเชิงสถิติที่น่าสงสัยเท่านั้น


1
คุณให้ข้อมูลที่เกี่ยวข้องที่ดี แต่ฉันคิดว่าในการตอบคำถาม chl ผู้ปฏิบัติการทำให้ชัดเจนว่าเขากำลังพูดถึงข้อมูลที่เป็นหมวดหมู่ที่ไม่ใช่ลำดับ ดังนั้นคำตอบของคุณไม่ใช่คำตอบจริงๆ แต่ฉันไม่ใช่คนที่จะให้คะแนนโหวต แต่ฉันคิดว่าคุณควรเปลี่ยนเป็นความคิดเห็น
Michael R. Chernick

1
ไม่ฉันจะไม่ลงคะแนนคำตอบเพราะฉันคิดว่ามันเพิ่มคุณค่าให้กับความเข้าใจที่ จำกัด ของฉัน ฉันควรทำให้ชัดเจนในคำอธิบายของฉันที่ฉันกำลังพิจารณาสถิติทั้ง Ordinal และ Nominal Summary ดังนั้นข้อผิดพลาดเป็นของฉัน
chutsu

5

ตามที่ได้รับการกล่าวถึงหมายถึง SDs และจุดบานพับไม่ได้มีความหมายสำหรับข้อมูลเด็ดขาด จุดบานพับ (เช่นค่ามัธยฐานและควอไทล์) อาจมีความหมายสำหรับข้อมูลลำดับ ชื่อของคุณยังถามว่าควรใช้สถิติสรุปใดในการอธิบายข้อมูลที่เป็นหมวดหมู่ เป็นมาตรฐานในการจำแนกลักษณะข้อมูลที่เป็นหมวดหมู่ตามจำนวนและเปอร์เซ็นต์ (คุณอาจต้องการรวมช่วงความมั่นใจ 95% รอบ ๆ เปอร์เซ็นต์ด้วย) ตัวอย่างเช่นหากข้อมูลของคุณ:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

คุณสามารถสรุปได้ดังนี้:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

หากคุณมีตัวแปรที่ระบุไม่มีฟังก์ชั่นการสั่งซื้อหรือระยะทาง ดังนั้นคุณจะกำหนดสถิติสรุปที่คุณกล่าวถึงอย่างไร ฉันไม่คิดว่าคุณจะทำได้ ควอไทล์และช่วงอย่างน้อยต้องมีการสั่งซื้อและวิธีการและความแปรปรวนต้องการข้อมูลตัวเลข ฉันคิดว่ากราฟแท่งและแผนภูมิวงกลมเป็นตัวอย่างทั่วไปของวิธีการที่เหมาะสมในการสรุปตัวแปรเชิงคุณภาพที่ไม่ใช่ลำดับ


3
@ PeterFlom จุดของฉันไม่ได้อยู่ในรายการขั้นตอนกราฟิก possiblr ทั้งหมดสำหรับการสรุปข้อมูลเชิงคุณภาพ ฉันต้องการเน้นย้ำว่ามันเป็นสัดส่วนที่สามารถเปรียบเทียบได้และวิธีการกระจายสัดส่วนข้ามหมวดหมู่ สำหรับการมองเห็นความแตกต่างในสัดส่วนฉันคิดว่าแผนภูมิแท่งง่ายต่อการมองเห็นมากกว่าแผนภูมิวงกลม แต่เป็นเพียงวิธียอดนิยมสองวิธีในการสรุปข้อมูลหมวดหมู่ ฉันไม่ต้องการพูดว่าพวกเขาดีที่สุดเพราะฉันไม่คุ้นเคยกับวิธีการที่มีทั้งหมด
Michael R. Chernick

7
พวกเขาเป็นที่นิยมอย่างแน่นอน! แต่ฉันคิดว่ามันเป็นส่วนหนึ่งของความรับผิดชอบของเราในฐานะผู้เชี่ยวชาญในสาขานี้เพื่อให้แผนภูมิวงกลมได้รับความนิยมน้อยลง
Peter Flom - Reinstate Monica

3
ครั้งแรกที่คลีฟแลนด์แสดงให้เห็นว่าคนเรารู้สึกแย่ในการรับรู้การวัดเชิงมุมมากกว่าระยะทางเชิงเส้น ประการที่สองการเปลี่ยนสีในแผนภูมิวงกลมเปลี่ยนการรับรู้ของผู้คนเกี่ยวกับขนาดของชิ้นส่วน ประการที่สามการหมุนแผนภูมิวงกลมเปลี่ยนการรับรู้ของผู้คนเกี่ยวกับขนาดของชิ้นส่วน ที่สี่ที่ผู้คนมีปัญหาในการสั่งซื้อชิ้นจากมากที่สุดไปหาเล็กที่สุดเว้นแต่พวกเขาจะมีขนาดแตกต่างกันมาก จุดแปลงคลีฟแลนด์หลีกเลี่ยงสิ่งเหล่านี้ทั้งหมด
Peter Flom - Reinstate Monica

6
@Michael "ตารางเกือบจะดีกว่าแผนภูมิวงกลมใบ้อยู่เสมอการออกแบบที่แย่ยิ่งกว่าแผนภูมิวงกลมคือหลาย ๆ แผนภูมิ ... ไม่ควรใช้แผนภูมิวงกลม" - Tufte "ข้อมูลที่สามารถแสดงได้โดยแผนภูมิวงกลมสามารถแสดงเป็นแผนภูมิจุดได้เสมอ ... ในปี 1920 การต่อสู้ที่เกิดขึ้นบนหน้าของJASAเกี่ยวกับข้อดีของแผนภูมิวงกลมและแผนภูมิแท่งแบ่ง ... ทั้งสองค่ายแพ้เพราะ กราฟอื่น ๆ ทำงานได้ดีกว่าแผนภูมิแท่งแบบแบ่งหรือแผนภูมิวงกลม "- คลีฟแลนด์ อย่างที่คุณรู้คลีฟแลนด์ไม่ได้กำหนดไว้ล่วงหน้านี่เป็นเรื่องที่แข็งแกร่งพอ ๆ กับที่เขาได้รับทุกอย่าง
whuber

6
BTW, @Michael, ฉันเห็นด้วยกับคุณและข้อโต้แย้งที่คุณทำในหัวข้อนี้ (ซึ่งฉันพบว่าน่าเชื่อถือและนำเสนอได้ดี) แต่ในฐานะผู้ดำเนินรายการฉันต้องถ่ายทอดคำคัดค้านที่แข็งแกร่งโดยสมาชิกชุมชนเกี่ยวกับ "น้ำเสียง" คุณกำลังรับเอา โปรดปฏิบัติตามมารยาทของเว็บไซต์: ยึดเรื่องและอย่าโจมตีคนอื่น อย่าแม้แต่เขียนสิ่งที่อาจฟังดูเหมือนเป็นการโจมตีแม้เป็นการล้อเล่นก็ตาม แน่นอนว่าการตักเตือนเดียวกันนั้นครอบคลุมทุกคน
whuber

2

โหมดยังใช้งานได้! นั่นไม่ใช่สถิติสรุปที่สำคัญใช่หรือไม่ (หมวดหมู่ที่พบมากที่สุดคืออะไร) ฉันคิดว่าค่ามัธยฐานของข้อเสนอแนะมีค่าเพียงเล็กน้อยถึงไม่มีเลยตามสถิติ แต่โหมดใช้งานได้

นอกจากนี้การนับที่ชัดเจนจะมีค่า (คุณมีกี่หมวดหมู่)

คุณอาจสร้างอัตราส่วนเช่น (หมวดหมู่ที่พบบ่อยที่สุด) / (หมวดหมู่ที่น้อยที่สุด) หรือ (หมวดที่พบบ่อยที่สุดอันดับที่ 1) / (หมวดที่พบมากที่สุดอันดับที่ 2) นอกจากนี้ (หมวดหมู่ที่พบบ่อยที่สุด) / (หมวดหมู่อื่น ๆ ทั้งหมด) เช่นกฎ 80/20

นอกจากนี้คุณยังสามารถกำหนดหมายเลขให้กับหมวดหมู่ของคุณและไปยังสถิติปกติทั้งหมด AA = 1, Hisp = 2, ฯลฯ ตอนนี้คุณสามารถคำนวณค่าเฉลี่ยมัธยฐานโหมด SD และอื่น ๆ


0

ฉันขอขอบคุณคำตอบอื่น ๆ แต่สำหรับฉันแล้วพื้นหลังทอปอโลยีบางอย่างจะให้โครงสร้างที่จำเป็นต่อการตอบสนองมากขึ้น

คำนิยาม

เริ่มต้นด้วยการสร้างคำจำกัดความของโดเมน:

  • ตัวแปรเด็ดขาดคือโดเมนที่มีองค์ประกอบ แต่ไม่มีความสัมพันธ์ที่รู้จักระหว่างกัน (ดังนั้นเราจึงมีหมวดหมู่เท่านั้น) ตัวอย่างขึ้นอยู่กับบริบท แต่ฉันพูดในกรณีทั่วไปมันเป็นการยากที่จะเปรียบเทียบวันในสัปดาห์: เป็นวันจันทร์ก่อนวันอาทิตย์ถ้าเป็นเช่นนั้นแล้ววันจันทร์หน้าจะเป็นอย่างไร อาจจะง่ายกว่า แต่ตัวอย่างที่ใช้น้อยกว่าคือเสื้อผ้าบางชิ้น: หากไม่มีบริบทที่ทำให้รู้สึกเป็นระเบียบก็ยากที่จะบอกว่ากางเกงมาก่อนจัมเปอร์หรือในทางกลับกัน

  • ตัวแปรอันดับเป็นหนึ่งที่มีคำสั่งรวมที่กำหนดไว้ในโดเมนคือสำหรับทุกสององค์ประกอบของโดเมนเราสามารถบอกได้ว่าพวกเขาจะเหมือนกันหรืออย่างใดอย่างหนึ่งที่มีขนาดใหญ่กว่าอีก Likert ขนาดเป็นตัวอย่างที่ดีของความหมายของตัวแปรลำดับ "ค่อนข้างเห็นด้วย" นั้นใกล้เคียงกับ "เห็นด้วยอย่างยิ่ง" มากกว่า "ไม่เห็นด้วย"

  • ตัวแปรช่วงเวลาเป็นหนึ่งซึ่งมีโดเมนกำหนดระยะทางระหว่างองค์ประกอบ ( ตัวชี้วัด ) จึงช่วยให้เราสามารถกำหนดช่วงเวลา

ตัวอย่างโดเมน

ในฐานะที่เป็นชุดที่พบมากที่สุดที่เราใช้จำนวนที่เป็นธรรมชาติและจริงจะมีคำสั่งซื้อและตัวชี้วัดรวมทั้งหมด นี่คือเหตุผลที่เราต้องระมัดระวังเมื่อเรากำหนดหมายเลขให้กับหมวดหมู่ของเรา หากเราไม่ระมัดระวังในการไม่คำนึงถึงลำดับและระยะทางเราจะแปลงข้อมูลหมวดหมู่ของเราเป็นข้อมูลช่วงเวลา เมื่อเราใช้อัลกอริธึมการเรียนรู้ของเครื่องโดยไม่ทราบว่ามันทำงานอย่างไรความเสี่ยงหนึ่งที่ทำให้สมมติฐานดังกล่าวไม่เต็มใจจึงอาจทำให้ผลลัพธ์ของตัวเองเป็นโมฆะ ตัวอย่างเช่นอัลกอริทึมการเรียนรู้เชิงลึกที่ได้รับความนิยมส่วนใหญ่ทำงานกับตัวเลขจริงโดยใช้ประโยชน์จากช่วงเวลาและคุณสมบัติต่อเนื่องของพวกเขา อีกตัวอย่างหนึ่งก็คิดว่า 5 จุดชั่งน้ำหนัก Likert และวิธีการวิเคราะห์ที่เรานำไปใช้กับพวกเขาสันนิษฐานว่าระยะห่างระหว่างเห็นด้วยอย่างยิ่งและเห็นด้วยเป็นเช่นเดียวกับไม่เห็นด้วยและไม่เห็นด้วยไม่เห็นด้วยหรือ ยากที่จะสร้างเคสสำหรับความสัมพันธ์ดังกล่าว

ชุดที่เรามักจะทำงานร่วมกับอีกประการหนึ่งคือสตริง มีเมทริกความคล้ายคลึงกันจำนวนสตริงที่มีประโยชน์เมื่อทำงานกับสตริง อย่างไรก็ตามสิ่งเหล่านี้ไม่ได้มีประโยชน์เสมอไป ตัวอย่างเช่นสำหรับที่อยู่ถนนจอห์นสมิ ธ และถนนจอห์นสมิ ธ ค่อนข้างใกล้เคียงกันในแง่ของความคล้ายคลึงกันของสตริง แต่เห็นได้ชัดว่าเป็นตัวแทนของหน่วยงานที่แตกต่างกันสองแห่งที่อาจแยกห่างออกไปหลายไมล์

สถิติสรุป

ตกลงตอนนี้เรามาดูกันว่าสถิติสรุปมีความเหมาะสมกับเรื่องนี้อย่างไร เนื่องจากสถิติทำงานกับตัวเลขฟังก์ชันของฟังก์ชันจึงถูกกำหนดเป็นระยะ แต่เรามาดูตัวอย่างว่าเราสามารถสรุปให้เป็นหมวดหมู่หรือข้อมูลลำดับได้อย่างไร:

  • โหมด - ทั้งเมื่อทำงานกับข้อมูลหมวดหมู่และลำดับเราสามารถบอกองค์ประกอบที่ใช้บ่อยที่สุด ดังนั้นเรามีสิ่งนี้ จากนั้นเราจะได้รับมาตรการอื่น ๆ ทั้งหมดที่ @Maddenker แสดงรายการในคำตอบของพวกเขา ช่วงความมั่นใจของ @ gung อาจมีประโยชน์เช่นกัน
  • ค่ามัธยฐาน - @ peter-flom พูดว่าตราบใดที่คุณมีคำสั่งคุณสามารถได้รับค่ามัธยฐานของคุณ
  • หมายถึงแต่รวมถึงค่าเบี่ยงเบนมาตรฐานเปอร์เซ็นไทล์และอื่น ๆ - คุณจะได้รับเฉพาะข้อมูลช่วงเวลาเท่านั้นเนื่องจากความจำเป็นในการวัดระยะทาง

ตัวอย่างของบริบทข้อมูล

ในตอนท้ายฉันต้องการเน้นย้ำอีกครั้งว่าลำดับและตัวชี้วัดที่คุณกำหนดในข้อมูลของคุณนั้นเป็นไปตามบริบท ตอนนี้ควรเห็นได้ชัด แต่ให้ฉันยกตัวอย่างล่าสุดให้คุณเมื่อทำงานกับที่ตั้งทางภูมิศาสตร์เรามีวิธีที่แตกต่างมากมายในการเข้าถึงพวกเขา:

  • หากเราสนใจระยะห่างระหว่างพวกเขาเราสามารถทำงานกับตำแหน่งทางภูมิศาสตร์ของพวกเขาซึ่งโดยทั่วไปจะให้เรามีพื้นที่เชิงตัวเลขสองมิติดังนั้นช่วงเวลา
  • หากเราสนใจในส่วนของความสัมพันธ์เราสามารถกำหนดลำดับรวม (เช่นถนนเป็นส่วนหนึ่งของเมืองสองเมืองมีความเท่าเทียมทวีปมีประเทศ)
  • หากเราสนใจว่าสตริงสองสตริงแสดงที่อยู่เดียวกันหรือไม่เราสามารถทำงานกับระยะห่างของสตริงที่จะยอมรับความผิดพลาดในการสะกดคำและสลับตำแหน่งของคำ แต่ให้แน่ใจว่าได้จำแนกคำและชื่อที่แตกต่างกัน นี่ไม่ใช่สิ่งที่ง่าย แต่เพียงเพื่อให้กรณี
  • มีกรณีการใช้งานอื่น ๆ อีกมากที่เราทุกคนเผชิญทุกวันโดยที่ไม่มีสิ่งใดเหมาะสม ในบางส่วนของพวกเขาไม่มีอะไรจะทำนอกจากรักษาที่อยู่เป็นหมวดหมู่ที่แตกต่างกันในคนอื่นมันลงมาเพื่อสร้างแบบจำลองข้อมูลที่ชาญฉลาดมากและการประมวลผลล่วงหน้า
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.