จะสรุปข้อมูลหมวดหมู่ได้อย่างไร


13

ฉันได้รับการดิ้นรนกับปัญหาต่อไปนี้ด้วยความหวังเป็นเรื่องง่ายสำหรับนักสถิติ (ฉันเป็นโปรแกรมเมอร์ที่มีการสัมผัสกับสถิติบางอย่าง)

ฉันต้องสรุปคำตอบของแบบสำรวจ (สำหรับการจัดการ) แบบสำรวจมีคำถามมากกว่า 100 ข้อจัดกลุ่มในพื้นที่ต่าง ๆ (มีประมาณ 5 ถึง 10 คำถามต่อพื้นที่) คำตอบทั้งหมดเป็นหมวดหมู่ (ในระดับปกติพวกเขาเป็นเหมือน "ไม่เลย", "ไม่ค่อย" ... "รายวันหรือบ่อยกว่า")

ฝ่ายบริหารต้องการที่จะได้รับการสรุปสำหรับแต่ละพื้นที่และนี่คือปัญหาของฉัน: วิธีการรวมคำตอบที่เป็นหมวดหมู่ภายในคำถามที่เกี่ยวข้อง? . คำถามมีมากเกินกว่าที่จะสร้างกราฟหรือแม้แต่พล็อตขัดแตะสำหรับแต่ละพื้นที่ ฉันชอบวิธีการใช้ภาพหากเป็นไปได้เปรียบเทียบกับพูดด้วยตารางที่มีตัวเลข (อนิจจาพวกเขาจะไม่อ่าน)

สิ่งเดียวที่ฉันสามารถทำได้คือการนับจำนวนคำตอบในแต่ละพื้นที่จากนั้นพล็อตกราฟ

มีอะไรอีกบ้างที่ใช้ได้สำหรับข้อมูลที่เป็นหมวดหมู่?

ฉันใช้ R แต่ไม่แน่ใจว่าเกี่ยวข้องหรือไม่ฉันรู้สึกว่านี่เป็นคำถามทั่วไปเกี่ยวกับสถิติมากกว่า


PCA / FA เป็นอย่างไร คุณจะลดขนาดตัวแปรที่มีความสัมพันธ์กันเป็นปัจจัยและทำงานจากที่นั่น ...
Roman Luštrik

นี่อาจจะมากเกินไปถ้าผู้บริหารถามว่า 'คุณมีจำนวนรวมอย่างไร' พวกเขาจะต้องการเทคนิคที่ง่ายกว่าเพื่อให้พวกเขาสามารถเข้าใจได้ อนิจจาโลกแห่งความจริง :-( ขอบคุณ
Wishihadabettername

คำตอบ:


10

คุณต้องเข้าใจว่าอะไรคือคำถามที่คุณพยายามตอบ - หรือคำถามใดที่ฝ่ายบริหารสนใจมากที่สุดจากนั้นคุณสามารถเลือกคำถามแบบสำรวจที่เกี่ยวข้องกับปัญหาของคุณมากที่สุด

โดยไม่ทราบอะไรเกี่ยวกับปัญหาหรือชุดข้อมูลของคุณนี่เป็นวิธีแก้ปัญหาทั่วไป:

  • มองเห็นคำตอบในรูปของกลุ่ม รายการโปรดของฉันคือโดยใช้ dendrograms หรือเพียงแค่วางแผนบนแกน xy (Google "การวิเคราะห์กลุ่ม r" และไปที่ผลลัพธ์แรกโดย statmethods.net)
  • จัดอันดับคำถามจากการตอบกลับที่ "มากที่สุดถึงน้อยที่สุด" เป็นประจำทุกวัน นี่คือตัวอย่างที่อาจไม่เหมาะกับคุณ แต่อาจเป็นแรงบันดาลใจให้คุณhttp://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • Crosstabs: ถ้าเป็นตัวอย่างคุณมีคำถามว่า "คุณมาทำงานสายบ่อยแค่ไหน?" และ "คุณใช้ Facebook บ่อยแค่ไหน?" โดยการ crosstabbing คำถามสองข้อที่คุณสามารถค้นหาเปอร์เซ็นต์ของคนที่ไม่ค่อยทำทั้งสองอย่างหรือผู้ที่ทำทั้งสองอย่างทุกวัน (Google crosstabs ความถี่ r) หรือไปที่ statmethods.net ดังกล่าวข้างต้น )
  • Correlograms ฉันไม่มีประสบการณ์ใด ๆ กับสิ่งเหล่านี้ แต่ฉันเห็นมันในเว็บไซต์ statmethods.net โดยทั่วไปคุณจะพบว่าคำถามใดมีความสัมพันธ์มากที่สุดแล้วสร้างตาราง คุณอาจพบว่ามีประโยชน์นี้แม้ว่าจะดูเหมือนว่า "ไม่ว่าง"

ฉันจะทำเครื่องหมายสิ่งนี้เป็นคำตอบ มีข้อเสนอแนะที่ดีหลายประการในนั้นดังนั้นฉันจะคิดวิธีการใช้
wishihadabettername

9

มีบทความเกี่ยวกับเทคนิคการสร้างภาพข้อมูลที่คุณอาจใช้โดย Michael Friendly:

(อันที่จริงมีหนังสือทั้งเล่มที่เขียนโดยผู้เขียนคนเดียวกัน) แพ็คเกจvcdใน R ใช้เทคนิคเหล่านี้มากมาย


โหวตขึ้นสำหรับการอ้างอิงถึงกระดาษและหนังสือฉันจะอ่านพวกเขา
Wishihadabettername

8

ตัวเลือกมาตรฐานรวมถึง:

  • รับค่าเฉลี่ยสำหรับรายการในสเกล (เช่นหากสเกลคือ 1 ถึง 5 ค่าเฉลี่ยจะเป็น 1 ถึง 5)
  • การแปลงแต่ละรายการให้เป็นการวัดแบบไบนารี่ (เช่นถ้ารายการ> = 3, จากนั้น 1, อื่น 0) จากนั้นรับค่าเฉลี่ยของการตอบกลับแบบไบนารี่นี้

เนื่องจากคุณกำลังรวบรวมรายการและกลุ่มตัวอย่างขนาดใหญ่ของบุคคลทั้งสองตัวเลือกด้านบน (เช่นค่าเฉลี่ยของ 1 ถึง 5 หรือค่าเฉลี่ยของเปอร์เซ็นต์เหนือจุด) จะเชื่อถือได้ในระดับองค์กร ( ดูที่นี่สำหรับ การอภิปรายเพิ่มเติม ) ดังนั้นตัวเลือกใดตัวเลือกหนึ่งดังกล่าวจึงสื่อสารข้อมูลเดียวกันโดยทั่วไป

โดยทั่วไปฉันจะไม่กังวลเกี่ยวกับความจริงที่ว่ารายการนั้นมีการจัดหมวดหมู่ เมื่อถึงเวลาที่คุณสร้างเครื่องชั่งโดยรวมสิ่งของและจากนั้นรวมตัวอย่างผู้ตอบแบบสอบถามของคุณเครื่องชั่งจะใกล้เคียงกับเครื่องชั่งอย่างต่อเนื่อง

ฝ่ายจัดการอาจพบว่าการตีความหนึ่งตัวชี้วัดง่ายขึ้น เมื่อฉันได้รับคะแนนการสอนที่มีคุณภาพ (เช่นคะแนนความพึงพอใจโดยเฉลี่ยของนักเรียนที่พูด 100 คน) มันเป็นระดับเฉลี่ย 1 ถึง 5 และนั่นก็ดี หลายปีหลังจากที่เห็นคะแนนของตัวเองทุกปีและเห็นบรรทัดฐานบางอย่างสำหรับมหาวิทยาลัยฉันได้พัฒนากรอบการอ้างอิงของความหมายที่แตกต่างกัน อย่างไรก็ตามผู้บริหารบางครั้งชอบที่จะคิดเกี่ยวกับเปอร์เซ็นต์การรับรองข้อความสั่งหรือเปอร์เซ็นต์ของการตอบรับเชิงบวกแม้ว่ามันจะอยู่ในความหมายของค่าเฉลี่ยเปอร์เซ็นต์ก็ตาม

ความท้าทายหลักคือการให้กรอบอ้างอิงที่เป็นรูปธรรมสำหรับคะแนน การบริหารจัดการจะต้องการทราบว่าตัวเลขที่จริงหมายถึง ตัวอย่างเช่นถ้าค่าเฉลี่ยของการตอบสนองต่อสเกลเท่ากับ 4.2 นั่นหมายความว่าอย่างไร ดีไหม มันไม่ดีเหรอ? มันโอเคไหม?

หากคุณใช้แบบสำรวจเป็นเวลาหลายปีหรือในองค์กรต่าง ๆ คุณสามารถเริ่มพัฒนาบรรทัดฐานบางอย่างได้ การเข้าถึงมาตรฐานเป็นหนึ่งในเหตุผลที่องค์กรมักจะได้รับผู้ให้บริการสำรวจภายนอกหรือใช้การสำรวจมาตรฐาน

คุณอาจต้องการเรียกใช้การวิเคราะห์ปัจจัยเพื่อตรวจสอบว่าการกำหนดรายการให้เป็นสเกลสามารถพิสูจน์ได้อย่างสมเหตุสมผล

ในแง่ของวิธีการที่มองเห็นคุณสามารถมีเส้นหรือกราฟแท่งแบบง่ายๆที่มีประเภทสเกลบนแกน x และคะแนนบนแกน y หากคุณมีข้อมูลเชิงบรรทัดฐานคุณสามารถเพิ่มได้


1

ใช่. ฉันพบว่าการจัดกลุ่มเป็นวิธีที่มีประสิทธิภาพมากในการลดข้อมูลเพื่อลดข้อมูลการสำรวจทั้งเพื่อความเข้าใจและการนำเสนอการจัดการ

วิเคราะห์แฝงชั้น (รักษาเครื่องชั่งน้ำหนักการตอบสนองเป็นลำดับ) หรือ K-หมายถึง (รักษาพวกเขาเป็นอย่างต่อเนื่อง) สามารถทั้งมองว่าเป็นรูปแบบของการบีบอัดข้อมูล การจำแนกผู้ตอบแบบสำรวจออกเป็นกลุ่มที่เป็นไปได้มากที่สุดโดยทั่วไปแล้วจะทำให้เกิดตัวแปรหมวดหมู่ซึ่งมีคำอธิบายที่เข้าใจง่ายเมื่อจัดทำโปรไฟล์ในแง่ของการตอบกลับ

จากนั้นคุณสามารถตั้งชื่อกลุ่มและใช้ตัวแปรเหล่านั้นสำหรับการวิเคราะห์ระดับสรุปและการนำเสนอ

ติดตั้งคลัสเตอร์สำหรับกลุ่มรายการที่เกี่ยวข้อง (เช่นด้านล่าง) หรืออาจรวมเข้าด้วยกัน

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

ฉันมักจะใช้ LatentGold แต่พบว่า FASTCLUS ใน SAS เป็นวิธีที่ดี

ก่อนที่จะทำเช่นนั้นคุณจะต้องพิจารณาปรับการตอบสนองของแต่ละคนเพื่อใช้ในการปรับขนาด (แย้ง แต่เน้นในทางปฏิบัติ) บางคนพึ่งพิงปลายด้านหนึ่งของเครื่องชั่งโดยหลีกเลี่ยงการลบหรือบวก การจัดกลุ่มคำตอบดิบมักจะแบ่งคนตามพฤติกรรมนั้น

การทำให้คำตอบของผู้ตอบแบบสอบถามแต่ละกลุ่มให้ตรงกับค่าเฉลี่ยของตนเองและการจัดกลุ่มที่มักเปิดเผยตัวแปรที่เคลื่อนไหวร่วมกันในรูปแบบที่น่าสนใจมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.