ใช้การทดสอบนัยสำคัญทางสถิติเพื่อตรวจสอบความถูกต้องของผลการวิเคราะห์กลุ่ม


13

ฉันกำลังสำรวจการใช้การทดสอบนัยสำคัญทางสถิติ (SST) เพื่อตรวจสอบผลลัพธ์ของการวิเคราะห์คลัสเตอร์ ฉันพบเอกสารหลายฉบับเกี่ยวกับหัวข้อนี้เช่น

  • "ความสำคัญทางสถิติของการทำคลัสเตอร์สำหรับข้อมูลมิติข้อมูลตัวอย่างขนาดเล็ก " โดยLiu, Yufeng และคณะ (2008)
  • " ในการทดสอบความสำคัญในการวิเคราะห์กลุ่ม " โดยBock (1985)

แต่ฉันสนใจที่จะค้นหาวรรณกรรมบางฉบับที่โต้แย้งว่า SST ไม่เหมาะสมที่จะตรวจสอบผลลัพธ์ของการวิเคราะห์กลุ่ม แหล่งเดียวที่ฉันได้พบอ้างว่าเป็นหน้าเว็บของผู้จำหน่ายซอฟต์แวร์

เพื่อชี้แจง:

ฉันสนใจที่จะทดสอบว่าโครงสร้างคลัสเตอร์ที่สำคัญพบว่าเป็นผลมาจากการวิเคราะห์กลุ่มหรือไม่ดังนั้นฉันต้องการทราบเอกสารที่สนับสนุนหรือ refuting ข้อกังวล "เกี่ยวกับความเป็นไปได้ของการทดสอบหลังผลของข้อมูลเชิงสำรวจ การวิเคราะห์ที่ใช้ในการค้นหากลุ่ม "

ฉันเพิ่งพบกระดาษจากปี 2003 " วิธีการจัดกลุ่มและการจำแนกประเภท " โดยMilligan และ Hirtleกล่าวว่าการใช้ ANOVA นั้นเป็นการวิเคราะห์ที่ไม่ถูกต้องเนื่องจากข้อมูลไม่มีการสุ่มมอบหมายให้กับกลุ่ม


นี่เป็นคำถามที่ดี แต่มันก็คุ้มค่าที่จะชี้ให้เห็นว่ามันเป็นประโยคในแบบที่ทำให้ดูเหมือนว่ามีการแบ่งขั้ว: คุณสามารถทดสอบความสำคัญของการรวมกลุ่มหรือคุณไม่สามารถทำได้ แม้ว่าสถานการณ์จะแตกต่างกันเพราะ "การวิเคราะห์กลุ่ม" หมายถึงสิ่งต่าง ๆ ในเอกสารอ้างอิงที่มุ่งเน้นคือการทดสอบว่ามีหลักฐานสำหรับการจัดกลุ่ม ในคู่มือซอฟต์แวร์ข้อกังวลจะแสดงอย่างถูกต้องเกี่ยวกับความเป็นไปได้ของการทดสอบหลังผลการวิเคราะห์ข้อมูลเชิงสำรวจที่ใช้ในการค้นหากลุ่ม ไม่มีความขัดแย้งที่นี่
whuber

ขอบคุณสำหรับคำตอบ. คุณพูดถูกเกี่ยวกับวิธีที่ฉันตั้งคำถาม ฉันสนใจในการทดสอบว่าโครงสร้างคลัสเตอร์ที่สำคัญพบว่าเป็นผลมาจากการวิเคราะห์กลุ่มหรือไม่ดังนั้นฉันต้องการทราบเอกสารที่สนับสนุนหรือ refuting ข้อกังวล "เกี่ยวกับความเป็นไปได้ของการทดสอบหลังผลของข้อมูลเชิงสำรวจ การวิเคราะห์ที่ใช้ในการค้นหากลุ่ม " ฉันเพิ่งพบกระดาษจาก 2003 "วิธีการจัดกลุ่มและการจำแนก" โดย Milligan และ Hirtle กล่าวว่าการใช้ ANOVA เป็นการวิเคราะห์ที่ไม่ถูกต้องเนื่องจากข้อมูลไม่มีการสุ่มมอบหมายให้กับกลุ่ม
DPS

อาจช่วยได้: ตาบอดด้วยวิทยาศาสตร์: ผลการบริหารจัดการของโซลูชันการวิเคราะห์คลัสเตอร์ที่ผ่านการตรวจสอบไม่ถูกต้อง, mrs.org.uk/ijmr_article/article/78841
rolando 2

คำตอบ:


3

เป็นที่ชัดเจนว่าคุณไม่สามารถ (ไร้เดียงสา) ในการทดสอบความแตกต่างในการแจกแจงสำหรับกลุ่มที่กำหนดโดยใช้ข้อมูลเดียวกัน สิ่งนี้เรียกว่า "การทดสอบแบบเลือก", "การจุ่มสองครั้ง", "การอนุมานแบบวงกลม" ฯลฯ

ตัวอย่างจะทำการทดสอบ t กับความสูงของคน "สูง" และ "สั้น" ในข้อมูลของคุณ ค่า null (เกือบ) จะถูกปฏิเสธเสมอ

ต้องบอกว่า - หนึ่งอาจรวมถึงขั้นตอนการจัดกลุ่มในขั้นตอนการทดสอบ อย่างไรก็ตามฉันไม่คุ้นเคยกับการอ้างอิงเฉพาะที่ทำเช่นนั้น แต่ฉันสงสัยว่าควรจะทำ


ฉันเห็นด้วยว่าค่า null จะถูกปฏิเสธเกือบตลอดเวลาเมื่อใช้การทดสอบที่สำคัญกับกลุ่มคลัสเตอร์ที่แตกต่างกัน แม้ว่า - สิ่งนี้ควรเป็นกรณีที่การจัดกลุ่มจริง ๆ แล้วจัดการแยกกลุ่มสำหรับตัวแปรทั้งหมดที่พิจารณาใน CA หรือไม่ หนึ่งไม่สามารถใช้การทดสอบความสำคัญเพื่อตรวจสอบว่ามีตัวแปรที่ไม่แยกกันระหว่างกลุ่ม (หมายถึงใช้การทดสอบสำหรับแต่ละตัวแปร) คุณช่วยอธิบายรายละเอียดเกี่ยวกับเหตุผลทางสถิติได้ว่าทำไมไม่แนะนำ / ไม่เหมาะสม?
ลุค

อาร์กิวเมนต์ที่เป็นทางการคือว่าข้อผิดพลาดของการวัดแต่ละครั้งไม่ได้อยู่กึ่งกลางเกี่ยวกับศูนย์ ลองนึกถึงตัวอย่างสูง / สั้นของฉัน: ผู้คนทั้งหมดมาจากการแจกแจงแบบเดียวกัน แต่กลุ่ม "สูง" มีข้อผิดพลาดพร้อมค่าเฉลี่ยเป็นบวกและค่าเฉลี่ยลบ "สั้น"
JohnRos

0

แทนที่จะทดสอบสมมติฐานด้วยการทดสอบที่กำหนดฉันขอแนะนำวิธีการ bootstrapping หรือการประเมินสรุปอื่น ๆ ระหว่างกลุ่ม ตัวอย่างเช่นคุณสามารถพึ่งพา bootstrap เปอร์เซ็นไทล์อย่างน้อย 1,000 ตัวอย่าง จุดสำคัญคือการใช้การจัดกลุ่มอย่างอิสระกับตัวอย่าง bootstrap แต่ละตัวอย่าง

วิธีนี้จะค่อนข้างแข็งแกร่งแสดงหลักฐานสำหรับความแตกต่างและสนับสนุนข้อเรียกร้องของคุณสำหรับความแตกต่างระหว่างคลัสเตอร์ที่สำคัญ นอกจากนี้คุณสามารถสร้างตัวแปรอื่น (พูดระหว่างความแตกต่างของคลัสเตอร์) และการประมาณการบูตของตัวแปรที่แตกต่างดังกล่าวจะคล้ายกับการทดสอบสมมติฐานอย่างเป็นทางการ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.