ใช้ ANOVA กับเปอร์เซ็นต์หรือไม่


13

ฉันมีตารางที่มีสี่กลุ่ม (4 กลุ่ม BMI) เป็นตัวแปรอิสระ (ตัวคูณ) ฉันมีตัวแปรตามนั่นคือ "ร้อยละแม่สูบบุหรี่ในการตั้งครรภ์"

อนุญาตให้ใช้ ANOVA สำหรับสิ่งนี้หรือฉันต้องใช้ไคสแควร์หรือการทดสอบอื่น ๆ

คำตอบ:


21

มีความแตกต่างระหว่างการมีตัวแปรไบนารีเป็นตัวแปรตามของคุณและมีสัดส่วนเป็นตัวแปรตามของคุณ

  • ตัวแปรขึ้นอยู่กับไบนารี :

    • ฟังดูเหมือนสิ่งที่คุณมี (เช่นแม่แต่ละคนสูบบุหรี่หรือไม่สูบบุหรี่)
    • ในกรณีนี้ฉันจะไม่ใช้ ANOVA การถดถอยแบบลอจิสติกที่มีรูปแบบการเขียนโค้ดบางอย่าง (อาจเป็นรหัสจำลอง) สำหรับตัวแปรตัวทำนายหมวดหมู่เป็นตัวเลือกที่ชัดเจนหากคุณกำลังคิดว่าตัวแปรไบนารีเป็นตัวแปรตาม
  • สัดส่วนเป็นตัวแปรตาม :

    • นี่ไม่เหมือนสิ่งที่คุณมี (เช่นคุณไม่มีข้อมูลเกี่ยวกับสัดส่วนของเวลาทั้งหมดที่แม่สูบบุหรี่ระหว่างตั้งครรภ์ในตัวอย่างของหญิงตั้งครรภ์ที่สูบบุหรี่)
    • ในกรณีนี้การวิเคราะห์ความแปรปรวนและแบบจำลองเชิงเส้นมาตรฐานโดยทั่วไปอาจหรืออาจไม่เหมาะสมสำหรับวัตถุประสงค์ของคุณ ดูคำตอบของ @Ben Bolker สำหรับการอภิปรายปัญหา

สำหรับตัวแปรที่ขึ้นกับไบนารีในกรณีที่ฉันมีเพียงข้อมูลสรุปสำหรับสัดส่วนไบนารี (เช่น # ในกลุ่ม A, B และ C และ # ของความสำเร็จในกลุ่ม A, B และ C) และไม่ใช่ ข้อมูลดิบที่แท้จริงเราจะใช้การถดถอยโลจิสติกได้อย่างไร? ฉันคุ้นเคยกับการใช้กับข้อมูลดิบเท่านั้น
ไบรอัน

15

ขึ้นอยู่กับว่าการตอบสนองภายในกลุ่มต่างกันมีค่าใกล้เคียง 0 หรือ 100% หากมีค่ามากเกินไป (เช่นค่าหลายค่าที่ซ้อนทับใน 0 หรือ 100%) สิ่งนี้จะเป็นเรื่องยาก (หากคุณไม่รู้จัก "ตัวหาร" นั่นคือจำนวนเรื่องที่คำนวณเปอร์เซ็นต์แล้วคุณจะไม่สามารถใช้แนวทางฉุกเฉินได้) หากค่าภายในกลุ่มมีความสมเหตุสมผลมากขึ้นคุณสามารถแปลง ตัวแปรการตอบสนอง (เช่นคลาสสิก arcsine-square-root หรือการแปลง logit) มีวิธีการทดสอบแบบกราฟิก (ที่แนะนำ) และข้อสมมติฐานว่าง (ไม่ต้องการ) ที่หลากหลายสำหรับการตัดสินใจว่าข้อมูลที่แปลงของคุณเป็นไปตามสมมติฐานของ ANOVA อย่างเพียงพอหรือไม่ความสม่ำเสมอของความแปรปรวน การทดสอบกราฟิก: boxplots (ความสม่ำเสมอของความแปรปรวน) และแผนการ QQ (ปกติ) [หลังควรทำภายในกลุ่มหรือในส่วนที่เหลือ] การทดสอบสมมติฐานแบบ Null: เช่นการทดสอบ Bartlett หรือ Fligner (ความสม่ำเสมอของความแปรปรวน), Shapiro-Wilk, Jarque-Bera เป็นต้น


11

คุณต้องมีข้อมูลดิบเพื่อให้ตัวแปรตอบสนองคือ 0/1 (ไม่ใช่ควัน, ควัน) จากนั้นคุณสามารถใช้การถดถอยโลจิสติกไบนารี ไม่ถูกต้องที่จะจัดกลุ่ม BMI เป็นระยะ จุดตัดไม่ถูกต้องอาจไม่มีอยู่และคุณยังไม่ได้ทดสอบอย่างเป็นทางการว่า BMI เกี่ยวข้องกับการสูบบุหรี่หรือไม่ คุณกำลังทดสอบว่าค่าดัชนีมวลกายที่มีข้อมูลส่วนใหญ่ทิ้งนั้นเกี่ยวข้องกับการสูบบุหรี่หรือไม่ คุณจะพบว่าโดยเฉพาะช่วง BMI ด้านนอกนั้นค่อนข้างต่างกัน


2
@ Frank - ทำไม "ไม่ถูกต้อง" เพื่อจัดกลุ่ม BMI สิ่งนี้ดูสมเหตุสมผลอย่างสมบูรณ์แบบตราบใดที่ผลลัพธ์ถูกตีความอย่างเหมาะสม ตัวอย่างเช่นคุณอาจทำการทดสอบไม่ว่าจะเป็น "น้ำหนักน้อย" "น้ำหนักเพื่อสุขภาพ" "น้ำหนักเกิน" และ "อ้วน" มีความสัมพันธ์กับการสูบบุหรี่หรือไม่ซึ่งคำเหล่านี้ถูกกำหนดโดยช่วงค่าดัชนีมวลกาย ฉันไม่เห็น "ผิด" ที่นี่
ความน่าจะเป็นที่เป็นไปได้

ฉันเชื่อว่า OP ทำงานร่วมกับชุดข้อมูลการเรียนการสอนทั่วไปและอาจไม่มีค่าดัชนีมวลกายดิบ แม้ว่าโดยทั่วไปจะไม่เหมาะที่จะแยกความแตกต่างของ regressors ต่อเนื่อง แต่ก็ไม่ "ผิด" มันอาจเป็นประโยชน์ในการหันไปใช้สิ่งนี้เมื่อเราสงสัยว่าการวัดนั้นเสียงดังและไม่มีการขอความช่วยเหลืออื่น ๆ อันที่จริงสมมติฐานที่แท้จริงที่เราต้องการทดสอบคือความอ้วนเกี่ยวข้องกับการสูบบุหรี่หรือไม่ ค่าดัชนีมวลกายเป็นเพียงวิธีหนึ่งในการวัดความอ้วน (และมีปัญหาจากสิ่งที่ฉันเข้าใจ)
JMS

4
แม้ว่าการวัดจะมีเสียงดัง แต่การวิเคราะห์ตัวแปรก็ยังคงยอดเยี่ยม การจัดหมวดหมู่ค่าดัชนีมวลกายสร้างปัญหามากกว่าตัวเลือกการวิเคราะห์ที่แตกต่างกันสามารถแก้ไขได้ ในความเป็นจริงการประมาณตามหมวดหมู่ไม่มีการตีความทางวิทยาศาสตร์อีกต่อไป ปริมาณทางวิทยาศาสตร์คือสิ่งที่มีความหมายนอกการทดลองปัจจุบัน คุณจะพบว่าการประมาณกลุ่ม (เช่นอัตราต่อรองที่ Y = 1 สำหรับค่าสูงและช่วงเวลาต่ำของ X) เป็นฟังก์ชั่นของ BMI ที่สังเกตได้ทั้งหมด ตัวอย่างเช่นหากคุณต้องการเพิ่มค่าดัชนีมวลกายสูงมากหรือต่ำมากในตัวอย่าง "เอฟเฟกต์" จะแข็งแกร่งขึ้น
Frank Harrell

สำหรับผู้ที่ติดตั้ง R และ RStudio อาจมีการสาธิตเชิงโต้ตอบที่biostat.mc.vanderbilt.edu/BioMod - ดูเครื่องหมายสีเขียวใหม่ คุณต้องโหลดสคริปต์ลงใน RStudio และติดตั้งแพคเกจ Hmisc
Frank Harrell

"แม้ว่าการวัดจะมีเสียงดังการวิเคราะห์ตัวแปรต่าง ๆ อย่างต่อเนื่องนั้นยอดเยี่ยมกว่า" นี่ไม่ถูกต้อง ลองจินตนาการว่าคุณมีโควาริเอตอย่างต่อเนื่องโดยที่ข้อผิดพลาดในการวัดเพิ่มขึ้นตามขนาดของมัน แน่นอนว่าสิ่งที่ดีที่สุดที่จะทำคือสร้างโมเดลข้อผิดพลาดหรือรับการวัดที่ดีขึ้น ฯลฯ แต่การบอกว่ามันไม่ถูกต้อง
JMS

3

หากคุณเลือกที่จะทำการ ANOVA สามัญกับข้อมูลตามสัดส่วนมันเป็นสิ่งสำคัญในการตรวจสอบสมมติฐานของความแปรปรวนข้อผิดพลาดที่เป็นเนื้อเดียวกัน หาก (ตามปกติกับข้อมูลเปอร์เซ็นต์) ความแปรปรวนของข้อผิดพลาดนั้นไม่คงที่ทางเลือกที่เหมือนจริงมากขึ้นคือลองเบต้าการถดถอยซึ่งสามารถอธิบายถึงความแตกต่างในรูปแบบนี้ได้ นี่คือบทความเกี่ยวกับวิธีการทางเลือกในการจัดการกับตัวแปรตอบกลับที่เป็นเปอร์เซ็นต์หรือสัดส่วน: http://www.ime.usp.br/~sferrari/beta.pdf

หากคุณใช้ R แพ็คเกจbetaregอาจมีประโยชน์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.