ฉันจะดำเนินการถดถอยกับข้อมูลที่ไม่ปกติซึ่งยังคงไม่ปกติเมื่อเปลี่ยนเป็นอย่างไร


15

ฉันมีข้อมูล (158 ราย) ซึ่งได้มาจากคำตอบของ Likert ในการตอบแบบสอบถาม 21 ข้อ ฉันต้องการ / จำเป็นต้องทำการวิเคราะห์การถดถอยเพื่อดูว่ารายการใดในแบบสอบถามทำนายการตอบสนองต่อรายการโดยรวม (ความพึงพอใจ) คำตอบจะไม่กระจายตามปกติ (ตามการทดสอบของ KS) และฉันได้เปลี่ยนมันในทุก ๆ วิธีที่ฉันสามารถคิดได้ (ผกผัน, บันทึก, log10, sqrt, กำลังสอง) และมันก็ปฏิเสธที่จะกระจายตามปกติอย่างดื้อรั้น พล็อตที่เหลือดูทั่วทุกสถานที่ดังนั้นฉันเชื่อว่ามันไม่ถูกต้องตามกฎหมายที่จะทำการถดถอยเชิงเส้นและแกล้งทำเป็นว่ามันทำงานได้ตามปกติ (ไม่ใช่การกระจายปัวซอง) ฉันคิดว่าเป็นเพราะคำตอบมีการรวมกลุ่มอย่างใกล้ชิดมาก (ค่าเฉลี่ยคือ 3.91, 95% CI 3.88 ถึง 3.95)

ดังนั้นฉันคิดว่าฉันต้องการวิธีใหม่ในการแปลงข้อมูลของฉันหรือต้องการการถดถอยแบบไม่ใช้พารามิเตอร์ แต่ฉันไม่รู้ว่าฉันสามารถทำได้ใน SPSS


1
พิจารณาการแปลง Box-Cox ( en.wikipedia.org/wiki/… ) การเพิ่มเรื่องที่เหลือลงในคำถามของคุณอาจเป็นประโยชน์
M. Berk

3
ใช่โปรดแสดงพล็อตส่วนที่เหลือของคุณให้เราทราบ อาจจะเป็นแผนคิวคิวด้วย
David Marx

5
หากค่าของคุณไม่ต่อเนื่องโดยเฉพาะอย่างยิ่งหากพวกเขาถูกบีบให้สิ้นด้านหนึ่งอาจจะไม่มีการเปลี่ยนแปลงที่จะทำให้ผลลัพธ์นั้นเป็นปกติ แต่การทดสอบสมมติฐานอย่างเป็นทางการของภาวะปกติไม่ได้ตอบคำถามที่ถูกต้องและทำให้ขั้นตอนอื่น ๆ ของคุณดำเนินการอย่างมีเงื่อนไขว่าคุณปฏิเสธความเป็นปกติวิสัยที่จะไม่ได้มีคุณสมบัติเล็กน้อยอีกต่อไป
Glen_b -Reinstate Monica

1
การถดถอยโลจิสติกแบบอัตราต่อรองแบบสัดส่วนอาจเป็นวิธีที่เหมาะสมสำหรับคำถามนี้ แต่ฉันไม่รู้ว่ามีให้ใน SPSS หรือไม่
Ben Bolker

3
ฉันไม่เชื่อว่าการถดถอยนั้นเป็นวิธีการที่ถูกต้องและไม่ใช่เพราะความกังวลเชิงบรรทัดฐาน คำตอบแบบสอบถามของคุณอาจไม่สำคัญ ตัวอย่างเช่นหากคุณถามผู้ชายว่า 'คุณมีความสุขหรือไม่?' และรับคำตอบที่ 3 ในขณะที่เดือนที่แล้วเป็น 4 หมายความว่าเขามีความสุขน้อยลง 25% หรือไม่น่าจะเป็นไปไม่ได้ดังนั้นก่อนที่จะเริ่มคิดถึงเรื่องปกติ คุณต้องคิดออกว่าคุณกำลังติดต่อกับตัวเลขสำคัญหรือไม่และไม่ใช่แค่ลำดับมีวิธีพิเศษในการจัดการกับความคิดเช่นการสำรวจและการถดถอยไม่ใช่ตัวเลือกเริ่มต้นคุณต้องแสดงให้เห็นว่าเหมาะสมก่อน
Aksakal

คำตอบ:


32

คุณไม่จำเป็นต้องสมมติว่าการแจกแจงแบบปกติต้องทำการถดถอย การถดถอยกำลังสองน้อยที่สุดคือตัวประมาณสีน้ำเงิน (Best Linear, Unbiased Estimator) โดยไม่คำนึงถึงการแจกแจง ดูทฤษฎีบทเกาส์ - มาร์คอฟ (เช่นวิกิพีเดีย) การแจกแจงแบบปกตินั้นใช้เพื่อแสดงว่าตัวประมาณนั้นเป็นตัวประมาณโอกาสสูงสุดด้วย มันเป็นความเข้าใจผิดที่พบกันโดยทั่วไปว่า OLS จะถือว่าข้อมูลที่แจกจ่ายตามปกติ มันไม่ใช่. มันกว้างกว่าทั่วไปมาก


2
นี่เป็นเรื่องจริง สำหรับหลาย ๆ คนมักจะเพิกเฉยต่อข้อเท็จจริงนี้
Repmat

เห็นด้วยกับ @Repmat ฉันไม่แน่ใจว่าฉันเคยผ่านการทดสอบภาวะปกติ ... แต่แบบจำลองของฉันใช้ได้
HEITZ

5

แทนที่จะอาศัยการทดสอบความเป็นปกติของสิ่งตกค้างให้ลองประเมินความปกติด้วยการตัดสินอย่างมีเหตุผล การทดสอบตามปกติไม่ได้บอกคุณว่าข้อมูลของคุณเป็นเรื่องปกติ แต่ก็ไม่ใช่ แต่เนื่องจากข้อมูลเป็นตัวอย่างคุณสามารถมั่นใจได้ว่าพวกเขาไม่ปกติโดยไม่มีการทดสอบ ความต้องการอยู่ที่ประมาณปกติ การทดสอบไม่สามารถบอกคุณได้ว่า การทดสอบยังมีความอ่อนไหวมากที่ N ขนาดใหญ่หรือจริงจังขึ้นอยู่กับความไวที่แตกต่างกันด้วย N ของคุณ N อยู่ในช่วงที่ความไวเริ่มสูงขึ้น หากคุณใช้การจำลองต่อไปนี้ใน R หลายครั้งและดูแปลงแล้วคุณจะเห็นว่าการทดสอบภาวะปกติกำลังพูดว่า "ไม่ปกติ" ในการแจกแจงปกติจำนวนมาก

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

หวังว่าหลังจากผ่านการจำลองคุณจะเห็นว่าการทดสอบภาวะปกติสามารถปฏิเสธข้อมูลการค้นหาที่ค่อนข้างปกติได้ง่ายและข้อมูลจากการแจกแจงแบบปกติอาจดูค่อนข้างไกลจากปกติ n <- 1000หากคุณต้องการที่จะเห็นค่าสุดของลองว่า การแจกแจงทั้งหมดจะดูเป็นปกติ แต่ก็ยังล้มเหลวในการทดสอบที่อัตราเดียวกันกับค่า N ที่ต่ำกว่า และในทางกลับกันด้วยการแจกแจง N ต่ำที่ผ่านการทดสอบสามารถดูไกลจากปกติ

พล็อตมาตรฐานใน SPSS ไม่มีประโยชน์อย่างยิ่งสำหรับการประเมินความเป็นมาตรฐาน คุณสามารถเห็นค่าผิดปกติช่วงความดีพอดีและอาจใช้ประโยชน์ได้ แต่มาตรฐานนั้นยากที่จะได้มาจากมัน ลองจำลองสถานการณ์ต่อไปนี้เปรียบเทียบฮิสโทแกรมพล็อตปกติควอนไทล์ควอนไทล์และพล็อตที่เหลือ

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

เป็นเรื่องยากมากที่จะบอกเรื่องปกติหรืออะไรก็ตามตั้งแต่เรื่องสุดท้ายและไม่ได้วินิจฉัยภาวะปกติ

โดยสรุปขอแนะนำโดยทั่วไปว่าไม่ควรใช้การทดสอบตามปกติ แต่ควรใช้แผนการวินิจฉัยของสารตกค้าง หากไม่มีแผนการเหล่านั้นหรือค่าจริงในคำถามของคุณมันเป็นเรื่องยากสำหรับทุกคนที่จะให้คำแนะนำที่ชัดเจนเกี่ยวกับสิ่งที่ข้อมูลของคุณต้องการในแง่ของการวิเคราะห์หรือการเปลี่ยนแปลง เพื่อรับความช่วยเหลือที่ดีที่สุดให้ข้อมูลดิบ


สวัสดีขอบคุณสำหรับคำแนะนำ ฉันสิ้นสุดที่ดูที่เหลือของฉันตามที่แนะนำและใช้ไวยากรณ์ข้างต้นกับตัวแปรของฉัน ข้อมูลของฉันไม่ผิดปกติอย่างที่คิดอย่างที่คิดดังนั้นฉันจึงใช้การถดถอยเชิงเส้นแบบพารามิเตอร์ด้วยความมั่นใจมากขึ้นและมโนธรรมที่ชัดเจน! ขอบคุณอีกครั้ง.
rachel S

4

ขั้นแรกให้การถดถอย OLS ไม่ได้ตั้งสมมติฐานเกี่ยวกับข้อมูล แต่จะทำการตั้งสมมติฐานเกี่ยวกับข้อผิดพลาดตามที่ประมาณการโดยส่วนที่เหลือ

ประการที่สองการเปลี่ยนข้อมูลเพื่อให้พอดีกับแบบจำลองคือในความคิดของฉันวิธีการที่ผิด คุณต้องการให้แบบจำลองของคุณเหมาะสมกับปัญหาไม่ใช่วิธีอื่น ๆ ในสมัยก่อนการถดถอยของ OLS เป็น "เกมเดียวในเมือง" เนื่องจากคอมพิวเตอร์ช้า แต่นั่นไม่เป็นความจริงอีกต่อไป

ประการที่สามฉันไม่ได้ใช้ SPSS ดังนั้นฉันไม่สามารถช่วยได้ แต่ฉันจะประหลาดใจถ้ามันไม่ได้นำเสนอการถดถอยแบบไม่เชิงเส้นบางรูปแบบ ความเป็นไปได้บางอย่างคือการถดถอยเชิงปริมาณต้นไม้การถดถอยและการถดถอยที่แข็งแกร่ง

ประการที่สี่ฉันกังวลเกี่ยวกับคำพูดของคุณ:

ฉันต้องการ / จำเป็นต้องทำการวิเคราะห์การถดถอยเพื่อดูว่ารายการใดในแบบสอบถามทำนายการตอบสนองต่อรายการโดยรวม (ความพึงพอใจ)

หากรายการถูกสรุปหรือรวมกันเพื่อทำให้ขนาดโดยรวมแล้วการถดถอยไม่ใช่วิธีการที่เหมาะสมเลย คุณอาจต้องการวิเคราะห์ปัจจัย


คุณแนะนำว่าเขาอาจต้องการการวิเคราะห์ปัจจัย แต่การวิเคราะห์ปัจจัยจะไม่ได้รับผลกระทบหากข้อมูลไม่ได้ถูกกระจายตามปกติ
ปรับปรุงประสิทธิภาพ

คุณสามารถทำการวิเคราะห์ปัจจัยกับข้อมูลที่ไม่ต่อเนื่องได้ แต่นั่นเป็นการอภิปรายที่แยกจากกัน - และได้มีการพูดคุยกันที่นี่
Peter Flom - Reinstate Monica

1
สวัสดีปีเตอร์ฉันขอขอบคุณความเชี่ยวชาญของคุณและฉันให้ความสำคัญกับคำแนะนำของคุณอย่างมาก ขอบคุณที่สละเวลาตอบ เพียงเพื่อชี้แจงฉันรู้ว่าสามารถทำ FA ในรายการที่ไม่ได้กระจายทั่วไป (เช่นเดียวกับการอภิปรายเกี่ยวกับเรื่องปกติของส่วนที่เหลือ) ฉันแค่อยากรู้ที่จะเรียนรู้ (จากใครบางคนที่มีความเชี่ยวชาญของคุณ) ถ้า OP จะไม่เข้าสู่ภาวะที่กลืนไม่เข้าคายไม่ออกเดียวกัน แต่ฉันคิดว่าคุณตอบแล้ว :)
ปรับปรุง

1

ในวงกว้างมีสองวิธีที่เป็นไปได้สำหรับปัญหาของคุณ: วิธีการหนึ่งซึ่งได้รับการพิสูจน์อย่างดีจากมุมมองทางทฤษฎี แต่อาจเป็นไปไม่ได้ที่จะนำไปใช้ในทางปฏิบัติในขณะที่อีกวิธีหนึ่งเป็นปัญหามากกว่า

วิธีการที่เหมาะสมที่สุดในทางทฤษฎี (ซึ่งคุณอาจไม่สามารถใช้งานได้จริง ๆ แต่น่าเสียดาย) คือการคำนวณการถดถอยโดยย้อนกลับไปยังแอปพลิเคชันโดยตรงของวิธีการที่เรียกว่ามีความเป็นไปได้สูงสุด การเชื่อมต่อระหว่างการประมาณค่าความน่าจะเป็นสูงสุด (ซึ่งจริงๆแล้วเป็นแนวคิดทางคณิตศาสตร์ที่มาก่อนและพื้นฐานมากกว่า) และการถดถอยแบบธรรมดาน้อยที่สุด (OLS) (วิธีการปกติที่ใช้ได้สำหรับกรณีเฉพาะ แต่เป็นเรื่องธรรมดามากที่ตัวแปรการสังเกตเป็นอิสระแบบสุ่มและกระจายทั่วไป ) อธิบายไว้ในตำราหลายเล่มเกี่ยวกับสถิติ; หนึ่งการสนทนาที่ฉันชอบเป็นพิเศษคือส่วนที่ 7.1 ของ "การวิเคราะห์ข้อมูลเชิงสถิติ" โดย Glen Cowan ในกรณีที่ตัวแปรการสังเกตของคุณไม่กระจายตามปกติ

ในกรณีนี้เนื่องจากคุณดูเหมือนจะไม่ทราบว่ามีการแจกแจงพื้นฐานที่ควบคุมตัวแปรการสังเกตของคุณ (กล่าวคือสิ่งเดียวเท่านั้นที่ทราบแน่นอนคือมันไม่ใช่ Gaussian แน่นอน แต่ไม่ใช่สิ่งที่มันเป็นจริง) แนวทางข้างต้นชนะ ' ไม่ทำงานสำหรับคุณ โดยปกติแล้วเมื่อ OLS ล้มเหลวหรือส่งกลับผลลัพธ์ที่บ้าคลั่งมันเป็นเพราะคะแนนที่ผิดปกติมากเกินไป จุดนอกซึ่งเป็นสิ่งที่จริง ๆ แล้วทำลายสมมติฐานของตัวแปรการสังเกตแบบกระจายตามปกติทำให้มีน้ำหนักมากเกินพอดีเนื่องจากคะแนนใน OLS นั้นถูกถ่วงน้ำหนักด้วยกำลังสองของการเบี่ยงเบนจากกราฟการถดถอยและสำหรับค่าผิดปกติ มีขนาดใหญ่ วิธีการแก้ปัญหาตามปกติในกรณีนี้คือการพัฒนาปรับแต่งหรือปรับเปลี่ยนบางอย่างเพื่อ OLS ซึ่งส่งผลให้มีส่วนร่วมจากจุดนอกกลายเป็นเน้นหนักหรือยกเลิกการถ่วงน้ำหนักเมื่อเทียบกับวิธีการ OLS พื้นฐาน เรียกรวมกันว่าเหล่านี้มักจะเรียกว่าการถดถอยที่แข็งแกร่ง รายการที่มีตัวอย่างบางส่วนของเทคนิคการประมาณค่าที่แข็งแกร่งเฉพาะที่คุณอาจต้องการที่จะพยายามที่อาจจะพบได้ที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.