คำถามติดแท็ก multicollinearity

สถานการณ์เมื่อมีความสัมพันธ์เชิงเส้นที่แข็งแกร่งระหว่างตัวแปรทำนายเพื่อให้เมทริกซ์สหสัมพันธ์ของพวกเขากลายเป็นเอกพจน์ (เกือบ) "สภาพที่ไม่ดี" นี้ทำให้ยากต่อการระบุบทบาทที่ไม่ซ้ำกันของผู้ทำนายแต่ละคนกำลังเล่น: เกิดปัญหาการประมาณค่าและข้อผิดพลาดมาตรฐานเพิ่มขึ้น เครื่องทำนายที่มีความสัมพันธ์สูงมากแบบ bivariately เป็นตัวอย่างหนึ่งของ multicollinearity

5
การกำหนดมาตรฐานตัวแปรอิสระจะช่วยลดความเหลื่อมล้ำหรือไม่?
ฉันเจอข้อความที่ดีมากใน Bayes / MCMC ฝ่ายไอทีแนะนำว่าการสร้างมาตรฐานของตัวแปรอิสระของคุณจะทำให้อัลกอริทึม MCMC (Metropolis) มีประสิทธิภาพมากขึ้น นั่นเป็นเรื่องจริงเหรอ? นี่คือสิ่งที่ฉันควรทำตามมาตรฐาน (ขออภัย) Kruschke 2011, ทำการวิเคราะห์ข้อมูลแบบเบย์ (AP) แก้ไข: ตัวอย่างเช่น > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence …

1
การตีความสัดส่วนที่รวมหนึ่งเป็นตัวแปรอิสระในการถดถอยเชิงเส้น
ฉันคุ้นเคยกับแนวคิดของตัวแปรเด็ดขาดและการเข้ารหัสตัวแปรดัมมี่ตามลำดับที่ช่วยให้เราสามารถปรับให้เป็นหนึ่งในระดับพื้นฐานเพื่อหลีกเลี่ยงความไม่ลงรอยกัน ฉันยังคุ้นเคยกับวิธีตีความการประมาณค่าพารามิเตอร์จากโมเดลดังกล่าว: การเปลี่ยนแปลงที่คาดการณ์ไว้ในผลลัพธ์สำหรับระดับที่เหมาะสมของเครื่องทำนายหมวดหมู่สัมพันธ์กับหมวดหมู่พื้นฐาน สิ่งที่ฉันไม่แน่ใจเกี่ยวกับวิธีการตีความชุดของตัวแปรอิสระที่มีสัดส่วนที่ว่าผลรวมให้เป็นหนึ่ง เรามี collinearity อีกครั้งถ้าเราพอดีทุกสัดส่วนในโมเดลดังนั้นสมมุติว่าเราจะต้องปล่อยให้หมวดหมู่หนึ่งเป็นพื้นฐาน ฉันยังคิดว่าฉันจะดูประเภท III SS สำหรับการทดสอบโดยรวมของความสำคัญของตัวแปรนี้ อย่างไรก็ตามเราจะตีความพารามิเตอร์ประมาณการสำหรับระดับที่เหมาะสมในแบบจำลองเทียบกับที่ถือว่าเป็นพื้นฐานได้อย่างไร ตัวอย่าง : ที่ระดับรหัสไปรษณีย์ตัวแปรอิสระคือสัดส่วนของหินแปรหินอัคนีและหินตะกอน อย่างที่คุณอาจทราบว่าหินทั้งสามชนิดนี้สำคัญและหินทั้งหมดจัดอยู่ในประเภทใดประเภทหนึ่ง ดังนั้นสัดส่วนในผลรวมทั้งสามต่อ 1 ผลที่ได้คือระดับเรดอนเฉลี่ยในรหัสไปรษณีย์ที่เกี่ยวข้อง ถ้าฉันจะพอดีพูดสัดส่วนแปรสภาพและการเผาไหม้เป็นแบบทำนายในแบบจำลองปล่อยให้ตะกอนเป็นพื้นฐานประเภทโดยรวม III SS F - การทดสอบของทั้งสองระดับติดตั้งจะมีความหมายว่าประเภทหินโดยรวมเป็นสิ่งสำคัญ ตัวทำนายผล (ระดับเรดอนโดยเฉลี่ย) จากนั้นฉันสามารถดูค่าp-valueแต่ละตัว(ตามการแจกแจงt ) เพื่อพิจารณาว่าหินชนิดใดชนิดหนึ่งหรือทั้งสองนั้นแตกต่างจากฐานอย่างมีนัยสำคัญ อย่างไรก็ตามเมื่อมันมาถึงการประมาณค่าพารามิเตอร์สมองของฉันต้องการที่จะตีความพวกเขาอย่างหมดจดเป็นการเปลี่ยนแปลงที่คาดการณ์ไว้ในผลระหว่างกลุ่ม (ประเภทหิน) และฉันไม่เข้าใจวิธีการรวมความจริงที่ว่าพวกเขาพอดีเป็นสัดส่วน . หากการประมาณค่าสำหรับการแปรเปลี่ยนเป็นเช่น 0.43 การตีความนั้นไม่ใช่เพียงแค่ระดับเรดอนเฉลี่ยที่คาดการณ์เพิ่มขึ้น 0.43 หน่วยเมื่อหินนั้นแปรสภาพกับตะกอน อย่างไรก็ตามการตีความยังไม่เพียง แต่สำหรับการเพิ่มขึ้นของหน่วยบางประเภท (พูด 0.1) ในสัดส่วนของประเภทหินแปรเนื่องจากมันไม่ได้สะท้อนความจริงที่ว่ามันยังสัมพันธ์กับพื้นฐาน ( ตะกอน ) และนอกจากนี้การเปลี่ยนแปลงนั้น สัดส่วนของการเปลี่ยนแปลงโดยเนื้อแท้การเปลี่ยนแปลงสัดส่วนของพอดีระดับหินอื่น ๆ …

3
ตัวอย่างของความสัมพันธ์อันหลากหลายที่สมบูรณ์แบบคืออะไร?
ตัวอย่างของ collinearity ที่สมบูรณ์แบบในแง่ของเมทริกซ์การออกแบบคืออะไรXXX ฉันต้องการตัวอย่างที่ไม่สามารถประมาณได้เพราะไม่สามารถย้อนกลับได้β^=(X′X)−1X′Yβ^=(X′X)−1X′Y\hat \beta = (X'X)^{-1}X'Y(X′X)(X′X)(X'X)

2
การตีความเมทริกซ์ความแปรปรวนร่วม -
สมมติว่าเรามีโมเดลเชิงเส้นModel1และvcov(Model1)ให้เมทริกซ์ต่อไปนี้: (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 สำหรับตัวอย่างนี้เมทริกซ์นี้แสดงอะไร? สมมติฐานอะไรที่เราสามารถสร้างโมเดลของเราได้อย่างปลอดภัยและเป็นตัวแปรอิสระ

1
มีปัญหากับความสัมพันธ์แบบหลายค่าและการถดถอยเชิงเส้นหรือไม่
เมื่อใช้ลูกบาศก์ธรรมชาติ (เช่นถูก จำกัด ) Splines ฟังก์ชันพื้นฐานที่สร้างขึ้นนั้นมี collinear สูงและเมื่อใช้ในการถดถอยดูเหมือนจะสร้างสถิติ VIF สูง (ปัจจัยเงินเฟ้อแปรปรวน) สูงมากส่งสัญญาณความหลากหลายทางชีวภาพ เมื่อมีการพิจารณากรณีของแบบจำลองเพื่อการคาดการณ์นี่เป็นปัญหาหรือไม่ ดูเหมือนว่ามันจะเป็นอย่างนั้นเสมอเพราะธรรมชาติของโครงสร้างการสร้างเส้นโค้ง นี่คือตัวอย่างใน R: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 …

2
วิธีเริ่มสร้างแบบจำลองการถดถอยเมื่อตัวทำนายที่เกี่ยวข้องมากที่สุดคือไบนารี
ฉันมีชุดข้อมูลที่มี 365 การสังเกตของสามตัวแปรคือpm, และtemp rainตอนนี้ฉันต้องการตรวจสอบพฤติกรรมของpmการตอบสนองต่อการเปลี่ยนแปลงในอีกสองตัวแปร ตัวแปรของฉันคือ: pm10 = การตอบสนอง (ขึ้นอยู่กับ) temp = ตัวทำนาย (อิสระ) rain = ตัวทำนาย (อิสระ) ต่อไปนี้เป็นเมทริกซ์สหสัมพันธ์สำหรับข้อมูลของฉัน: > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 ปัญหาคือเมื่อฉันกำลังศึกษาการสร้างตัวแบบการถดถอยมันเขียนว่าวิธีการเติมแต่งคือการเริ่มต้นด้วยตัวแปรที่เกี่ยวข้องกับตัวแปรตอบสนองมากที่สุด ในชุดข้อมูลของฉันrainมีความสัมพันธ์อย่างมากกับpm(เมื่อเทียบกับtemp) แต่ในเวลาเดียวกันมันเป็นตัวแปรจำลอง (ฝน = 1, ไม่มีฝน = 0) ดังนั้นตอนนี้ฉันจึงได้รู้ว่าควรเริ่มจากที่ใด ผมได้แนบภาพสองภาพที่มีคำถาม: ที่แรกก็คือ scatterplot ของข้อมูลและภาพที่สองเป็น …

3
อะไรคือข้อดีของวิธีการที่แตกต่างกันในการตรวจจับ collinearity?
ฉันต้องการตรวจสอบว่า collinearity เป็นปัญหาในการถดถอย OLS ของฉันหรือไม่ ฉันเข้าใจว่าปัจจัยเงินเฟ้อที่แปรปรวนและดัชนีเงื่อนไขเป็นมาตรการที่ใช้กันทั่วไปสองอย่าง แต่ฉันพบว่ามันยากที่จะหาสิ่งที่ชัดเจนเกี่ยวกับข้อดีของแต่ละวิธีหรือคะแนนที่ควรจะเป็น แหล่งข้อมูลที่โดดเด่นซึ่งระบุว่าวิธีการทำและ / หรือคะแนนใดที่เหมาะสมจะมีประโยชน์มาก คำถามที่คล้ายกันถูกถามที่"มีเหตุผลที่ต้องการวัดความหลากหลายของหลายระดับ?" แต่ฉันนึกคิดหลังจากการอ้างอิงที่ฉันสามารถอ้างอิง

5
จะทำอย่างไรกับตัวแปร collinear
คำเตือน: นี่คือสำหรับโครงการการบ้าน ฉันพยายามหาแบบจำลองที่ดีที่สุดสำหรับราคาเพชรขึ้นอยู่กับตัวแปรหลายอย่างและดูเหมือนว่าฉันจะมีแบบจำลองที่ดีอยู่แล้ว อย่างไรก็ตามฉันทำงานเป็นสองตัวแปรที่ชัดเจน collinear: >with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 ตารางและความลึกขึ้นอยู่กับแต่ละอื่น ๆ แต่ฉันยังต้องการรวมไว้ในแบบจำลองการทำนายของฉัน ฉันทำการวิจัยเกี่ยวกับเพชรและพบว่า Table และ Depth คือความยาวด้านบนและระยะทางจากปลายถึงบนสุดของเพชร เนื่องจากราคาของเพชรเหล่านี้ดูเหมือนจะเกี่ยวข้องกับความงามและความงามที่ดูเหมือนจะเป็นสัดส่วนที่เกี่ยวข้องฉันจึงต้องรวมอัตราส่วนของพวกเขาด้วยพูดเพื่อทำนายราคา นี่เป็นขั้นตอนมาตรฐานสำหรับการจัดการกับตัวแปร collinear หรือไม่ ถ้าไม่เป็นอะไรTa b l eD อีพีทีเอชTaขล.อีDอีพีเสื้อชั่วโมง\frac{Table}{Depth} แก้ไข: นี่คือพล็อตของความลึก ~ ตาราง:

2
ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด
มีจำนวนมากเกี่ยวกับ collinearity ที่เกี่ยวกับการทำนายแบบต่อเนื่อง แต่ไม่มากนักที่ฉันสามารถค้นหาในตัวทำนายแบบหมวดหมู่ ฉันมีข้อมูลประเภทนี้แสดงไว้ด้านล่าง ปัจจัยแรกคือตัวแปรทางพันธุกรรม (นับอัลลีล) ปัจจัยที่สองคือประเภทของโรค เห็นได้ชัดว่ายีนนำหน้าโรคและเป็นปัจจัยในการแสดงอาการที่นำไปสู่การวินิจฉัย อย่างไรก็ตามการวิเคราะห์อย่างสม่ำเสมอโดยใช้ผลบวกของสี่เหลี่ยมจัตุรัสที่มีประเภท II หรือ III ดังเช่นที่ใช้กันทั่วไปในทางจิตวิทยากับ SPSS คิดถึงผลกระทบที่เกิดขึ้น การวิเคราะห์สแควร์สจำนวนหนึ่งเป็นการวิเคราะห์แบบหยิบมันขึ้นมาเมื่อป้อนคำสั่งที่เหมาะสมเพราะมันขึ้นอยู่กับลำดับ นอกจากนี้มีแนวโน้มว่าจะมีส่วนประกอบเพิ่มเติมในกระบวนการของโรคซึ่งไม่เกี่ยวข้องกับยีนที่ไม่ได้ระบุอย่างดีกับประเภท II หรือ III ดูanova (lm1)ด้านล่าง vs lm2 หรือ Anova ข้อมูลตัวอย่าง: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, …

1
การอ้างอิงผลรวมและความแตกต่างของตัวแปรที่มีความสัมพันธ์สูงซึ่งเกือบจะไม่เกี่ยวข้องกัน
ในกระดาษที่ฉันเขียนฉันสร้างแบบจำลองตัวแปรสุ่มและมากกว่าและเพื่อลบปัญหาที่เกิดขึ้นเมื่อและมีความสัมพันธ์สูงและมีความแปรปรวนเท่ากัน (เหมือนที่ใช้ในแอปพลิเคชันของฉัน) ผู้ตัดสินต้องการให้ฉันอ้างอิง ฉันสามารถพิสูจน์ได้อย่างง่ายดาย แต่การเป็นวารสารแอปพลิเคชันที่พวกเขาต้องการการอ้างอิงถึงการคำนวณทางคณิตศาสตร์อย่างง่ายX+YX+YX+YX−YX−YX-YXXXYYYXXXYYY ใครบ้างมีคำแนะนำสำหรับการอ้างอิงที่เหมาะสม? ฉันคิดว่ามีบางอย่างในหนังสือ EDA ของ Tukey (1977) เกี่ยวกับผลรวมและความแตกต่าง แต่ฉันหาไม่เจอ

1
Support Vector Machine มีความไวต่อความสัมพันธ์ระหว่างคุณลักษณะหรือไม่
ฉันต้องการฝึกอบรม SVM เพื่อจำแนกกรณีและปัญหา (TRUE / FALSE) ตาม 20 คุณลักษณะ ฉันรู้ว่าคุณลักษณะเหล่านั้นบางอย่างมีความสัมพันธ์สูง ดังนั้นคำถามของฉันคือ: SVM มีความไวต่อความสัมพันธ์หรือความซ้ำซ้อนระหว่างคุณสมบัติหรือไม่ การอ้างอิงใด ๆ

1
ปัจจัยเงินเฟ้อความแปรปรวนสำหรับตัวแบบเสริมทั่วไป
ในการคำนวณ VIF ตามปกติสำหรับการถดถอยเชิงเส้นแต่ละตัวแปรอิสระ / อธิบายจะถือว่าเป็นตัวแปรตามในการถดถอยกำลังสองน้อยที่สุดธรรมดา กล่าวคือXJXJX_j XJ= β0+ ∑i = 1 , ฉัน≠ jnβผมXผมXJ=β0+Σผม=1,ผม≠JnβผมXผม X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i ค่าจะถูกเก็บไว้สำหรับแต่ละการถดถอยและ VIF ถูกกำหนดโดยR2R2R^2nnn VผมFJ= 11 - R2JVผมFJ=11-RJ2 VIF_j = \frac{1}{1-R^2_j} สำหรับตัวแปรอธิบายโดยเฉพาะ สมมติว่าโมเดลเสริมทั่วไปของฉันใช้รูปแบบ Y= β0+ ∑i = 1nβผมXผม+ ∑j = 1ม.sJ( Xผม) .Y=β0+Σผม=1nβผมXผม+ΣJ=1ม.sJ(Xผม). Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + …

3
ความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายในการถดถอยพหุคูณ
ฉันกำลังอ่านบทการถดถอยหลายบทของการวิเคราะห์ข้อมูลและกราฟิกโดยใช้ R: วิธีการแบบอิงตัวอย่างและสับสนเล็กน้อยที่พบว่ามันแนะนำให้ตรวจสอบความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบาย (ใช้แบบกระจาย) และในกรณีที่เกิดขึ้น ' t ใด ๆ เปลี่ยนพวกเขาจึงไม่กลายเป็นที่เกี่ยวข้องกับเส้นตรง นี่คือข้อความที่ตัดตอนมาบางส่วนของนี้: 6.3 กลยุทธ์สำหรับการปรับโมเดลการถดถอยหลายแบบ ( ... ) ตรวจสอบ scatterplot matrix ที่เกี่ยวข้องกับตัวแปรอธิบายทั้งหมด (รวมถึงตัวแปรตามคือ ณ ตอนนี้ทางเลือก ) มองหาหลักฐานของการไม่เป็นเชิงเส้นในแปลงของตัวแปรอธิบายซึ่งกันและกัน ( ... ) จุดนี้จะระบุกลยุทธ์รูปแบบการค้นหา - แสวงหารูปแบบซึ่งในความสัมพันธ์ระหว่างตัวแปรถดถอยอธิบายตาม "ง่าย" รูปแบบเชิงเส้น ดังนั้นถ้าบางแปลงคู่แสดงหลักฐานของการไม่เชิงเส้นพิจารณาการใช้ของการเปลี่ยนแปลง (s) เพื่อให้มากขึ้นเกือบเชิงเส้นความสัมพันธ์ แม้ว่ามันอาจจะไม่สามารถพิสูจน์ได้ว่าเป็นไปได้ตามกลยุทธ์นี้เพื่อสร้างแบบจำลองความสัมพันธ์การถดถอยอย่างเพียงพอ แต่นี่เป็นกลยุทธ์ที่ดีสำหรับเหตุผลที่ให้ไว้ด้านล่างเพื่อติดตามในการเริ่มการค้นหา ( ... ) หากความสัมพันธ์ระหว่างตัวแปรอธิบายเป็นเส้นตรงประมาณบางทีหลังจากการเปลี่ยนแปลงมันก็เป็นไปได้ที่จะตีความแปลงของตัวแปรทำนายกับตัวแปรตอบสนองด้วยความมั่นใจ ( ... ) อาจไม่สามารถค้นหาการเปลี่ยนแปลงของตัวแปรอธิบายอย่างน้อยหนึ่งตัวที่รับรองความสัมพันธ์ (คู่) ที่แสดงในพาเนลปรากฏเป็นเส้นตรง สิ่งนี้สามารถสร้างปัญหาได้ทั้งสำหรับการตีความแผนการวินิจฉัยสำหรับสมการการถดถอยที่เหมาะสมและการตีความสัมประสิทธิ์ในสมการที่พอดี ดู …

2
ความหลากหลายทางชีวภาพเป็นนัยในตัวแปรเด็ดขาดหรือไม่?
ฉันสังเกตว่าในขณะที่ tinkering กับแบบจำลองการถดถอยหลายตัวแปรมีผลกระทบความสัมพันธ์แบบหลายค่าขนาดเล็ก แต่เห็นได้ชัดซึ่งวัดจากปัจจัยเงินเฟ้อความแปรปรวนภายในหมวดหมู่ของตัวแปรเด็ดขาด (หลังจากไม่รวมหมวดหมู่อ้างอิงแน่นอน) ตัวอย่างเช่นสมมติว่าเรามีชุดข้อมูลที่มีตัวแปรต่อเนื่อง y และตัวแปรเด็ดขาดหนึ่งชุด x ซึ่งมีค่า k ที่ไม่เหมือนกันซึ่งเป็นไปได้ เรารหัสผู้ค่าที่เป็นไปตามที่ 0/1 ตัวแปรหุ่นdots, แล้วเราจะเรียกใช้ตัวแบบการถดถอย{k-1} คะแนน VIF สำหรับตัวแปรจำลองกลายเป็นไม่ใช่ศูนย์ ในความเป็นจริงเมื่อจำนวนหมวดหมู่เพิ่มขึ้น VIF ก็เพิ่มขึ้น การจัดกึ่งกลางของตัวแปรจำลองจะไม่เปลี่ยน VIFskkkx1,x2,…,xkx1,x2,…,xkx_1, x_2,\dots ,x_ky=b0+b1x1+b2x2+⋯+bk−1xk−1y=b0+b1x1+b2x2+⋯+bk−1xk−1y = b_0 + b_1x_1 + b_2x_2 + \dots + b_{k-1}x_{k-1}k−1k−1k-1 คำอธิบายที่เข้าใจง่ายดูเหมือนว่าสภาพที่ไม่เกิดร่วมกันของหมวดหมู่ภายในตัวแปรเด็ดขาดนั้นทำให้เกิดความหลากหลายทางสัณฐานวิทยาเล็กน้อย นี่เป็นการค้นพบที่ไม่สำคัญหรือเป็นปัญหาที่ควรพิจารณาเมื่อสร้างแบบจำลองการถดถอยด้วยตัวแปรเชิงหมวดหมู่หรือไม่

3
การกำหนดนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอยเชิงเส้นในที่ที่มีความสัมพันธ์แบบหลายค่า
สมมติว่าฉันมีหลายเมืองที่มีขนาดประชากรแตกต่างกันและฉันต้องการที่จะดูว่ามีความสัมพันธ์เชิงบวกระหว่างจำนวนร้านขายเหล้าในเมืองและจำนวน DUIs หรือไม่ ที่ฉันกำหนดว่าความสัมพันธ์นี้มีความสำคัญหรือไม่ขึ้นอยู่กับ t-test ของสัมประสิทธิ์การถดถอยประมาณ ตอนนี้ชัดเจนป๊อป ขนาดของเมืองจะมีความสัมพันธ์เชิงบวกกับจำนวน DUIs และจำนวนร้านขายเหล้า ดังนั้นถ้าฉันเรียกใช้การถดถอยเชิงเส้นอย่างง่ายในร้านขายเหล้าและดูว่าค่าสัมประสิทธิ์การถดถอยนั้นมีนัยสำคัญทางสถิติหรือไม่ฉันอาจพบปัญหาหลายสายสัมพันธ์และประเมินผลกระทบของร้านขายสุราใน DUIs ฉันควรใช้วิธีใดในสองวิธีนี้เพื่อแก้ไขปัญหานี้ ฉันควรแบ่งจำนวนร้านขายเหล้าในเมืองด้วยจำนวนประชากรเพื่อที่จะได้รับร้านขายเหล้าต่อมูลค่าประชากรและจากนั้นถอยกลับไปที่ ฉันควรถอยกลับไปที่ร้านขายเหล้าและขนาดแล้วดูเพื่อดูว่าค่าสัมประสิทธิ์ร้านขายเหล้ามีความสำคัญเมื่อควบคุมขนาดหรือไม่ วิธีอื่นบ้าง ฉันไม่สามารถตัดสินใจได้ว่าอะไรจะสมเหตุสมผลกว่า ฉันโยกย้ายระหว่างพวกเขาขึ้นอยู่กับว่าฉันคิดว่าฉันสามารถโน้มน้าวตัวเองได้ว่าเป็นวิธีที่ถูกต้อง ในร้านขายสุรามือเดียวต่อหัวดูเหมือนว่าตัวแปรที่ถูกต้องที่จะใช้เนื่องจาก DUI มีความมุ่งมั่นของแต่ละบุคคล แต่นั่นไม่ได้ดูเข้มงวดมากนัก ในทางกลับกันการควบคุมขนาดดูเหมือนเข้มงวดทางสถิติ แต่ค่อนข้างทางอ้อม นอกจากนี้ถ้าฉันลดขนาดหลังจากคำนวณค่าเก็บเหล้าต่อหัวของประชากรฉันได้รับค่าสัมประสิทธิ์การถดถอยที่คล้ายกันมากระหว่างสองวิธี แต่วิธีที่ 1 ให้ค่า p น้อยลง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.