คำถามติดแท็ก multicollinearity

สถานการณ์เมื่อมีความสัมพันธ์เชิงเส้นที่แข็งแกร่งระหว่างตัวแปรทำนายเพื่อให้เมทริกซ์สหสัมพันธ์ของพวกเขากลายเป็นเอกพจน์ (เกือบ) "สภาพที่ไม่ดี" นี้ทำให้ยากต่อการระบุบทบาทที่ไม่ซ้ำกันของผู้ทำนายแต่ละคนกำลังเล่น: เกิดปัญหาการประมาณค่าและข้อผิดพลาดมาตรฐานเพิ่มขึ้น เครื่องทำนายที่มีความสัมพันธ์สูงมากแบบ bivariately เป็นตัวอย่างหนึ่งของ multicollinearity

3
จะลบตัวแปร collinear ใน Python อย่างเป็นระบบได้อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ป่านนี้ฉันได้ลบตัวแปร collinear เป็นส่วนหนึ่งของกระบวนการเตรียมข้อมูลโดยดูที่ตารางสหสัมพันธ์และกำจัดตัวแปรที่อยู่เหนือขีด จำกัด ที่แน่นอน มีวิธีที่ยอมรับมากขึ้นในการทำเช่นนี้? นอกจากนี้ฉันทราบว่าการดูความสัมพันธ์ระหว่างตัวแปร 2 ตัวต่อครั้งนั้นไม่เหมาะการวัดเช่น VIF คำนึงถึงความสัมพันธ์ที่อาจเกิดขึ้นกับตัวแปรหลายตัว เราจะเลือกชุดค่าผสมของตัวแปรที่ไม่แสดงความหลากหลายทางชีวภาพได้อย่างไร ฉันมีข้อมูลของฉันภายในกรอบข้อมูลแพนด้าและฉันใช้โมเดลของ sklearn

2
การเข้ารหัสตัวแปรเชิงคุณภาพในการถดถอยนำไปสู่“ ภาวะเอกฐาน”
ฉันมีตัวแปรอิสระที่เรียกว่า "คุณภาพ" ตัวแปรนี้มีการตอบสนอง 3 แบบ (คุณภาพไม่ดีคุณภาพปานกลาง; คุณภาพสูง) ฉันต้องการแนะนำตัวแปรอิสระนี้ในการถดถอยเชิงเส้นหลายครั้งของฉัน เมื่อฉันมีตัวแปรไบนารีอิสระ (ตัวแปรดัมมี่ฉันสามารถโค้ด0/ 1) มันเป็นเรื่องง่ายที่จะแนะนำมันในรูปแบบการถดถอยเชิงเส้นหลายแบบ แต่ด้วยการตอบสนอง 3 แบบฉันได้ลองใช้รหัสตัวแปรนี้ดังนี้ Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 แต่มีปัญหาเมื่อฉันพยายามทำการถดถอยเชิงเส้นหลายครั้ง: วิธีการMedium qualityให้ฉันNA: Coefficients: (1 not defined because of singularities) ฉันจะเขียนโค้ด "คุณภาพ" ตัวแปรนี้ด้วย 3 แบบได้อย่างไร ฉันต้องสร้างตัวแปรเป็นปัจจัย ( …

1
การถดถอยโลจิสติก - ความกังวลหลายฝ่าย / ข้อผิดพลาด
ใน Logistic Regression คุณจำเป็นต้องมีความกังวลเกี่ยวกับ multicollinearity เหมือนกับที่คุณต้องการในการถดถอย OLS หรือไม่ ตัวอย่างเช่นเมื่อมีการถดถอยโลจิสติกที่มีความสัมพันธ์หลายสีอยู่คุณจะต้องระมัดระวัง (เช่นเดียวกับใน OLS ถดถอย) ด้วยการอนุมานจากค่าสัมประสิทธิ์เบต้าหรือไม่ สำหรับ OLS regression หนึ่ง "แก้ไข" เพื่อความหลากสีสูงคือการถดถอยสันมีอะไรแบบนั้นสำหรับการถดถอยโลจิสติก? นอกจากนี้การวางตัวแปรหรือการรวมตัวแปร วิธีใดที่เหมาะสมสำหรับการลดผลกระทบของความหลากสีในการถดถอยโลจิสติก พวกมันเหมือนกับ OLS หรือเปล่า? (หมายเหตุ: นี่ไม่ได้มีวัตถุประสงค์เพื่อการทดสอบที่ออกแบบมา)

3
เมื่อไหร่ที่เราสามารถพูดถึง collinearity
ในตัวแบบเชิงเส้นเราต้องตรวจสอบว่าความสัมพันธ์มีอยู่ในตัวแปรอธิบายหรือไม่ หากพวกเขาสัมพันธ์กันมากเกินไปก็จะมีความเป็นเส้นตรงกัน (นั่นคือตัวแปรอธิบายบางส่วน) ตอนนี้ฉันแค่ดูความสัมพันธ์แบบคู่ระหว่างตัวแปรอธิบายแต่ละอย่าง คำถามที่ 1: อะไรคือการจำแนกความสัมพันธ์มากเกินไป? ตัวอย่างเช่นความสัมพันธ์ของเพียร์สันคือ 0.5 มากเกินไปหรือไม่ คำถามที่ 2: เราสามารถพิจารณาได้อย่างสมบูรณ์ว่ามีค่าความเป็นคู่ระหว่างตัวแปรสองตัวตามค่าสัมประสิทธิ์สหสัมพันธ์หรือไม่หรือขึ้นอยู่กับปัจจัยอื่น ๆ คำถามที่ 3: การตรวจสอบกราฟิกของ Scatterplot ของตัวแปรสองตัวนั้นเพิ่มอะไรลงไปในสิ่งที่สัมประสิทธิ์สหสัมพันธ์บ่งชี้หรือไม่?

1
เหตุใดการถดถอยนี้จึงไม่ล้มเหลวเนื่องจากความสัมพันธ์ระหว่างกันที่สมบูรณ์แบบแม้ว่าตัวแปรหนึ่งจะเป็นการรวมเชิงเส้นของตัวแปรอื่น ๆ
วันนี้ฉันกำลังเล่นกับชุดข้อมูลขนาดเล็กและดำเนินการถดถอย OLS ง่าย ๆ ซึ่งฉันคาดว่าจะล้มเหลวเนื่องจากมีความหลากหลายทางสมบูรณ์แบบ อย่างไรก็ตามมันไม่ได้ นี่ก็หมายความว่าความเข้าใจของฉันเกี่ยวกับความหลากสีเป็นสิ่งที่ผิด คำถามของฉันคือที่ไหนผมผิดหรือเปล่า? ฉันคิดว่าฉันสามารถแสดงให้เห็นว่าหนึ่งในตัวแปรของฉันคือการรวมกันเชิงเส้นของคนอื่น ๆ สิ่งนี้ควรนำไปสู่เมทริกซ์การถดถอยที่ไม่มีอันดับเต็มดังนั้นค่าสัมประสิทธิ์ไม่ควรถูกระบุ ฉันสร้างชุดข้อมูลที่ทำซ้ำได้ขนาดเล็ก(รหัสด้านล่าง) : exporter importer flow dist intraUS 1 Canada Canada 996.8677 6.367287 0 2 Florida Canada 995.8219 9.190562 0 3 Texas Canada 1001.6475 4.359063 0 4 Mexico Canada 1002.4371 7.476649 0 5 Canada Florida 1002.8789 5.389223 0 6 Florida …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
VIF, ดัชนีเงื่อนไขและค่าลักษณะเฉพาะ
ขณะนี้ฉันกำลังประเมินความหลากหลายทางชีวภาพในชุดข้อมูลของฉัน ค่าขีด จำกัด ของ VIF และดัชนีเงื่อนไขด้านล่าง / สูงกว่าจะแนะนำปัญหาได้อย่างไร VIF: ฉันเคยได้ยินว่า VIF เป็นปัญหา≥10≥10\geq 10 หลังจากลบตัวแปรปัญหาสองตัวแล้ว VIF คือสำหรับแต่ละตัวแปร ตัวแปรต้องการการดูแลที่มากขึ้นหรือ VIF นี้ดูดีหรือไม่?≤3.96≤3.96\leq 3.96 ดัชนีเงื่อนไข: ฉันได้ยินมาว่าดัชนีสภาพ (CI) 30 หรือมากกว่านั้นเป็นปัญหา CI สูงสุดของฉันคือ 16.66 นี่เป็นปัญหาหรือไม่? ปัญหาอื่น ๆ : มีปริมาณอื่น ๆ ที่ต้องพิจารณาหรือไม่ มีสิ่งอื่นใดอีกไหมที่ฉันต้องจำไว้?

1
เหตุใดการถดถอยของ Ridge จึงทำงานได้ดีในที่ที่มีความสัมพันธ์หลายระดับ?
ฉันกำลังเรียนรู้เกี่ยวกับการถดถอยของสันเขาและรู้ว่าการถดถอยของสันเขานั้นมีแนวโน้มที่จะทำงานได้ดีขึ้นเมื่อมีความหลากหลายทางชีวภาพ ฉันสงสัยว่าทำไมสิ่งนี้ถึงเป็นจริง ทั้งคำตอบที่ใช้งานง่ายหรือคำตอบทางคณิตศาสตร์ก็น่าพอใจ (คำตอบทั้งสองประเภทนั้นน่าพอใจยิ่งขึ้น) นอกจากนี้ฉันรู้ว่าสามารถรับได้เสมอ แต่การถดถอยของสันจะทำงานได้ดีเพียงใดเมื่อมี collinearity ที่แน่นอน (ตัวแปรอิสระตัวหนึ่งคือฟังก์ชันเชิงเส้นของอีกตัวหนึ่ง)β^β^\hat{\beta}

3
ฉันต้องลดตัวแปรที่มีความสัมพันธ์ / collinear ก่อนเรียกใช้ kmeans หรือไม่
ฉันกำลังเรียกใช้ kmeans เพื่อระบุกลุ่มลูกค้า ฉันมีตัวแปรประมาณ 100 ตัวเพื่อระบุกลุ่ม ตัวแปรแต่ละตัวเหล่านี้แสดงถึง% ของการใช้จ่ายของลูกค้าในหมวดหมู่ ดังนั้นถ้าฉันมี 100 หมวดหมู่ฉันมีตัวแปร 100 ตัวดังกล่าวผลรวมของตัวแปรเหล่านี้คือ 100% สำหรับลูกค้าแต่ละราย ตอนนี้ตัวแปรเหล่านี้มีความสัมพันธ์กันอย่างมาก ฉันต้องลบสิ่งเหล่านี้บางส่วนเพื่อลบ collinearity ก่อนที่จะเรียกใช้ kmeans หรือไม่ นี่คือข้อมูลตัวอย่าง ในความเป็นจริงฉันมี 100 ตัวแปรและ 10 ล้านลูกค้า Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

4
เราควรกังวลเกี่ยวกับความหลากหลายเชิงเส้นเมื่อใช้โมเดลที่ไม่ใช่เชิงเส้นหรือไม่?
สมมติว่าเรามีปัญหาการจำแนกเลขฐานสองที่มีคุณสมบัติการจัดหมวดหมู่เป็นส่วนใหญ่ เราใช้โมเดลที่ไม่ใช่เชิงเส้น (เช่น XGBoost หรือ Random Forests) เพื่อเรียนรู้ หนึ่งควรยังคงกังวลเกี่ยวกับความหลากหลาย collinearity? ทำไม? หากคำตอบข้างต้นเป็นจริงเราจะต่อสู้กับมันอย่างไรเมื่อพิจารณาว่ามีการใช้โมเดลที่ไม่ใช่เชิงเส้นประเภทนี้อย่างไร

2
การถดถอยเชิงเส้นเมื่อคุณรู้จักไม่ใช่โดยตรง
สมมติว่า YXβ=YXβ=YX\beta =Y เราไม่ทราบว่าตรงเพียงความสัมพันธ์กับแต่ละทำนาย YYYYXtYXtYX^\mathrm{t}Y วิธีแก้ปัญหาสแควร์สน้อย (OLS) สามัญคือและไม่มีปัญหาβ=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y แต่สมมติว่าอยู่ใกล้เอกพจน์ (multicollinearity) และคุณต้องประเมินพารามิเตอร์สันเขาที่ดีที่สุด ทุกวิธีที่ดูเหมือนว่าจะต้องมีค่าที่แน่นอนของYXtXXtXX^\mathrm{t}XYYY มีวิธีการอื่นเมื่อมีเพียงเป็นที่รู้จักกัน?XtYXtYX^\mathrm{t}Y

2
การทดสอบชิ้นอะไรคืออะไร?
ในการตอบคำถามเกี่ยวกับการเลือกรูปแบบในการปรากฏตัวของพหุ , แฟรงก์ Harrell แนะนำ : วางตัวแปรทั้งหมดในแบบจำลอง แต่ไม่ทดสอบผลของตัวแปรเดียวที่ปรับสำหรับผลกระทบของตัวแปรที่แข่งขันกัน ... การทดสอบกลุ่มของตัวแปรที่แข่งขันกันนั้นมีประสิทธิภาพเพราะตัวแปร collinear รวมเข้าด้วยกันในการทดสอบความสัมพันธ์แบบอิสระหลายระดับโดยรวม แข่งขันกับแต่ละอื่น ๆ เช่นเมื่อคุณทดสอบตัวแปรแต่ละรายการ การทดสอบชิ้นอะไรคืออะไร? คุณสามารถยกตัวอย่างการใช้งานของพวกเขาได้rหรือไม่?

6
Multicollinearity เมื่อการถดถอยส่วนบุคคลมีความสำคัญ แต่ VIF ต่ำ
ฉันมี 6 ตัวแปร ( ) ที่ผมใช้ในการทำนายYเมื่อทำการวิเคราะห์ข้อมูลของฉันฉันลองการถดถอยเชิงเส้นหลายครั้งก่อน จากนี้มีเพียงสองตัวแปรเท่านั้นที่มีนัยสำคัญ อย่างไรก็ตามเมื่อฉันรันการถดถอยเชิงเส้นเปรียบเทียบตัวแปรแต่ละตัวกับแต่ทั้งหมดนั้นมีนัยสำคัญ (ที่ใดก็ได้จากน้อยกว่า 0.01 ถึงน้อยกว่า 0.001) มันบอกว่านี่เป็นเพราะความหลากสีปีปีหน้าx1...x6x1...x6x_{1}...x_{6}yyyyyyppp การวิจัยครั้งแรกของฉันเกี่ยวกับเรื่องนี้แสดงให้เห็นการตรวจสอบสำหรับพหุโดยใช้VIFs ฉันดาวน์โหลดแพ็กเกจที่เหมาะสมจาก R และจบลงด้วยผลลัพธ์ VIF: 3.35, 3.59, 2.64, 2.24 และ 5.56 จากแหล่งข้อมูลต่าง ๆ ทางออนไลน์จุดที่คุณควรกังวลเกี่ยวกับความหลากหลายทางชีวภาพกับ VIF ของคุณคือที่ 4 หรือ 5 ตอนนี้ฉันกำลังนิ่งงันเกี่ยวกับความหมายของข้อมูลของฉัน ฉันหรือฉันไม่มีปัญหาเรื่องความสัมพันธ์หลายทาง? ถ้าฉันทำแล้วฉันจะทำอย่างไรต่อ (ฉันไม่สามารถรวบรวมข้อมูลเพิ่มเติมและตัวแปรเป็นส่วนหนึ่งของแบบจำลองที่ไม่เกี่ยวข้องอย่างเห็นได้ชัด) หากฉันไม่มีปัญหานี้สิ่งที่ฉันควรทำจากข้อมูลของฉันโดยเฉพาะอย่างยิ่งความจริงที่ว่าตัวแปรเหล่านี้มีความสำคัญสูง เป็นรายบุคคล แต่ไม่สำคัญเลยเมื่อรวมกัน แก้ไข:มีการถามคำถามบางอย่างเกี่ยวกับชุดข้อมูลดังนั้นฉันต้องการขยาย ... ในกรณีพิเศษนี้เรากำลังมองหาที่จะเข้าใจว่าการชี้นำทางสังคมที่เฉพาะเจาะจง (ท่าทางการจ้องมองและอื่น ๆ ) ส่งผลกระทบต่อความน่าจะเป็นของคนที่ผลิตคิวอื่น ๆ เราต้องการให้แบบจำลองของเรามีคุณสมบัติที่สำคัญทั้งหมดดังนั้นฉันจึงไม่สะดวกที่จะลบบางส่วนที่ดูเหมือนซ้ำซ้อน ไม่มีสมมติฐานใด ๆ …

3
คุณจะรับมือกับการประมาณค่าไม่เสถียรในการถดถอยเชิงเส้นด้วยค่าความหลากหลายหลายค่าได้สูงโดยไม่ต้องทิ้งตัวแปรอย่างไร
ความมั่นคงเบต้าในการถดถอยเชิงเส้นที่มีความหลากหลายสูง? สมมุติว่าในการถดถอยเชิงเส้นตัวแปรและมีความหลากหลายเชิงเส้นสูง (ความสัมพันธ์มีค่าประมาณ 0.9)x 2x1x1x_1x2x2x_2 เรามีความกังวลเกี่ยวกับค่าสัมประสิทธิ์ความมั่นคงดังนั้นเราจึงต้องปฏิบัติต่อความหลากหลายเชิงซ้อนββ\beta วิธีแก้ปัญหาหนังสือเรียนคือการทิ้งหนึ่งในตัวแปร แต่เราไม่ต้องการสูญเสียข้อมูลที่เป็นประโยชน์เพียงแค่ทิ้งตัวแปร ข้อเสนอแนะใด ๆ

2
การจัดการกับ multicollinearity
ฉันได้เรียนรู้ว่าการใช้vif()วิธีการcarบรรจุภัณฑ์เราสามารถคำนวณระดับของความหลากหลายของอินพุตในโมเดลได้ จากวิกิพีเดียถ้าvifค่ามากกว่า5นั้นเราสามารถพิจารณาได้ว่าข้อมูลที่ได้รับความทุกข์ทรมานจากปัญหาพหุนิยม ตัวอย่างเช่นฉันได้พัฒนาตัวแบบการถดถอยเชิงเส้นโดยใช้lm()วิธีการและvif()ให้ดังต่อไปนี้ ในฐานะที่เราสามารถมองเห็นปัจจัยการผลิตub, lbและtbกำลังทุกข์ทรมานจากพหุ vif(lrmodel) tb ub lb ma ua mb sa sb 7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946 เพื่อหลีกเลี่ยงปัญหาความสัมพันธ์แบบหลายจุดและเพื่อให้แบบจำลองของฉันแข็งแกร่งขึ้นฉันได้ดำเนินการระหว่างubและlbและตอนนี้ตาราง vif ของรูปแบบใหม่มีดังนี้: tb ub:lb ma mb sa sb ua 1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218 มีค่าไม่แตกต่างกันมากR^2และไม่มีความแตกต่างในข้อผิดพลาดจากการทดสอบ CV แบบครั้งเดียวในทั้งสองกรณีข้างต้น คำถามของฉันคือ: มันเป็นการดีหรือไม่ที่จะหลีกเลี่ยงปัญหาความสัมพันธ์ระหว่างกันโดยการโต้ตอบตามที่แสดงด้านบน? มีวิธีการที่ดีกว่าในการนำเสนอปัญหาความสัมพันธ์หลายค่าเมื่อเทียบกับผลลัพธ์ของวิธี vif ข้างต้น กรุณาให้คำแนะนำของคุณ ขอบคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.