สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ไม่ว่าเดโบราห์มาโยจะลบล้างข้อพิสูจน์ของหลักการความน่าจะเป็น
นี่ค่อนข้างเกี่ยวข้องกับคำถามก่อนหน้าของฉันที่นี่: ตัวอย่างที่หลักการความน่าจะเป็น * สำคัญ * สำคัญหรือไม่ เห็นได้ชัดว่าเดโบราห์มาโยตีพิมพ์บทความทางวิทยาศาสตร์ทางสถิติเพื่อพิสูจน์หลักการของความน่าจะเป็นของ Birnbaum ใครสามารถอธิบายการโต้แย้งหลักโดย Birnbaum และการโต้เถียงโดย Mayo ได้หรือไม่? เธอพูดถูกหรือเปล่า?

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
ทำไม glmnet ใช้ตาข่ายยืดหยุ่น“ ไร้เดียงสา” จากกระดาษต้นฉบับของ Zou & Hastie
ต้นฉบับกระดาษสุทธิยืดหยุ่นZou & Hastie (2005) กูและการเลือกตัวแปรผ่านสุทธิยืดหยุ่นแนะนำฟังก์ชั่นมีผลขาดทุนสุทธิยืดหยุ่นสำหรับการถดถอยเชิงเส้น (ที่นี่ผมถือว่าตัวแปรทั้งหมดเป็นศูนย์กลางและมีขนาดหน่วยความแปรปรวน): L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,แต่เรียกมันว่า "netive elastic net" พวกเขาเป็นที่ถกเถียงกันอยู่ว่ามันทำการหดตัวสองครั้ง (lasso และสัน) มีแนวโน้มที่จะหดตัว - และสามารถปรับปรุงได้โดย rescaling แก้ปัญหาผลลัพธ์ดังนี้:β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta.พวกเขาให้ข้อโต้แย้งทางทฤษฎีและหลักฐานการทดลองว่าสิ่งนี้นำไปสู่ประสิทธิภาพที่ดีขึ้น อย่างไรก็ตามglmnetกระดาษต่อมาฟรีดแมน, Hastie, & Tibshirani (2010) เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านทางโคตรพิกัดไม่ได้ใช้การลดขนาดนี้และมีเชิงอรรถสั้น ๆ ว่า Zou และ Hastie (2005) เรียกว่าการลงโทษนี้ตาข่ายยืดหยุ่นไร้เดียงสาและต้องการรุ่นที่ได้รับการช่วยเหลือซึ่งพวกเขาเรียกว่าตาข่ายยืดหยุ่น เราแยกความแตกต่างนี้ตรงนี้ ไม่มีคำอธิบายเพิ่มเติมใด ๆ (หรือในตำราเรียน …

2
มะเร็งปอดมีสาเหตุมาจากการสูบบุหรี่มากแค่ไหน? [ปิด]
ในผลิตภัณฑ์ยาสูบเรามักจะเห็นสถิติว่ามะเร็งปอด 9 ใน 10 เกิดจากการสูบบุหรี่ แต่มีความแม่นยำหรือไม่? ฉันสงสัยเกี่ยวกับสถิตินี้ด้วยเหตุผลสองประการ ประการแรกหากคุณเปรียบเทียบอัตราการบริโภคบุหรี่ในช่วงเวลาหนึ่งสำหรับสหรัฐอเมริกาและนอร์เวย์และเปรียบเทียบกับอัตรามะเร็งปอดในเพศชายคุณสามารถสร้างแผนภูมิต่อไปนี้ คุณสามารถขอรับข้อมูลการใช้บุหรี่สำหรับสหรัฐอเมริกาที่นี่และนอร์เวย์ที่นี่และข้อมูลโรคมะเร็งทั้งสองประเทศจากที่นี่ ในสหรัฐอเมริกาดูเหมือนว่า 9 ใน 10 ของโรคมะเร็งปอดอาจเกิดจากการสูบบุหรี่ แต่ในนอร์เวย์มันดูน่าสงสัยมากเพราะมีมะเร็งปอดจำนวนมากอันน่ากลัวสำหรับบุหรี่ที่สูบไม่กี่ราย ในสหรัฐอเมริกาสาเหตุ (บุหรี่) มาก่อนผล (มะเร็งปอด) แต่ในนอร์เวย์สาเหตุ (บุหรี่) ดูเหมือนว่าจะเกิดขึ้นหลังจากผล (มะเร็งปอด) ซึ่งไม่ได้สนับสนุนสมมติฐานที่ว่าการสูบบุหรี่ทำให้เกิดมะเร็งปอด 9 ในสิบในกรณีของนอร์เวย์ นอกจากความอยากรู้อยากเห็นของนอร์เวย์แล้วยังมีปัญหาอีกอย่างหนึ่งเนื่องจากในประเทศเช่นสหรัฐอเมริกาหลายล้านคนได้รับการส่งเสริมให้เลิกสูบบุหรี่ในช่วงหลายทศวรรษที่ผ่านมา แต่ในอดีตประเทศสหภาพโซเวียตหลายล้านคนไม่ได้รับการสนับสนุนให้เลิกสูบบุหรี่และเป็นผลให้การบริโภคบุหรี่ต่อคนต่อประชากรในประเทศเหล่านี้มีความเสถียรจนถึงทุกวันนี้ โดยบังเอิญเรามีการทดลองครั้งใหญ่ (หลายพันล้านปี) เพื่อดูว่าการให้กำลังใจผู้คนนับล้านในช่วงหลายทศวรรษที่เลิกสูบบุหรี่นั้นมีความแตกต่างกับอัตราการเป็นมะเร็งปอด ผมว่ามันเป็นการทดลองที่ใหญ่ที่สุดในการสูบบุหรี่และมะเร็งปอด ต่อไปนี้เป็นมะเร็งปอดเพศชายใน 3 ประเทศ ได้แก่ สหรัฐอเมริกา (ประชากร 325.7 ล้านคน), รัสเซีย (ประชากร 144 ล้านคน) และยูเครน (ประชากร 45 ล้านคน) เห็นได้ชัดว่ามะเร็งปอดเพศผู้ลดลงในประเทศเหล่านี้ในลักษณะเดียวกับในสหรัฐอเมริกา แต่ไม่มีการสูบบุหรี่ลดลงก่อนหน้านี้ …

3
ที่มาของคำว่า "การทำให้เป็นมาตรฐาน"
เมื่อฉันแนะนำแนวคิดให้กับนักเรียนของฉันฉันมักจะพบว่ามันสนุกที่จะบอกพวกเขาว่าคำศัพท์มาจากที่ไหน (ตัวอย่างเช่น "การถดถอย" เป็นคำที่มีต้นกำเนิดที่น่าสนใจ) ฉันไม่สามารถเปลี่ยนประวัติ / พื้นหลังของคำว่า "การทำให้เป็นมาตรฐาน" ในการเรียนรู้ทางสถิติ / เครื่อง ดังนั้นสิ่งที่เป็นที่มาของคำว่ากู ?

3
อะไรคือผลกระทบของการเลือกฟังก์ชั่นการสูญเสียที่แตกต่างกันในการจัดประเภทเป็นประมาณ 0-1 การสูญเสีย
เรารู้ว่าฟังก์ชันวัตถุประสงค์บางอย่างนั้นง่ายต่อการปรับให้เหมาะสมและบางฟังก์ชันก็ยาก และมีฟังก์ชั่นการสูญเสียมากมายที่เราต้องการใช้ แต่ยากที่จะใช้เช่นการสูญเสีย 0-1 ดังนั้นเราจึงหาฟังก์ชั่นการสูญเสียพร็อกซีเพื่อทำงาน ตัวอย่างเช่นเราใช้การสูญเสียบานพับหรือการสูญเสียโลจิสติกเพื่อ "การสูญเสีย" โดยประมาณ 0-1 ต่อไปนี้พล็อตมาจากหนังสือ PRML คริสบิชอป การสูญเสียบานพับถูกพล็อตเป็นสีน้ำเงินบันทึกการสูญเสียในสีแดง, การสูญเสียสแควร์ในสีเขียวและข้อผิดพลาด 0/1 ในสีดำ ฉันเข้าใจว่าเหตุผลที่เรามีการออกแบบ (สำหรับบานพับและการสูญเสียโลจิสติก) คือเราต้องการให้ฟังก์ชันวัตถุประสงค์นูนออกมา โดยดูที่การสูญเสียและการสูญเสียบานพับโลจิสติกก็ลงโทษเพิ่มเติมเกี่ยวกับกรณีแบ่งอย่างยิ่งและที่น่าสนใจก็ยังจัดได้อย่างถูกต้องลงโทษกรณีถ้าพวกเขาจะจัดอย่างอ่อน มันเป็นการออกแบบที่แปลกจริงๆ คำถามของฉันคือราคาที่เราต้องจ่ายโดยใช้ "ฟังก์ชั่นการสูญเสียพร็อกซี" ที่แตกต่างกันเช่นการสูญเสียบานพับและการสูญเสียโลจิสติกคืออะไร?

2
ความคล้ายคลึงกันของโคไซน์นั้นเหมือนกับระยะทางแบบยุคลิดแบบยุค l2 หรือไม่?
เหมือนความหมายว่ามันจะให้ผลลัพธ์ที่เหมือนกันสำหรับการจัดอันดับระหว่างเวกเตอร์คล้ายคลึงกันยูและชุดของเวกเตอร์V ฉันมีแบบจำลองเวกเตอร์สเปซซึ่งมีการวัดระยะทาง (ระยะทางแบบยุคลิด, ความเหมือนโคไซน์) และเทคนิคการทำให้เป็นมาตรฐาน (ไม่มี, l1, l2) เป็นพารามิเตอร์ จากความเข้าใจของฉันผลลัพธ์จากการตั้งค่า [โคไซน์ไม่มี] ควรจะเหมือนกันหรืออย่างน้อยก็คล้ายกับ [euclidean, l2] จริง ๆ แต่ก็ไม่เหมือนกัน มีโอกาสที่ดีจริง ๆ ที่ระบบยังมีข้อผิดพลาด - หรือฉันมีบางสิ่งบางอย่างผิดปกติเกี่ยวกับเวกเตอร์? แก้ไข: ฉันลืมที่จะพูดถึงว่าเวกเตอร์จะขึ้นอยู่กับจำนวนคำจากเอกสารในคลังข้อมูล รับเอกสารแบบสอบถาม (ซึ่งฉันยังแปลงในเวกเตอร์นับจำนวนคำ) ฉันต้องการค้นหาเอกสารจากคลังข้อมูลของฉันซึ่งคล้ายกับมันมากที่สุด การคำนวณระยะทางแบบยุคลิดของพวกเขานั้นเป็นเพียงการวัดแบบตรงไปข้างหน้า แต่ในงานประเภทที่ฉันทำงานความคล้ายคลึงของโคไซน์มักเป็นที่ต้องการในฐานะตัวบ่งชี้ความคล้ายคลึงกันเพราะเวกเตอร์ที่มีความยาวต่างกันเท่านั้น เอกสารที่มีความคล้ายคลึงกันของระยะทาง / โคไซน์น้อยที่สุดถือว่าคล้ายกันมากที่สุด

3
ตอนนี้รูปแบบการเรียนรู้ที่ลึกล้ำไม่สามารถพูดได้ว่าตีความได้หรือ คุณสมบัติของโหนดคืออะไร
สำหรับโมเดลการเรียนรู้ทางสถิติและเครื่องมีหลายระดับของการตีความได้: 1) อัลกอริทึมโดยรวม, 2) ส่วนของอัลกอริทึมโดยทั่วไป 3) อัลกอริทึมส่วนต่างๆของอัลกอริทึมโดยเฉพาะอินพุตและสามระดับแบ่งออกเป็นสองส่วน หนึ่งสำหรับการฝึกอบรมและหนึ่งสำหรับฟังก์ชั่น eval สองส่วนสุดท้ายอยู่ใกล้กว่าชิ้นแรกมาก ฉันถามเกี่ยวกับ # 2 ซึ่งมักจะนำไปสู่ความเข้าใจที่ดีขึ้นของ # 3) (หากสิ่งเหล่านั้นไม่ใช่สิ่งที่ 'ตีความได้' หมายถึงอะไรฉันควรจะคิดอย่างไร) เท่าที่การตีความไปได้การถดถอยโลจิสติกส์เป็นหนึ่งในวิธีที่ง่ายที่สุดในการตีความ เหตุใดอินสแตนซ์นี้จึงผ่านเกณฑ์ เนื่องจากอินสแตนซ์ดังกล่าวมีคุณสมบัติเชิงบวกนี้โดยเฉพาะและมีค่าสัมประสิทธิ์สูงกว่าในโมเดล มันชัดเจนมาก! โครงข่ายประสาทเทียมเป็นตัวอย่างคลาสสิกของแบบจำลองที่ตีความได้ยาก สัมประสิทธิ์ทั้งหมดนั้นหมายความว่าอะไร? พวกเขาทั้งหมดรวมกันในวิธีที่ซับซ้อนอย่างบ้าคลั่งซึ่งเป็นการยากที่จะพูดในสิ่งที่สัมประสิทธิ์พิเศษกำลังทำอยู่ แต่เมื่อมีโครงข่ายประสาทที่หยั่งรากลึกออกมามันรู้สึกว่าสิ่งต่าง ๆ กำลังชัดเจนขึ้น แบบจำลอง DL (สำหรับการมองเห็น) ดูเหมือนว่าจะจับภาพสิ่งต่าง ๆ เช่นขอบหรือการวางแนวในชั้นแรก ๆ และในชั้นต่อมาดูเหมือนว่าบางโหนดมีความหมายจริง (เช่นเซลล์ยาย 'สุภาษิต' ) ตัวอย่างเช่น: ( จาก 'การเรียนรู้เกี่ยวกับการเรียนรู้ลึก' ) นี่เป็นภาพกราฟิก ( ของหลาย ๆ ภาพ …

9
เมื่อความสัมพันธ์สามารถเป็นประโยชน์โดยไม่มีสาเหตุได้อย่างไร
สัตว์เลี้ยงพูดถึงนักสถิติหลายคนคือ "สหสัมพันธ์ไม่ได้บอกเป็นนัยถึงสาเหตุ" นี่เป็นเรื่องจริง แต่สิ่งหนึ่งที่ดูเหมือนว่าส่อให้เห็นในที่นี้คือความสัมพันธ์มีค่าเพียงเล็กน้อยหรือไม่มีเลย มันเป็นเรื่องจริงเหรอ? มันไร้ประโยชน์หรือไม่ที่จะมีความรู้ว่าตัวแปรสองตัวมีความสัมพันธ์กัน? ฉันไม่สามารถจินตนาการได้ว่าเป็นกรณี ฉันไม่คุ้นเคยกับการวิเคราะห์เชิงทำนายอย่างน่ากลัว แต่ดูเหมือนว่าหากXเป็นตัวทำนายYมันจะมีประโยชน์ในการทำนายค่าในอนาคตที่YอิงตามXโดยไม่คำนึงถึงสาเหตุ ฉันเห็นคุณค่าของสหสัมพันธ์อย่างไม่ถูกต้องหรือไม่? และถ้าไม่นักสถิติหรือนักวิทยาศาสตร์ข้อมูลอาจใช้ความสัมพันธ์โดยไม่มีสาเหตุในสถานการณ์ใด

2
การเปลี่ยนแปลงเหมือนกับความแปรปรวนหรือไม่
นี่เป็นคำถามแรกของฉันในการตรวจสอบความถูกต้องของ Cross ที่นี่ดังนั้นโปรดช่วยฉันแม้ว่ามันจะดูเล็กน้อย :-) ก่อนอื่นคำถามอาจเป็นผลลัพธ์ของความแตกต่างทางภาษาหรือบางทีฉันมีข้อบกพร่องทางสถิติที่แท้จริง อย่างไรก็ตามนี่คือ: ในสถิติประชากรการแปรปรวนและความแปรปรวนเป็นคำเดียวกันหรือไม่ ถ้าไม่ความแตกต่างระหว่างสองคืออะไร ฉันรู้ว่าความแปรปรวนเป็นกำลังสองของค่าเบี่ยงเบนมาตรฐาน ฉันรู้ด้วยเช่นกันว่ามันเป็นการวัดว่าข้อมูลกระจัดกระจายแค่ไหนและฉันรู้วิธีการคำนวณ อย่างไรก็ตามฉันได้ติดตามหลักสูตร Coursera.org ที่เรียกว่า "การคิดแบบจำลอง" และผู้บรรยายอธิบายความแปรปรวนอย่างชัดเจน นั่นทำให้ฉันสับสนเล็กน้อย เพื่อความเป็นธรรมเขามักจะพูดคุยเกี่ยวกับการเปลี่ยนแปลงของอินสแตนซ์บางอย่างในประชากร ใครช่วยอธิบายให้ฉันได้ไหมถ้าคนเหล่านั้นใช้แทนกันได้หรือบางทีฉันอาจจะพลาดอะไรบางอย่างไป?

5
อนุกรมเวลาเหมือนกับกระบวนการสุ่มหรือไม่
กระบวนการสุ่มเป็นกระบวนการที่วิวัฒนาการไปตามกาลเวลาดังนั้นมันจึงเป็นวิธีที่ดีกว่าในการพูดว่า "อนุกรมเวลา" หรือไม่?

4
เกิดอะไรขึ้นกับ t-SNE กับ PCA สำหรับการลดขนาดโดยใช้ R
ฉันมีเมทริกซ์ของจำนวนจุดลอยตัว 336x256 (336 จีโนมแบคทีเรีย (คอลัมน์) x 256 ความถี่ tetranucleotide ปกติ (แถว) เช่นทุกคอลัมน์เพิ่มขึ้นถึง 1) ฉันได้รับผลลัพธ์ที่ดีเมื่อฉันรันการวิเคราะห์โดยใช้การวิเคราะห์องค์ประกอบหลักการ ก่อนอื่นฉันคำนวณกลุ่ม kmeans ของข้อมูลจากนั้นเรียกใช้ PCA และทำให้จุดข้อมูลเป็นสีตามการจัดกลุ่ม kmeans เริ่มต้นใน 2D และ 3D: library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with …
27 r  pca  tsne 

2
ทำไมการเดินแบบสุ่มมีความสัมพันธ์กัน?
ฉันสังเกตว่าโดยเฉลี่ยแล้วค่าสัมประสิทธิ์สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันนั้นใกล้เคียงกับการเดินสุ่มคู่ใด ๆ โดยไม่คำนึงถึงความยาวการเดิน0.560.42 มีคนอธิบายปรากฏการณ์นี้ได้ไหม ฉันคาดว่าความสัมพันธ์จะเล็กลงเมื่อความยาวเดินเพิ่มขึ้นเช่นเดียวกับการสุ่มลำดับ สำหรับการทดลองของฉันฉันใช้การสุ่ม gaussian walk พร้อม step เฉลี่ย 0 และเบี่ยงเบนมาตรฐาน step 1 UPDATE: ฉันลืมไปยังศูนย์ข้อมูลที่ว่าทำไมมันเป็นแทน0.560.42 นี่คือสคริปต์ Python เพื่อคำนวณสหสัมพันธ์: import numpy as np from itertools import combinations, accumulate import random def compute(length, count, seed, center=True): random.seed(seed) basis = [] for _i in range(count): walk = np.array(list(accumulate( random.gauss(0, 1) for …

17
จะอธิบายสถิติในหนึ่งประโยคได้อย่างไร
เมื่อฉันเริ่มเรียนรู้สถิติขั้นตอนต่าง ๆ เช่น t-test, ANOVA, chi-squared และการถดถอยเชิงเส้นแต่ละครั้งดูเหมือนจะเป็นสิ่งมีชีวิตที่แตกต่างกันมาก แต่ตอนนี้ฉันตระหนักถึงขั้นตอนเหล่านี้แล้วแต่ละคนก็ทำสิ่งเดียวกันไม่มากก็น้อย และเช่นเดียวกันค่าต่างๆเช่นความแปรปรวนส่วนที่เหลือข้อผิดพลาดมาตรฐานและค่าเฉลี่ยก็วัดสิ่งเดียวกันไม่มากก็น้อย ดังนั้นฉันจึงคิดขั้นตอนและค่านิยมเหล่านี้ทั้งหมดและแน่นอนว่าสถิติทั้งหมดสามารถอธิบายได้ในประโยคเดียวง่ายๆ: ค่าที่คาดหวังคืออะไรและความแปรปรวนรอบค่านี้คืออะไร คำที่คาดว่าจะถูกแทนที่ด้วยคำเหล่านี้ใด ๆ : ตั้งสมมติฐานทำนายหรือกลาง คนอื่นจะอธิบายสถิติในหนึ่งประโยคได้อย่างไร
27 definition 

3
จะบอกความแตกต่างระหว่างตัวแบบการถดถอยเชิงเส้นและแบบไม่เชิงเส้นได้อย่างไร?
ผมอ่านลิงค์ต่อไปนี้ไม่ใช่การถดถอยเชิงเส้นSAS องค์กรไม่เชิงเส้น ความเข้าใจของฉันจากการอ่านส่วนแรก "การถดถอยเชิงเส้นกับการถดถอยเชิงเส้น" คือว่าสมการด้านล่างนี้เป็นจริงแล้วการถดถอยเชิงเส้นนั้นถูกต้องหรือไม่ ถ้าเป็นเช่นนั้นทำไม y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c ฉันต้องเข้าใจด้วยหรือไม่ว่าในการถดถอยเชิงเส้นพหุสัมพันธ์ไม่ใช่ปัญหา? ฉันรู้ว่า multicollinearity สามารถเป็นปัญหาในการถดถอยเชิงเส้นได้ดังนั้นหากโมเดลข้างต้นเป็นจริงแล้วการถดถอยเชิงเส้นจะมีความหลากหลายทางชีวภาพหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.