สถิติและข้อมูลขนาดใหญ่ modeling

2

เมื่อพิจารณาจากโมเดลการถดถอยเชิงเส้นสองแบบ

ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องที่วิทยาลัยของฉัน หนึ่งในคำถามหนึ่งคำถามนี้ถูกถาม รุ่น 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon รุ่น 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon รุ่นใดที่เหมาะกับข้อมูลที่ดีกว่า (สมมติว่าข้อมูลสามารถสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้น) คำตอบที่ถูกต้อง (ตามอาจารย์) ก็คือทั้งสองรุ่นจะทำงานได้ดีเท่ากัน อย่างไรก็ตามฉันเชื่อว่ารุ่นแรกจะเหมาะกว่า นี่คือเหตุผลที่อยู่เบื้องหลังคำตอบของฉัน รุ่นที่สองซึ่งสามารถเขียนใหม่เป็น , α = θ + θ 2จะไม่เหมือนกับรุ่นแรก อันที่จริงแล้วαเป็นพาราโบลาและดังนั้นจึงมีค่าต่ำสุด ( - 0.25ในกรณีนี้) ด้วยเหตุนี้ช่วงของθในรุ่นแรกจึงมากกว่าช่วงของαในรุ่นที่สอง ดังนั้นหากข้อมูลเป็นเช่นนั้นแบบที่ดีที่สุดมีความชันน้อยกว่า- 0.25โมเดลที่สองจะทำงานได้ไม่ดีมากเมื่อเทียบกับรุ่นแรก อย่างไรก็ตามในกรณีที่ความลาดเอียงของแบบที่ดีที่สุดมากกว่าαx+ϵαx+ϵ \alpha x + \epsilon …

14 regression machine-learning self-study modeling model

3

แนวคิดเบื้องหลังโมเดลเอฟเฟกต์แบบคงที่ / แบบสุ่ม

ใครสามารถช่วยฉันเข้าใจโมเดลเอฟเฟกต์แบบสุ่มและแบบคงที่ได้หรือไม่? คุณอาจอธิบายด้วยวิธีของคุณเองหากคุณได้แยกย่อยแนวคิดเหล่านี้หรือนำฉันไปยังแหล่งข้อมูล (หนังสือโน้ตเว็บไซต์) ด้วยที่อยู่เฉพาะ (หมายเลขหน้าบทที่ ฯลฯ ) เพื่อให้ฉันสามารถเรียนรู้ได้โดยไม่มีความสับสน นี่เป็นความจริงหรือไม่: "เรามีผลกระทบคงที่โดยทั่วไปและผลกระทบแบบสุ่มเป็นกรณีเฉพาะ" โดยเฉพาะอย่างยิ่งฉันจะขอบคุณเป็นอย่างยิ่งที่จะได้รับความช่วยเหลือเมื่อคำอธิบายเปลี่ยนไปจากรุ่นทั่วไปไปยังรุ่นที่เฉพาะเจาะจงที่มีเอฟเฟกต์แบบคงที่และแบบสุ่ม

14 mixed-model modeling random-effects-model fixed-effects-model

1

อัตราส่วนในการถดถอยหรือที่เรียกว่าคำถามเกี่ยวกับ Kronmal

เมื่อเร็ว ๆ นี้คำถามการสืบค้นแบบสุ่มทำให้เกิดความทรงจำเกี่ยวกับความเห็นนอกมือจากอาจารย์คนหนึ่งของฉันเมื่อสองสามปีก่อนเตือนเกี่ยวกับการใช้อัตราส่วนในแบบจำลองการถดถอย ดังนั้นฉันจึงเริ่มอ่านสิ่งนี้นำไปสู่ Kronmal 1993 ในที่สุด ฉันต้องการตรวจสอบให้แน่ใจว่าฉันตีความคำแนะนำของเขาเกี่ยวกับวิธีการสร้างแบบจำลองเหล่านี้อย่างถูกต้อง สำหรับโมเดลที่มีอัตราส่วนซึ่งมีตัวหารเดียวกันทั้งในส่วนที่ขึ้นกับและอิสระ: Z- 1Y= Z- 11nβ0+ Z- 1XβX+ βZ+ Z- 1εZ-1Y=Z-11nβ0+Z-1XβX+βZ+Z-1ε Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon ถอยหลังอัตราส่วนที่พึ่งพาในตัวแปรตัวหาร (ผกผัน) นอกเหนือจากอัตราส่วนอื่น ๆ น้ำหนักโดยตัวแปรตัวหาร (ผกผัน) สำหรับโมเดลที่มีตัวแปรตามเป็นอัตราส่วน: Y= β0+ βXX+ Z1nα0+ ZXαX+ Z- 1εY=β0+βXX+Z1nα0+ZXαX+Z-1ε Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X …

14 regression modeling interaction weighted-regression ratio

2

ตัวแบบสำหรับการประมาณความหนาแน่นของประชากร

ฐานข้อมูลของ (ประชากรพื้นที่รูปร่าง) สามารถใช้ในการทำแผนที่ความหนาแน่นของประชากรโดยกำหนดค่าคงที่ของประชากร / พื้นที่ให้กับแต่ละรูปร่าง อย่างไรก็ตามประชากรมักไม่กระจายอย่างสม่ำเสมอภายในรูปหลายเหลี่ยม การทำแผนที่ Dasymetricเป็นกระบวนการของการปรับการประเมินความหนาแน่นเหล่านี้โดยใช้ข้อมูลเสริม มันเป็นปัญหาที่สำคัญในสังคมศาสตร์ตามที่รีวิวล่าสุดระบุ สมมติว่าเรามีแผนที่เสริมของที่ดินปกคลุม (หรือปัจจัยอื่นใดที่ไม่ต่อเนื่อง) ในกรณีที่ง่ายที่สุดเราสามารถใช้พื้นที่ที่ไม่สามารถอยู่อาศัยได้อย่างเห็นได้ชัดเช่นแหล่งน้ำเพื่อแยกแยะว่าประชากรไม่ได้อยู่ที่ใดและกำหนดประชากรทั้งหมดให้กับพื้นที่ที่เหลือ โดยทั่วไปแต่ละหน่วยสำรวจสำมะโนประชากรของจะแกะสลักเป็นkส่วนมีพื้นที่ผิวx J ฉัน , ฉัน= 1 , 2 , ... , k ชุดข้อมูลของเราจะถูกเพิ่มเข้าไปในรายการของ tuplesJjjkkkxJ ฉันxjix_{ji}i = 1 , 2 , … , ki=1,2,…,ki = 1, 2, \ldots, k ( yJ, xj 1, xj 2, … , xj k)(yj,xj1,xj2,…,xjk)(y_{j}, …

14 modeling unbiased-estimator spatial

2

อธิบายการปรับโมเดลในภาษาอังกฤษแบบธรรมดา

การอ่านเกี่ยวกับวิธีการและผลลัพธ์ของการวิเคราะห์ทางสถิติโดยเฉพาะอย่างยิ่งในด้านระบาดวิทยาฉันมักได้ยินเกี่ยวกับการปรับหรือควบคุมโมเดล คุณจะอธิบายเกี่ยวกับจุดประสงค์ของสิ่งที่ไม่ใช่นักสถิติได้อย่างไร? คุณตีความผลลัพธ์ของคุณหลังจากควบคุมตัวแปรบางตัวได้อย่างไร การเดินผ่านเล็ก ๆ ใน Stata หรือ R หรือตัวชี้ไปยังหนึ่งออนไลน์จะเป็นอัญมณีที่แท้จริง

14 regression modeling epidemiology

3

การแทนที่ตัวแปรด้วย WoE (น้ำหนักของหลักฐาน) ใน Logistic Regression

นี่เป็นคำถามเกี่ยวกับการฝึกฝนหรือวิธีการตามด้วยเพื่อนร่วมงานของฉัน ในขณะที่ทำแบบจำลองการถดถอยโลจิสติกฉันได้เห็นผู้คนแทนที่ตัวแปรเด็ดขาด (หรือตัวแปรต่อเนื่องซึ่งถูก binned) ด้วยน้ำหนักของหลักฐาน (WoE) นี้จะกระทำเพื่อที่จะสร้างความต่อเนื่องสัมพันธ์ระหว่าง regressor และตัวแปรตาม เท่าที่ฉันเข้าใจเมื่อสร้างแบบจำลองแล้วตัวแปรในสมการไม่ใช่ตัวแปรในชุดข้อมูล แต่ตัวแปรในสมการนั้นเป็นความสำคัญหรือน้ำหนักของตัวแปรในการแยกตัวแปรตาม ! คำถามของฉันคือตอนนี้เราจะตีความรูปแบบหรือค่าสัมประสิทธิ์แบบจำลองได้อย่างไร ตัวอย่างเช่นสำหรับสมการต่อไปนี้: log(p1−p)=β0+β1x1log⁡(p1−p)=β0+β1x1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 เราสามารถพูดได้ว่า เป็นเพิ่มขึ้นเมื่อเทียบกับในอัตราส่วนที่แปลกสำหรับ 1 เพิ่มขึ้นหน่วยในตัวแปร x_1x 1exp(β1)exp⁡(β1)\exp(\beta_1) x1x1x_1 แต่ถ้าตัวแปรถูกแทนที่ด้วย WoE แล้วการตีความจะถูกเปลี่ยนเป็น: การเพิ่มขึ้นของอัตราส่วนคี่สำหรับการเพิ่ม 1 หน่วยในความสำคัญ / น้ำหนักของตัวแปร ฉันได้เห็นการฝึกฝนนี้ในอินเทอร์เน็ต แต่ไม่มีที่ไหนที่ฉันพบคำตอบของคำถามนี้ ลิงก์นี้จากชุมชนนี้เองเกี่ยวข้องกับข้อความค้นหาที่คล้ายกันซึ่งมีคนเขียนไว้: WoE แสดงความสัมพันธ์เชิงเส้นกับลอการิทึมธรรมชาติของอัตราต่อรองซึ่งเป็นตัวแปรตามในการถดถอยโลจิสติก ดังนั้นคำถามของการสะกดผิดแบบไม่ได้เกิดขึ้นในการถดถอยโลจิสติกเมื่อเราใช้ WoE แทนค่าจริงของตัวแปร แต่ฉันก็ยังไม่ได้คำอธิบาย โปรดช่วยฉันเข้าใจสิ่งที่ฉันหายไป

14 regression logistic categorical-data modeling

2

การทำนาย 'เกณฑ์ทอง' เพื่อตัดสินความสามารถของนักสถิติหรือไม่?

ฉันอ่านโมเดลเชิงเส้นตำราเรียนของ Faraway ที่มี R (รุ่นที่ 1) เมื่อสุดสัปดาห์ที่แล้ว Faraway มีบทที่เรียกว่า "กลยุทธ์เชิงสถิติและความไม่แน่นอนของแบบจำลอง" เขาอธิบาย (หน้า 158) ว่าเขาสร้างข้อมูลปลอมโดยใช้แบบจำลองที่ซับซ้อนมากจากนั้นเขาขอให้นักเรียนทำแบบจำลองข้อมูลและเปรียบเทียบผลลัพธ์ที่ทำนายของนักเรียนเทียบกับผลการอ่าน น่าเสียดายที่นักเรียนส่วนใหญ่ติดตั้งข้อมูลการทดสอบมากเกินไปและให้ค่าที่ทำนายไว้ทั้งหมด เพื่ออธิบายปรากฏการณ์นี้เขาเขียนสิ่งที่น่าประทับใจสำหรับฉัน: "เหตุผลที่แบบจำลองแตกต่างกันมากคือนักเรียนใช้วิธีการต่าง ๆ ตามลำดับที่แตกต่างกันบางคนเลือกการเปลี่ยนแปลงก่อนที่จะเปลี่ยนรูปแบบและวิธีอื่น ๆ ตรงกันข้ามบางวิธีทำซ้ำหลังจากเปลี่ยนรูปแบบและคนอื่นไม่ได้ นักเรียนหลายคนใช้และไม่พบสิ่งผิดปกติอย่างชัดเจนกับสิ่งที่พวกเขาทำนักเรียนคนหนึ่งทำผิดในการคำนวณค่าของเขาหรือเธอ แต่ก็ไม่มีอะไรผิดปกติในส่วนที่เหลือประสิทธิภาพของงานมอบหมายนี้ไม่ได้แสดงให้เห็น ความสัมพันธ์ใด ๆ กับสิ่งนั้นในการสอบ " ฉันได้รับการศึกษาว่าความแม่นยำในการทำนายแบบจำลองนั้นเป็น 'เกณฑ์ทองคำ' สำหรับเราในการเลือกประสิทธิภาพของแบบจำลองที่ดีที่สุด ถ้าฉันไม่เข้าใจผิดนี่เป็นวิธียอดนิยมที่ใช้ในการแข่งขัน Kaggle แต่ที่นี่ Faraway ได้สังเกตเห็นบางอย่างของธรรมชาติที่แตกต่างกันซึ่งการทำนายแบบจำลองนั้นไม่สามารถทำได้ด้วยความสามารถของนักสถิติที่เกี่ยวข้อง กล่าวอีกนัยหนึ่งว่าเราสามารถสร้างแบบจำลองที่ดีที่สุดในแง่ของพลังการทำนายได้หรือไม่นั้นไม่ได้ตัดสินจากประสบการณ์ของเรา แต่จะถูกกำหนดโดย 'ความไม่แน่นอนของโมเดล' (โชคไม่ดี?) คำถามของฉันคือ: สิ่งนี้เป็นจริงในการวิเคราะห์ข้อมูลในชีวิตจริงเช่นกัน? หรือฉันสับสนกับสิ่งที่พื้นฐานมาก ๆ เพราะถ้าสิ่งนี้เป็นจริงแล้วความหมายของการวิเคราะห์ข้อมูลจริงนั้นยิ่งใหญ่: โดยไม่ทราบว่า "แบบจำลองของจริง" ที่อยู่เบื้องหลังข้อมูลนั้นไม่มีความแตกต่างที่สำคัญระหว่างงานที่ทำโดยนักสถิติที่มีประสบการณ์ / ไม่มีประสบการณ์: ทั้งคู่ …

13 predictive-models modeling interpretation

1

พารามิเตอร์เทียบกับตัวแปรแฝง

ฉันเคยถามเรื่องนี้มาก่อนและพยายามดิ้นรนกับการระบุสิ่งที่ทำให้พารามิเตอร์โมเดลและสิ่งที่ทำให้มันเป็นตัวแปรแฝง ดังนั้นเมื่อดูที่หัวข้อต่างๆในหัวข้อนี้ในเว็บไซต์นี้ความแตกต่างหลัก ๆ น่าจะเป็น: ตัวแปรแฝงไม่ได้ถูกสังเกต แต่มีการแจกแจงความน่าจะเป็นที่เกี่ยวข้องกับมันเนื่องจากมันเป็นตัวแปรและพารามิเตอร์ก็ไม่ได้ถูกสังเกตและไม่มีการแจกแจงที่เกี่ยวข้องกับพวกมันซึ่งฉันเข้าใจว่ามันเป็นค่าคงที่และมีค่าคงที่ หา. นอกจากนี้เราสามารถใส่ค่าพารามิเตอร์ให้กับตัวแทนเพื่อแสดงถึงความไม่แน่นอนของเราเกี่ยวกับพารามิเตอร์เหล่านี้แม้ว่าจะมีค่าจริงเพียงค่าเดียวที่เกี่ยวข้องกับพวกเขาหรืออย่างน้อยนั่นคือสิ่งที่เราคิด ฉันหวังว่าฉันถูกต้องจนถึงตอนนี้? ตอนนี้ฉันได้ดูตัวอย่างนี้สำหรับการถดถอยเชิงเส้นแบบเบย์แบบถ่วงน้ำหนักจากวารสารและพยายามดิ้นรนจริงๆที่จะเข้าใจว่าอะไรคือพารามิเตอร์และตัวแปรคืออะไร: yi=βTxi+ϵyiyi=βTxi+ϵyi y_i = \beta^T x_i + \epsilon_{y_i} ที่นี่และyถูกสังเกต แต่yเท่านั้นที่ถือว่าเป็นตัวแปรเช่นมีการกระจายที่เกี่ยวข้องกับมันxxxyyyyyy ตอนนี้สมมติฐานการสร้างแบบจำลองคือ: y∼N(βTxi,σ2/wi)y∼N(βTxi,σ2/wi) y \sim N(\beta^Tx_i, \sigma^2/w_i) ดังนั้นความแปรปรวนของจึงถูกถ่วงน้ำหนักyyy นอกจากนี้ยังมีการแจกแจงก่อนหน้าในและwซึ่งเป็นการแจกแจงแบบปกติและแกมมาตามลำดับ ββ\betawww ดังนั้นโอกาสในการบันทึกอย่างสมบูรณ์จะได้รับจาก: logp(y,w,β|x)=ΣlogP(yi|w,β,xi)+logP(β)+ΣlogP(wi)log⁡p(y,w,β|x)=Σlog⁡P(yi|w,β,xi)+log⁡P(β)+Σlog⁡P(wi) \log p(y, w, \beta |x) = \Sigma \log P(y_i|w, \beta, x_i) + \log P(\beta) + \Sigma \log P(w_i) ตอนนี้ฉันเข้าใจแล้วทั้งและwคือพารามิเตอร์ของแบบจำลอง อย่างไรก็ตามในเอกสารพวกเขาอ้างถึงพวกเขาเป็นตัวแปรแฝง …

13 bayesian modeling random-variable latent-variable

1

ข้อผิดพลาดการบวกหรือข้อผิดพลาดการคูณ?

ฉันค่อนข้างใหม่กับสถิติและขอขอบคุณที่ช่วยให้เข้าใจสิ่งนี้ดีขึ้น ในสาขาของฉันมีรูปแบบที่ใช้กันทั่วไปของแบบฟอร์มคือ: Pt=Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha เมื่อคนทำโมเดลให้พอดีกับข้อมูลพวกเขามักทำตัวเป็นเส้นตรงและพอดีกับสิ่งต่อไปนี้ log(Pt)=log(Po)+αlog(Vt)+ϵlog⁡(Pt)=log⁡(Po)+αlog⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon ตกลงไหม ฉันอ่านบางที่เพราะสัญญาณรบกวนในรูปแบบที่แท้จริงควรจะเป็น Pt=Po(Vt)α+ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon และสิ่งนี้ไม่สามารถทำให้เป็นเชิงเส้นได้ตามที่กล่าวมา มันเป็นเรื่องจริงเหรอ? ถ้ามีใครรู้การอ้างอิงที่ฉันสามารถอ่านและเรียนรู้เพิ่มเติมเกี่ยวกับมันและอาจอ้างอิงในรายงาน?

13 modeling model error curve-fitting measurement-error

1

AIC / BIC: การเปลี่ยนลำดับของพารามิเตอร์จะมีจำนวนเท่าใด?

สมมติว่าฉันมีปัญหาในการเลือกรุ่นและฉันพยายามใช้AICหรือBICเพื่อประเมินโมเดล ตรงไปตรงมาสำหรับรุ่นที่มีบางส่วนจำนวนของพารามิเตอร์ค่าจริงkkk อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าหนึ่งในโมเดลของเรา (ตัวอย่างเช่นโมเดล Mallows ) มีการเปลี่ยนแปลงรวมถึงพารามิเตอร์ที่มีมูลค่าจริงแทนที่จะเป็นพารามิเตอร์ที่มีมูลค่าจริง ผมยังสามารถเพิ่มความเป็นไปได้มากกว่าพารามิเตอร์แบบเช่นการได้รับการเปลี่ยนแปลงและพารามิเตอร์พี แต่วิธีการที่หลายพารามิเตอร์ไม่πนับรวมในการคำนวณ AIC / BIC?ππ\piพีppππ\pi

13 modeling maximum-likelihood aic fitting bic

1

เทคนิคการวิเคราะห์อัตราส่วน

ฉันกำลังมองหาคำแนะนำและความคิดเห็นที่เกี่ยวข้องกับการวิเคราะห์อัตราส่วนและอัตรา ในสาขาที่ฉันทำงานวิเคราะห์อัตราส่วนโดยเฉพาะอย่างยิ่งเป็นที่แพร่หลาย แต่ฉันได้อ่านเอกสารสองสามฉบับที่แนะนำว่านี่อาจเป็นปัญหาได้ฉันกำลังคิดถึง: Kronmal, Richard A. 1993. ความสัมพันธ์ปลอมและการเข้าใจผิดของมาตรฐานอัตราส่วนที่มาเยือน วารสารสมาคมสถิติราชวงศ์ A 156 (3): 379-392 และเอกสารที่เกี่ยวข้อง จากสิ่งที่ฉันได้อ่านจนถึงขณะนี้ก็ดูเหมือนว่าอัตราส่วนสามารถสร้างความสัมพันธ์ปลอมเส้นแรงถดถอยผ่านต้นกำเนิด (ซึ่งเป็นสิ่งที่ไม่เหมาะสมเสมอ) และการสร้างแบบจำลองพวกเขาอาจละเมิดหลักการของขอบเขตหากไม่ได้ทำอย่างถูกต้อง ( ใช้อัตราส่วนในการถดถอยโดยริชาร์ดโกลด์สไตน์ ) อย่างไรก็ตามจะต้องมีโอกาสเมื่อการใช้อัตราส่วนเป็นธรรมและฉันต้องการความคิดเห็นจากนักสถิติในหัวข้อนี้

13 modeling multiple-regression generalized-linear-model interaction confounding

2

ภาวะแทรกซ้อนของการมีตัวอย่างขนาดเล็กมากในตัวแบบสมการโครงสร้าง

ฉันกำลังใช้โมเดลสมการโครงสร้าง (SEM) ใน Amos 18 ฉันกำลังมองหาผู้เข้าร่วม 100 คนสำหรับการทดสอบของฉัน (ใช้แบบหลวม ๆ ) ซึ่งถือว่าไม่น่าจะเพียงพอที่จะจัดการ SEM ที่ประสบความสำเร็จ ฉันได้รับการบอกซ้ำ ๆ ว่า SEM (พร้อมด้วย EFA, CFA) เป็นกระบวนการทางสถิติ "ตัวอย่างขนาดใหญ่" เรื่องสั้นสั้นฉันไม่ได้ทำให้ผู้เข้าร่วม 100 คน (น่าแปลกใจ!) และมีเพียง 42 หลังจากไม่รวมจุดข้อมูลที่มีปัญหาสองจุด ฉันก็ลองแบบจำลองต่อไปและด้วยความประหลาดใจของฉันมันก็ดูเหมือนจะเข้ากันได้ดีมาก! CFI> .95, RMSEA <.09, SRMR <.08 ตัวแบบไม่ง่ายจริง ๆ แล้วฉันจะบอกว่ามันค่อนข้างซับซ้อน ฉันมีตัวแปรแฝงอยู่สองตัวตัวหนึ่งมีสองตัวแปรที่สังเกตได้และอีก 5 ตัวแปรที่สังเกตได้ ฉันมีตัวแปรที่สังเกตเพิ่มเติมอีกสี่ตัวในโมเดล มีความสัมพันธ์มากมายระหว่างตัวแปรทางอ้อมและทางตรงโดยมีตัวแปรบางตัวที่อยู่ภายนอกถึงสี่คนเป็นตัวอย่าง ฉันค่อนข้างใหม่สำหรับ SEM; อย่างไรก็ตามบุคคลสองคนที่ฉันรู้ว่าคุ้นเคยกับ SEM บอกฉันว่าตราบใดที่การบ่งบอกความเหมาะสมนั้นดีผลกระทบนั้นสามารถตีความได้ …

13 modeling sample-size bootstrap sem

1

LARS เทียบกับโคตรของโคตร

ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

5

เมื่อใดที่จะใช้หลายรุ่นสำหรับการทำนาย?

นี่เป็นคำถามที่ค่อนข้างทั่วไป: ฉันมักจะพบว่าการใช้แบบจำลองที่แตกต่างกันหลายแบบมีประสิทธิภาพสูงกว่าแบบจำลองเดียวเมื่อพยายามทำนายอนุกรมเวลาจากตัวอย่าง มีเอกสารที่ดีที่แสดงให้เห็นว่าการรวมกันของแบบจำลองจะดีกว่าแบบจำลองเดียวหรือไม่? มีวิธีปฏิบัติที่ดีที่สุดในการรวมหลายรุ่นหรือไม่ อ้างอิงบางส่วน: Hui Zoua, Yuhong Yang "การรวมตัวแบบอนุกรมเวลาสำหรับการพยากรณ์" International Journal of Forecasting 20 (2004) 69–84

13 time-series modeling model-comparison

1

แพคเกจ GBM กับ Caret ใช้ GBM

ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

คำถามติดแท็ก modeling