คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
ฉันควรรันการถดถอยแบบแยกกันสำหรับทุกชุมชนหรือชุมชนสามารถเป็นตัวแปรควบคุมในรูปแบบรวมได้หรือไม่
ฉันใช้โมเดล OLS พร้อมตัวแปรดัชนีสินทรัพย์อย่างต่อเนื่องในฐานะ DV ข้อมูลของฉันถูกรวบรวมจากชุมชนที่คล้ายกันสามแห่งในพื้นที่ใกล้เคียงทางภูมิศาสตร์ใกล้กัน อย่างไรก็ตามเรื่องนี้ฉันคิดว่ามันสำคัญที่จะต้องใช้ชุมชนเป็นตัวแปรควบคุม ชุมชนกลายเป็นสิ่งสำคัญในระดับ 1% (คะแนน t--4.52) ชุมชนเป็นตัวแปรที่ระบุ / หมวดหมู่ที่เข้ารหัสเป็น 1,2,3 สำหรับ 1 ใน 3 ชุมชนที่แตกต่างกัน คำถามของฉันคือถ้าความสำคัญระดับสูงนี้หมายความว่าฉันควรทำการถดถอยในชุมชนทีละรายการแทนที่จะเป็นการรวมตัว มิฉะนั้นการใช้ชุมชนเป็นตัวแปรควบคุมเป็นหลักทำเช่นนั้น?

3
มีห้องสมุดใดบ้างสำหรับวิธีการแบบ CART ที่ใช้ตัวทำนายและการตอบสนองแบบกระจัดกระจาย?
ฉันกำลังทำงานกับชุดข้อมูลขนาดใหญ่บางอย่างโดยใช้แพ็คเกจ gbm ในอาร์ทั้งเมทริกซ์ตัวทำนายของฉันและเวกเตอร์การตอบสนองของฉันค่อนข้างเบาบาง (เช่นรายการส่วนใหญ่เป็นศูนย์) ฉันหวังว่าจะสร้างแผนภูมิการตัดสินใจโดยใช้อัลกอริทึมที่ใช้ประโยชน์จากความกระจัดกระจายตามที่ทำไว้ที่นี่ ) ในบทความดังกล่าวในสถานการณ์ของฉันรายการส่วนใหญ่มีคุณลักษณะที่เป็นไปได้เพียงไม่กี่รายการเท่านั้นดังนั้นพวกเขาจึงสามารถหลีกเลี่ยงการคำนวณจำนวนมากที่สูญเสียไปโดยสมมติว่ารายการของพวกเขาขาดคุณสมบัติที่กำหนดเว้นแต่ข้อมูลจะระบุอย่างชัดเจน ความหวังของฉันคือฉันสามารถเร่งความเร็วที่คล้ายกันโดยใช้อัลกอริทึมแบบนี้ (จากนั้นจึงใส่อัลกอริทึมการเร่งรอบ ๆ มันเพื่อปรับปรุงความแม่นยำในการทำนายของฉัน) เนื่องจากพวกเขาดูเหมือนจะไม่เผยแพร่รหัสของพวกเขาฉันสงสัยว่ามีแพ็คเกจโอเพนซอร์ซหรือไลบรารี (ในภาษาใด ๆ ) ที่ได้รับการปรับให้เหมาะกับกรณีนี้หรือไม่ เป็นการดีที่ฉันต้องการบางอย่างที่Matrixสามารถดึงเมทริกซ์แบบเบาบางได้โดยตรงจากแพ็คเกจของ R แต่ฉันจะทำตามที่ฉันจะได้ ฉันได้ดูไปรอบ ๆ และดูเหมือนว่าสิ่งนี้ควรจะอยู่ที่นั่น: นักเคมีดูเหมือนจะพบปัญหานี้มาก (กระดาษที่ฉันเชื่อมโยงข้างต้นเกี่ยวกับการเรียนรู้ที่จะหาสารประกอบยาใหม่) แต่การใช้งานที่ฉันพบได้นั้นเป็นกรรมสิทธิ์หรือมีความเชี่ยวชาญสูงสำหรับการวิเคราะห์ทางเคมี เป็นไปได้ว่าหนึ่งในนั้นอาจถูกนำมาใช้ซ้ำได้ การจัดหมวดหมู่เอกสารดูเหมือนจะเป็นพื้นที่ที่การเรียนรู้จากการเว้นช่องว่างคุณลักษณะมีประโยชน์ (เอกสารส่วนใหญ่ไม่มีคำมากที่สุด) ตัวอย่างเช่นมีการอ้างอิงแบบเอียงในการใช้งาน C4.5 (อัลกอริทึมคล้าย CART) ในเอกสารนี้แต่ไม่มีรหัส จากรายการส่งจดหมาย WEKA สามารถรับข้อมูลที่กระจัดกระจายได้ แต่ไม่เหมือนกับวิธีการในเอกสารที่ฉันลิงก์ด้านบน WEKA ไม่ได้รับการปรับให้เหมาะสมเพื่อใช้ประโยชน์จากมันจริง ๆ ในแง่ของการหลีกเลี่ยงวงจร CPU ที่สิ้นเปลือง ขอบคุณล่วงหน้า!

2
พลังของการทดสอบการถดถอย F คืออะไร?
การทดสอบ F แบบคลาสสิกสำหรับชุดย่อยของตัวแปรในการถดถอยหลายชั้นมีรูปแบบ ที่SSE(R)คือผลรวมของความคลาดเคลื่อนกำลังสองภายใต้โมเดล 'ลดลง' ซึ่งทำรังอยู่ภายใน 'ใหญ่' รุ่นBและdfคือองศาอิสระของทั้งสองโมเดล ภายใต้สมมติฐานว่างว่าตัวแปรพิเศษในโมเดล 'ใหญ่' ไม่มีกำลังอธิบายเชิงเส้นสถิติจะถูกกระจายเป็น F กับdfR-dfBและdfBองศาอิสระF=(SSE(R)−SSE(B))/(dfR−dfB)SSE(B)/dfB,F=(SSE(R)−SSE(B))/(dfR−dfB)SSE(B)/dfB, F = \frac{(\mbox{SSE}(R) - \mbox{SSE}(B))/(df_R - df_B)}{\mbox{SSE}(B)/df_B}, SSE(R)SSE(R)\mbox{SSE}(R)BBBdfdfdfdfR−dfBdfR−dfBdf_R - df_BdfBdfBdf_B การกระจายตัวคืออะไรภายใต้ทางเลือก ฉันคิดว่ามันไม่ใช่แบบกึ่งกลาง F (ฉันหวังว่าจะไม่ใช่แบบไม่เป็นศูนย์กลางเป็นสองเท่า) แต่ฉันไม่สามารถค้นหาการอ้างอิงใด ๆ ว่าพารามิเตอร์ที่ไม่ใช่ศูนย์กลางคืออะไร ฉันจะคิดว่ามันขึ้นอยู่กับการถดถอยจริงค่าสัมประสิทธิ์และอาจจะเกี่ยวกับการออกแบบเมทริกซ์Xแต่นอกเหนือจากนั้นผมไม่แน่ใจว่าββ\betaXXX

4
เส้นตรงหมายถึงอะไรในการถดถอยเชิงเส้น
ใน R ถ้าฉันเขียน lm(a ~ b + c + b*c) นี่จะเป็นการถดถอยเชิงเส้นหรือไม่? วิธีการถดถอยแบบอื่น ๆ ใน R? ฉันจะขอบคุณคำแนะนำสำหรับหนังสือหรือแบบฝึกหัดใดบ้าง?
11 r  regression 

1
รูตหมายความว่าสแควร์เทียบกับค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย?
ทั้งRoot Mean Squareและค่าเบี่ยงเบนสัมบูรณ์โดยเฉลี่ยดูเหมือนว่าการวัดขนาดของความแปรปรวน (โดยเฉพาะอย่างยิ่งเมื่อตัวแปรเป็นทั้ง + ve และ -ve) กฎของหัวแม่มือที่จะเลือกหนึ่งของพวกเขามากกว่าที่อื่นคืออะไร?

2
ใช้การถดถอยปัวซองสำหรับข้อมูลอย่างต่อเนื่อง?
การแจกแจงปัวซงสามารถใช้ในการวิเคราะห์ข้อมูลแบบต่อเนื่องและข้อมูลแบบแยก ฉันมีชุดข้อมูลสองสามชุดที่ตัวแปรตอบสนองต่อเนื่อง แต่มีลักษณะคล้ายกับการแจกแจงปัวซองแทนการแจกแจงแบบปกติ อย่างไรก็ตามการแจกแจงปัวซงเป็นการกระจายแบบไม่ต่อเนื่องและมักเกี่ยวข้องกับตัวเลขหรือจำนวน

4
จะนำเสนอผลกำไรในรูปแบบต่าง ๆ ที่อธิบายได้อย่างไรเนื่องจากสหสัมพันธ์ของ Y และ X เป็นอย่างไร?
ฉันกำลังค้นหาวิธี (มองเห็น) อธิบายความสัมพันธ์เชิงเส้นอย่างง่ายกับนักเรียนปีแรก วิธีการมองภาพแบบดั้งเดิมคือการให้พล็อตกระจาย Y ~ X ที่มีเส้นถดถอยตรง เมื่อเร็ว ๆ นี้ฉันมาด้วยความคิดที่จะขยายกราฟิกประเภทนี้โดยการเพิ่มพล็อตอีก 3 ภาพทิ้งฉันไว้กับ: พล็อตกระจายของ y ~ 1 จากนั้น y ~ x, ที่เหลือ (y ~ x) ~ x และสุดท้าย ของที่เหลือ (y ~ x) ~ 1 (อยู่กึ่งกลางค่ากลาง) นี่คือตัวอย่างของการสร้างภาพข้อมูล: และรหัส R เพื่อผลิตมัน: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 …

5
การวัดการถดถอยของค่าเฉลี่ยในการกดปุ่มในการวิ่งกลับบ้าน
ทุกคนที่ติดตามเบสบอลมีโอกาสได้ยินเกี่ยวกับการแสดง MVP นอกสมัยของ Jose Bautista ของโตรอนโต ในสี่ปีก่อนหน้านี้เขามีการวิ่งกลับบ้าน 15 ครั้งต่อฤดูกาล ปีที่แล้วเขาตี 54 ได้มีผู้เล่นมากกว่า 12 คนในประวัติศาสตร์เบสบอล ในปี 2010 เขาได้รับเงิน 2.4 ล้านและเขาขอให้ทีม 10.5 ล้านคนในปี 2011 พวกเขาเสนอเงิน 7.6 ล้าน หากเขาสามารถทำซ้ำได้ในปี 2554 เขาจะมีมูลค่าทั้งสองอย่างง่ายดาย แต่โอกาสของเขาคือการทำซ้ำ? เราจะคาดหวังได้ยากแค่ไหนที่เขาจะถดถอย เราคาดหวังว่าการแสดงของเขาจะเกิดขึ้นได้เท่าไหร่เพราะโอกาส? เราคาดหวังได้อย่างไรว่ายอดรวม 2010 ที่ปรับแล้วของเขาการถดถอยจะเป็นอย่างไร ฉันจะทำงานออกมาได้อย่างไร ฉันได้เล่นกับฐานข้อมูลเบสบอล Lahman และบีบเคียวรีที่ส่งคืนผลรวมการวิ่งกลับบ้านสำหรับผู้เล่นทั้งหมดในห้าฤดูกาลก่อนหน้านี้ซึ่งมีค้างคาวอย่างน้อย 50 ตัวต่อฤดูกาล ตารางมีลักษณะเช่นนี้ (สังเกตเห็น Jose Bautista ในแถวที่ 10) first last hr_2006 hr_2007 …
11 r  regression  modeling 

2
หนึ่งพล็อตจะต่อเนื่องโดยการโต้ตอบอย่างต่อเนื่องใน ggplot2 ได้อย่างไร
สมมติว่าฉันมีข้อมูล: x1 <- rnorm(100,2,10) x2 <- rnorm(100,2,10) y <- x1+x2+x1*x2+rnorm(100,1,2) dat <- data.frame(y=y,x1=x1,x2=x2) res <- lm(y~x1*x2,data=dat) summary(res) ฉันต้องการพล็อตแบบต่อเนื่องโดยการโต้ตอบแบบต่อเนื่องเช่นที่ x1 อยู่บนแกน X และ x2 แทนด้วย 3 เส้นเส้นหนึ่งซึ่งแทน x2 ที่ Z-score เป็น 0 หนึ่งที่ Z-+1 ที่ +1 Z-score ที่ -1 โดยแต่ละบรรทัดจะมีสีแยกกันและติดป้ายกำกับ ฉันจะทำสิ่งนี้โดยใช้ ggplot2 ได้อย่างไร ตัวอย่างเช่นอาจมีลักษณะเช่นนี้ (แต่แน่นอนว่ามีเส้นสีต่างกันแทนที่จะเป็นประเภทเส้นต่างกัน):

3
การเปรียบเทียบตัวแบบการถดถอยกับข้อมูลการนับ
ฉันเพิ่งพอดีแบบจำลองการถดถอย 4 แบบสำหรับข้อมูลตัวทำนาย / ตอบกลับเดียวกัน รุ่นที่ฉันพอดีกับการถดถอยของปัวซอง model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...) model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...) แบบจำลองสองแบบที่ฉันพอดีกับการถดถอยแบบทวินาม library(MASS) model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...) model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...) …

4
Lasso fitting โดยการประสานงานโคตร: การใช้งานโอเพนซอร์ส? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว การใช้งานโอเพนซอร์ซอะไร - ในภาษาใด - มีอยู่ที่นั่นที่สามารถคำนวณเส้นทางการทำปฎิบัติการแบบ lasso สำหรับการถดถอยเชิงเส้นโดยการประสานงานโคตร? จนถึงตอนนี้ฉันรู้: glmnet scikits.learn มีอะไรอีกบ้าง?

4
ศาสดาจาก Facebook ต่างจากการถดถอยเชิงเส้นหรือไม่?
ดังนั้นสิ่งที่ฉันได้อ่านเกี่ยวกับผู้เผยพระวจนะของ Facebook ก็คือมันจะแบ่งช่วงเวลาออกเป็นแนวโน้มและฤดูกาล ตัวอย่างเช่นแบบจำลองเพิ่มเติมจะถูกเขียนเป็น: Y( t ) = g( t ) + s ( t ) + h ( t ) + eเสื้อy(t)=g(t)+s(t)+h(t)+et y(t) = g(t) + s(t) + h(t) + e_t กับ เสื้อttเวลา ก.( t )g(t)g(t)แนวโน้ม (อาจเป็นเชิงเส้นหรือโลจิสติก) s ( T )s(t)s(t)ฤดูกาล (รายวันรายสัปดาห์รายปี ... ) h ( t )h(t)h(t)วันหยุด อีเสื้อete_tข้อผิดพลาด …

5
ควรใช้แบบผสมเอฟเฟกต์เมื่อใด?
ตัวแบบผสมผลกระทบเชิงเส้นเป็นส่วนขยายของตัวแบบการถดถอยเชิงเส้นสำหรับข้อมูลที่รวบรวมและสรุปในกลุ่ม ข้อได้เปรียบที่สำคัญคือสัมประสิทธิ์อาจแตกต่างกันไปตามตัวแปรของกลุ่มหนึ่งตัวหรือมากกว่า อย่างไรก็ตามฉันกำลังดิ้นรนกับเวลาที่จะใช้รูปแบบผสมแบบผสม? ฉันจะทำอย่างละเอียดคำถามของฉันโดยใช้ตัวอย่างของเล่นกับกรณีที่รุนแรง สมมติว่าเราต้องการสร้างแบบจำลองความสูงและน้ำหนักสำหรับสัตว์และเราใช้สปีชีส์เป็นตัวแปรในการจัดกลุ่ม หากกลุ่ม / สายพันธุ์ที่แตกต่างกันแตกต่างกันจริงๆ พูดสุนัขและช้าง ฉันคิดว่าไม่มีจุดใช้โมเดลเอฟเฟกต์แบบผสมเราควรสร้างแบบจำลองสำหรับแต่ละกลุ่ม หากกลุ่ม / สปีชีส์ต่างกันมีความคล้ายคลึงกันจริงๆ พูดว่าสุนัขตัวเมียกับหมาตัวผู้ ฉันคิดว่าเราอาจต้องการใช้เพศเป็นตัวแปรเด็ดขาดในโมเดล ดังนั้นฉันคิดว่าเราควรใช้โมเดลเอฟเฟกต์ผสมในกรณีกลาง? บอกเด็ก ๆ ว่ากลุ่มคือแมวสุนัขกระต่ายพวกมันเป็นสัตว์ขนาดใกล้เคียงกัน แต่ต่างกัน มีข้อโต้แย้งอย่างเป็นทางการใด ๆ ที่จะแนะนำเมื่อใช้โมเดลเอฟเฟกต์แบบผสมเช่นวิธีการวาดเส้น แบบจำลองอาคารสำหรับแต่ละกลุ่ม แบบผสมลักษณะพิเศษ ใช้กลุ่มเป็นตัวแปรเด็ดขาดในการถดถอย ความพยายามของฉัน: วิธีที่ 1 เป็น "รูปแบบที่ซับซ้อน" ที่สุด / มีระดับความเป็นอิสระน้อยลงและวิธีที่ 3 คือรูปแบบที่ง่ายที่สุด "/ ระดับที่อิสระมากขึ้น และโมเดลเอฟเฟกต์ผสมอยู่ตรงกลาง เราอาจพิจารณาจำนวนข้อมูลและข้อมูลที่ซับซ้อนที่เราต้องเลือกแบบจำลองที่เหมาะสมตาม Bais Variance Trade Off

3
อะไรคือความแตกต่างระหว่างรูปแบบกำหนดขึ้นและสุ่ม?
โมเดลเชิงเส้นอย่างง่าย: ϵ t N ( 0 , σ 2 )x=αt+ϵtx=αt+ϵtx=\alpha t + \epsilon_tโดยที่ ~ iidϵtϵt\epsilon_tN(0,σ2)N(0,σ2)N(0,\sigma^2) ด้วยและE(x)=αtE(x)=αtE(x) = \alpha tVar(x)=σ2Var(x)=σ2Var(x)=\sigma^2 AR (1): Xt=αXt−1+ϵtXt=αXt−1+ϵtX_t =\alpha X_{t-1} + \epsilon_tโดยที่ ~ iidϵtϵt\epsilon_tN(0,σ2)N(0,σ2)N(0,\sigma^2) ด้วยและE(x)=αtE(x)=αtE(x) = \alpha tVar(x)=tσ2Var(x)=tσ2Var(x)=t\sigma^2 ดังนั้นโมเดลเชิงเส้นอย่างง่ายจึงถือได้ว่าเป็นโมเดลที่กำหนดขึ้นมาในขณะที่โมเดล AR (1) นั้นถือเป็นโมเดลสตาคาห์สติก ตามวิดีโอ Youtube โดย Ben Lambert - Stochastic เทียบกับกำหนดเหตุผลของ AR (1) ที่จะเรียกว่าเป็นแบบจำลองสุ่มเพราะความแปรปรวนของมันเพิ่มขึ้นตามเวลา คุณลักษณะของการแปรปรวนแบบไม่คงที่จะเป็นเกณฑ์ในการพิจารณาสุ่มหรือกำหนดขึ้นหรือไม่? ฉันยังไม่คิดว่าตัวแบบเชิงเส้นอย่างง่ายจะถูกกำหนดโดยสิ้นเชิงเนื่องจากเรามีคำว่าเกี่ยวข้องกับตัวแบบ ดังนั้นเราจึงมักจะมีการสุ่มในxดังนั้นระดับใดที่เราสามารถบอกว่าแบบจำลองนั้นกำหนดขึ้นหรือสุ่ม? …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.