คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
เกณฑ์สำหรับการเลือกโมเดล“ ดีที่สุด” ในโมเดลมาร์คอฟที่ซ่อนอยู่
ฉันมีชุดข้อมูลอนุกรมเวลาที่ฉันพยายามจัดวางแบบซ่อนมาร์คอฟ (HMM) เพื่อประเมินจำนวนสถานะแฝงในข้อมูล รหัสหลอกของฉันสำหรับทำสิ่งนี้มีดังต่อไปนี้: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } ตอนนี้ในรูปแบบการถดถอยปกติ BIC มีแนวโน้มที่จะชอบรูปแบบที่น่าสังเวชมากที่สุด แต่ในกรณีของ HMM ฉันไม่แน่ใจว่ามันคือสิ่งที่ทำ มีใครบ้างที่ทราบว่าเกณฑ์ BIC ของ HMM ประเภทใดมีแนวโน้มเป็นจริง? ฉันยังสามารถได้รับ AIC และค่าความน่าจะเป็นเช่นกัน เนื่องจากฉันพยายามที่จะอนุมานจำนวนจริงของรัฐเป็นหนึ่งในเกณฑ์เหล่านี้ "ดีกว่า" เพื่ออื่น ๆ สำหรับวัตถุประสงค์นี้หรือไม่

2
ความสัมพันธ์และความแตกต่างระหว่างอนุกรมเวลาและการถดถอย
อะไรคือความสัมพันธ์และความแตกต่างระหว่างอนุกรมเวลาและการถดถอย สำหรับแบบจำลองและสมมติฐานมันถูกต้องหรือไม่ที่แบบจำลองการถดถอยถือว่าเป็นอิสระระหว่างตัวแปรเอาต์พุตสำหรับค่าต่าง ๆ ของตัวแปรอินพุตในขณะที่โมเดลอนุกรมเวลาไม่ ความแตกต่างอื่น ๆ คืออะไร? สำหรับวิธีการจากเว็บไซต์โดย Darlington มีวิธีการวิเคราะห์อนุกรมเวลาหลายวิธี แต่วิธีที่สองที่รู้จักกันดีคือวิธีการถดถอยและวิธี Box-Jenkins (1976) หรือ ARIMA (AutoRegressive Integrated Moving Average) เอกสารนี้แนะนำวิธีการถดถอย ฉันพิจารณาวิธีการถดถอยที่เหนือกว่า ARIMA อย่างมากด้วยเหตุผลสามประการ ฉันไม่เข้าใจว่า "วิธีการถดถอย" สำหรับอนุกรมเวลาอยู่บนเว็บไซต์อย่างไรและมันแตกต่างจากวิธี Box-Jenkins หรือวิธี ARIMA อย่างไร ฉันขอขอบคุณถ้ามีคนให้ข้อมูลเชิงลึกกับคำถามเหล่านั้น ขอบคุณและขอแสดงความนับถือ!

1
การทดสอบความแตกต่างบางอย่าง: นี่เป็นปัญหาที่ยากหรือไม่?
ฉันโพสต์สิ่งนี้ใน mathoverflow และไม่มีใครตอบ: วิธีการของSchefféสำหรับการระบุความแตกต่างอย่างมีนัยสำคัญทางสถิติเป็นที่รู้จักกันอย่างกว้างขวาง ความคมชัดในหมู่หมายถึง ,ของประชากรเป็นเชิงเส้นรวมกันที่ , และเซนต์คิตส์และเนวิสของความคมชัดเป็นหลักความคมชัดเดียวกันดังนั้นใครจะบอกว่าชุดของความแตกต่างเป็นพื้นที่โปรเจค วิธีการของSchefféทดสอบสมมติฐานที่บอกว่าทุกความแตกต่างในหมู่เหล่านี้ประชากรเป็นและกำหนดระดับนัยสำคัญปฏิเสธสมมติฐานที่มีความน่าจะเป็นฉัน= 1 , ... , R R Σ R ฉัน= 1คฉันμ ฉันΣ r ฉัน= 1คฉัน = 0 R 0 อัลฟ่าอัลฟ่า0μผมμi\mu_ii = 1 , … , ri=1,…,ri=1,\ldots,rRrrΣRi = 1คผมμผม∑i=1rciμi\sum_{i=1}^r c_i \mu_iΣRi = 1คผม= 0∑i=1rci=0\sum_{i=1}^r c_i=0Rrr000αα\alphaαα\alphaเนื่องจากสมมติฐานว่างเป็นจริง และหากสมมติฐานว่างถูกปฏิเสธSchefféชี้ให้เห็นว่าการทดสอบของเขาบอกเราว่าข้อแตกต่างอย่างมีนัยสำคัญแตกต่างจาก (ฉันไม่แน่ใจว่าบทความ Wikipedia ที่ฉันเชื่อมโยงกับจุดนั้น)000 ฉันต้องการทราบว่าสามารถทำสิ่งที่คล้ายกันในสถานการณ์ที่แตกต่างกันได้หรือไม่ พิจารณาเชิงเส้นอย่างง่ายรูปแบบการถดถอยที่ , nε …

2
ความแตกต่างในค่า p รายงานระหว่าง lm และ aov ใน R
อะไรอธิบายถึงความแตกต่างของค่า p ในค่าต่อไปนี้aovและการlmโทร? ความแตกต่างนั้นเกิดจากการคำนวณผลรวมจำนวนสแควร์ประเภทต่างๆหรือไม่ set.seed(10) data=rnorm(12) f1=rep(c(1,2),6) f2=c(rep(1,6),rep(2,6)) summary(aov(data~f1*f2)) summary(lm(data~f1*f2))$coeff

3
การทำนายข้อมูลนับด้วยฟอเรสต์แบบสุ่ม
ป่าสุ่มสามารถถูกฝึกให้ทำนายข้อมูลนับได้อย่างเหมาะสมหรือไม่? สิ่งนี้จะดำเนินการอย่างไร ฉันมีค่าค่อนข้างหลากหลายดังนั้นการจัดหมวดหมู่จึงไม่สมเหตุสมผล ถ้าฉันจะใช้การถดถอยฉันจะตัดทอนผลลัพธ์หรือไม่? ฉันหลงทางไปแล้ว ความคิดใด ๆ

3
สหสัมพันธ์หรือสัมประสิทธิ์การตัดสินใจเกี่ยวข้องกับเปอร์เซ็นต์ของค่าที่ตกไปตามเส้นการถดถอยหรือไม่?
สหสัมพันธ์, , เป็นการวัดความสัมพันธ์เชิงเส้นระหว่างสองตัวแปร ค่าสัมประสิทธิ์ของการตัดสินใจเป็นการวัดความแปรปรวนในตัวแปรหนึ่งที่สามารถอธิบาย "การเปลี่ยนแปลง" ในอีกตัวแปรหนึ่งrrrr2r2r^2 ตัวอย่างเช่นถ้าความสัมพันธ์ระหว่างสองตัวแปรแล้ว0.64 ดังนั้น 64% ของความแปรปรวนในหนึ่งสามารถอธิบายได้ด้วยความแตกต่างในอีก ขวา?r 2 = 0.64r=0.8r=0.8r = 0.8r2=0.64r2=0.64r^2 = 0.64 คำถามของฉันสำหรับตัวอย่างที่ระบุไว้ข้อความใดข้อความหนึ่งต่อไปนี้ถูกต้อง? 64% ของค่าอยู่ในแนวเส้นถดถอย 80% ของค่าอยู่ในแนวเส้นถดถอย

1
การถดถอยเชิงเส้นพร้อมมาตรการซ้ำใน R
ฉันไม่สามารถหาวิธีการถดถอยเชิงเส้นใน R ในการออกแบบการวัดซ้ำ ในคำถามก่อนหน้านี้ (ยังไม่ได้ตอบ) แนะนำให้ฉันไม่ใช้lmแต่ควรใช้โมเดลผสม ฉันใช้lmวิธีต่อไปนี้: lm.velocity_vs_Velocity_response <- lm(Velocity_response~Velocity*Subject, data=mydata) (รายละเอียดเพิ่มเติมเกี่ยวกับชุดข้อมูลสามารถดูได้ที่ลิงค์ด้านบน) อย่างไรก็ตามฉันไม่สามารถค้นหาบนอินเทอร์เน็ตตัวอย่างด้วยรหัส R ที่แสดงวิธีการวิเคราะห์การถดถอยเชิงเส้น สิ่งที่ฉันต้องการก็คือพล็อตของข้อมูลที่มีเส้นที่พอดีกับข้อมูลและในทางกลับกันค่าพร้อมกับค่า p สำหรับการทดสอบความสำคัญสำหรับแบบจำลองR2R2R^2 มีใครบ้างที่สามารถให้คำแนะนำได้บ้าง ตัวอย่างรหัส R สามารถช่วยได้มาก แก้ไข ตามคำแนะนำที่ฉันได้รับจนถึงขณะนี้โซลูชันของฉันในการวิเคราะห์ข้อมูลของฉันเพื่อที่จะเข้าใจว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรสองตัว Velocity_response (ที่ได้จากแบบสอบถาม) และ Velocity (ที่ได้มาจากประสิทธิภาพ) ควรเป็นดังนี้: library(nlme) summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) ผลลัพธ์ของการสรุปให้สิ่งนี้: > summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) Linear mixed-effects model fit by …

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
คุณจะเลือกตัวแปรในตัวแบบการถดถอยได้อย่างไร?
วิธีการดั้งเดิมในการเลือกตัวแปรคือการค้นหาตัวแปรที่มีส่วนร่วมมากที่สุดในการทำนายการตอบสนองใหม่ เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ทางเลือกนี้ ในการสร้างแบบจำลองตัวแปรที่กำหนดผลกระทบของการรักษา - ตัวอย่างเช่นในการทดลองทางคลินิกของยา - ตัวแปรถูกกล่าวถึงว่ามีปฏิสัมพันธ์ในเชิงคุณภาพกับการรักษาถ้าปล่อยให้สิ่งอื่นคงที่การเปลี่ยนแปลงในตัวแปรนั้นสามารถสร้างการเปลี่ยนแปลงที่การรักษามีประสิทธิภาพมากที่สุด ตัวแปรเหล่านี้ไม่ได้เป็นตัวทำนายผลที่แข็งแกร่งเสมอไป แต่อาจมีความสำคัญสำหรับแพทย์เมื่อตัดสินใจเลือกการรักษาสำหรับผู้ป่วยแต่ละราย ในวิทยานิพนธ์ปริญญาเอกของเธอ Lacey Gunter พัฒนาวิธีการเลือกตัวแปรการโต้ตอบเชิงคุณภาพที่อาจพลาดโดยอัลกอริธึมที่เลือกการทำนาย เมื่อเร็ว ๆ นี้ฉันได้ทำงานกับเธอในการขยายวิธีการเหล่านี้ไปยังรุ่นอื่น ๆ รวมถึงการถดถอยโลจิสติกและโมเดลการถดถอยอันตรายตามสัดส่วนของ Cox ฉันมีสองคำถาม: คุณคิดอย่างไรเกี่ยวกับคุณค่าของวิธีการใหม่เหล่านี้ ในกรณีของวิธีการแบบดั้งเดิมคุณชอบวิธีการแบบไหน? เกณฑ์เช่น AIC, BIC, Mallows Cp, F สำหรับการทดสอบการป้อนหรือการลดตัวแปรในแบบขั้นตอนไปข้างหน้าและข้างหลัง ... บทความแรกในเรื่องนี้ออกมาใน Gunter, L. , Zhu, J และ Murphy, SA (2009) เลือกตัวแปรสำหรับการปฏิสัมพันธ์เชิงคุณภาพ ระเบียบวิธีทางสถิติ ดอย: 10, 1016 / j.stamet.2009.05.003 บทความต่อไปปรากฏใน …

2
การวิเคราะห์ค่าสัมประสิทธิ์การถดถอยโลจิสติก
นี่คือรายการของค่าสัมประสิทธิ์การถดถอยโลจิสติก (อันแรกคือการสกัดกั้น) -1059.61966694592 -1.23890500515482 -8.57185269220438 -7.50413155570413 0 1.03152408392552 1.19874787949191 -4.88083274930613 -5.77172565873336 -1.00610998453393 ฉันพบว่ามันแปลกที่การสกัดกั้นต่ำมากและฉันมีสัมประสิทธิ์ที่เท่ากับ 0 จริง ๆ แล้วฉันไม่แน่ใจว่าฉันจะตีความสิ่งนี้ได้อย่างไร 0 บ่งชี้ว่าตัวแปรที่ระบุไม่มีผลกับโมเดลเลยหรือไม่? แต่การสกัดกั้นที่เกิดขึ้นจากการใส่คอลัมน์ของคน ๆ หนึ่งนั้นสำคัญจริงๆหรือ? หรือข้อมูลของฉันเป็นเพียงอึและโมเดลไม่สามารถเหมาะสมกับมัน

1
การถดถอยกำลังสองน้อยที่สุดบางส่วนใน R: ทำไม PLS กับข้อมูลมาตรฐานไม่เทียบเท่ากับการเพิ่มความสัมพันธ์สูงสุด
ฉันใหม่มากในบางส่วนกำลังสองน้อยที่สุด (PLS) และฉันพยายามที่จะเข้าใจผลลัพธ์ของฟังก์ชัน R plsr()ในplsแพ็คเกจ ให้เราจำลองข้อมูลและเรียกใช้ PLS: library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y) p <- plsr(yy ~ xx1+xx2, ncomp=1) ฉันคาดหวังว่าตัวเลขต่อไปนี้aaaและbbb > ( w <- loading.weights(p) ) Loadings: Comp 1 xx1 …

2
การตรวจสอบข้ามและการถดถอยโลจิสติกอันดับ
ฉันพยายามที่จะเข้าใจการตรวจสอบข้ามสำหรับการถดถอยโลจิสติกอันดับ เป้าหมายของเกมคือการตรวจสอบรูปแบบที่ใช้ในการวิเคราะห์ ... ฉันแรกสร้างชุดข้อมูลของเล่น: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 # P( y ≤ i ) is given by logit^{-1} ( a[i]+x ) p <- outer(a,x, function(a,x) 1/(1+exp(-a-x)) ) # …

1
Hosmer-Lemeshow กับ AIC สำหรับการถดถอยโลจิสติก
หาก Hosmer-Lemeshow บ่งบอกถึงการขาดความพอดี แต่ AIC นั้นต่ำที่สุดในบรรดานางแบบทั้งหมด .... คุณควรจะใช้แบบจำลองนี้หรือไม่? ถ้าฉันลบตัวแปรสถิติของ Hosmer-Lemeshow นั้นไม่มีนัยสำคัญ (ซึ่งหมายความว่าไม่มีการขาดความพอดีทั้งหมด) แต่ AIC เพิ่มขึ้น แก้ไข : ฉันคิดว่าโดยทั่วไปถ้า AIC ของโมเดลที่แตกต่างกันอยู่ใกล้กัน (เช่น ) กันแล้วก็เหมือนกัน แต่ AIC นั้นแตกต่างกันมาก นี่ดูเหมือนจะบ่งบอกว่าสิ่งที่มีค่า AIC ต่ำสุดเป็นสิ่งที่ฉันควรใช้ถึงแม้ว่าการทดสอบ Hosmer-Lemeshow จะระบุเป็นอย่างอื่น&lt;2&lt;2<2 บางทีการทดสอบ HL ใช้กับตัวอย่างจำนวนมากเท่านั้นหรือ มันมีพลังงานต่ำสำหรับตัวอย่างขนาดเล็ก (ขนาดตัวอย่างของฉันคือ ~ 300) แต่ถ้าฉันได้รับผลลัพธ์ที่สำคัญ ... ซึ่งหมายความว่าแม้จะใช้พลังงานต่ำฉันก็จะถูกปฏิเสธ มันจะสร้างความแตกต่างถ้าฉันใช้ AICc กับ AIC หรือไม่? คุณจะได้รับ AICc ใน SAS …

2
ความแตกต่างระหว่าง t-test และ ANOVA ในการถดถอยเชิงเส้น
ฉันสงสัยว่าความแตกต่างระหว่าง t-test และ ANOVA ในการถดถอยเชิงเส้นคืออะไร t-test เพื่อทดสอบว่าหนึ่งในความชันและการสกัดกั้นใดมีค่าเป็นศูนย์หรือไม่ในขณะที่ ANOVA เพื่อทดสอบว่าความชันทั้งหมดมีค่าเป็นศูนย์หรือไม่ นี่เป็นข้อแตกต่างระหว่างพวกเขาเหรอ? ในการถดถอยเชิงเส้นอย่างง่ายนั่นคือมีตัวแปรตัวทำนายเพียงตัวเดียวเท่านั้น t-test และ ANOVA มีความเทียบเท่าหรือไม่และถ้าใช่วิธีการที่พวกเขาใช้สถิติที่แตกต่างกัน (t-test ใช้ t-statistic และ ANOVA ใช้ F-statistic)?

9
หนังสือสำหรับภาพรวมทั่วไปและแนวคิดของวิธีการทางสถิติ
ฉันสนใจเกี่ยวกับศักยภาพของการวิเคราะห์ทางสถิติสำหรับการจำลอง / การพยากรณ์ / การประเมินฟังก์ชั่น ฯลฯ อย่างไรก็ตามฉันไม่รู้อะไรมากเกี่ยวกับเรื่องนี้และความรู้ทางคณิตศาสตร์ของฉันยังค่อนข้าง จำกัด - ฉันเป็นนักศึกษาระดับปริญญาตรีด้านวิศวกรรมซอฟต์แวร์ ฉันกำลังมองหาหนังสือที่จะให้ฉันเริ่มต้นกับบางสิ่งที่ฉันอ่านต่อไป: การถดถอยเชิงเส้นและการถดถอยแบบอื่น ๆ วิธีการแบบเบส์วิธีการมอนเต้คาร์โลการเรียนรู้ของเครื่อง ฯลฯ ฉันก็ต้องการเริ่มต้นด้วย R เช่นกัน มีหนังสือเล่มหนึ่งที่รวมทั้งสองอย่างนี้เข้าด้วยกัน โดยเฉพาะอย่างยิ่งฉันต้องการให้หนังสืออธิบายสิ่งต่าง ๆ ในเชิงแนวคิดและไม่ได้อยู่ในรายละเอียดทางเทคนิคมากเกินไป - ฉันต้องการให้สถิติใช้งานได้ง่ายสำหรับฉันเพราะฉันเข้าใจว่ามีสถิติความเสี่ยงที่ผิดพลาดจำนวนมาก ฉันอยู่นอกหลักสูตรยินดีที่จะอ่านหนังสือมากขึ้นเพื่อปรับปรุงความเข้าใจในหัวข้อที่ฉันเห็นว่ามีค่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.