สถิติและข้อมูลขนาดใหญ่ r

2

ทำความเข้าใจกับการสร้างตัวแปรจำลอง (แบบแมนนวลหรือแบบอัตโนมัติ) ใน GLM

หากมีการใช้ตัวแปรปัจจัย (เช่นเพศที่มีระดับ M และ F) ในสูตร glm จะมีการสร้างตัวแปรจำลองและสามารถพบได้ในสรุปแบบจำลอง glm พร้อมกับค่าสัมประสิทธิ์ที่เกี่ยวข้อง (เช่น genderM) หากแทนที่จะอาศัย R เพื่อแยกปัจจัยด้วยวิธีนี้ปัจจัยจะถูกเข้ารหัสในชุดของตัวแปรตัวเลข 0/1 (เช่น genderM (1 สำหรับ M, 0 สำหรับ F), genderF (1 สำหรับ F, 0 สำหรับ M) และใช้ตัวแปรเหล่านี้เป็นตัวแปรตัวเลขในสูตร glm ผลลัพธ์สัมประสิทธิ์จะแตกต่างกันหรือไม่? โดยทั่วไปคำถามคือ: R ใช้การคำนวณสัมประสิทธิ์ที่แตกต่างกันเมื่อทำงานกับตัวแปรปัจจัยเทียบกับตัวแปรตัวเลขหรือไม่ คำถามติดตามผล (อาจตอบโดยข้างต้น): นอกจากประสิทธิภาพของการปล่อยให้ R สร้างตัวแปรจำลองแล้วยังมีปัญหากับปัจจัยการเข้ารหัสซ้ำเป็นชุดของตัวแปรตัวเลข 0,1 และใช้ในรูปแบบแทนหรือไม่?

13 r generalized-linear-model categorical-data categorical-encoding

2

วิธีการประมาณฟังก์ชั่นอันตรายพื้นฐานในรูปแบบ Cox พร้อม R

ฉันต้องประมาณฟังก์ชั่นอันตรายพื้นฐานในรูปแบบ Cox ที่ขึ้นอยู่กับเวลาλ0( t )λ0(t)\lambda_0(t) λ(t)=λ0(t)exp(Z(t)′β)λ(t)=λ0(t)exp⁡(Z(t)′β)\lambda(t) = \lambda_0(t) \exp(Z(t)'\beta) ขณะที่ฉันเข้าเรียนหลักสูตรการอยู่รอดฉันจำได้ว่าอนุพันธ์โดยตรงของฟังก์ชันอันตรายสะสม ( ) จะไม่เป็นตัวประมาณที่ดีเพราะตัวประมาณ Breslow ให้ฟังก์ชันขั้นตอนλ0(t)dt=dΛ0(t)λ0(t)dt=dΛ0(t)\lambda_0(t) dt = d\Lambda_0(t) ดังนั้นมีฟังก์ชั่นใด ๆ ใน R ที่ฉันสามารถใช้โดยตรงได้หรือไม่ หรือการอ้างอิงใด ๆ ในหัวข้อนี้? ฉันไม่แน่ใจว่ามันมีค่าที่จะเปิดคำถามอื่นดังนั้นฉันแค่เพิ่มพื้นหลังบางส่วนว่าทำไมฟังก์ชั่นอันตรายพื้นฐานมีความสำคัญสำหรับฉัน สูตรด้านล่างนี้ประเมินความน่าจะเป็นที่เวลารอดของวิชาหนึ่งนั้นจะใหญ่กว่าวิชาอื่น ภายใต้การตั้งค่าโมเดล Cox จำเป็นต้องมี ฟังก์ชั่นอันตรายพื้นฐานλ0(t)λ0(t)\lambda_0(t) P(T1>T2)=−∫∞0S1(t)dS2(t)=−∫∞0S1(t)S2(t)λ2(t)dtP(T1>T2)=−∫0∞S1(t)dS2(t)=−∫0∞S1(t)S2(t)λ2(t)dtP(T_1 > T_2 ) = - \int_0^\infty S_1(t) dS_2(t) = - \int_0^\infty S_1(t)S_2(t)\lambda_2(t)dt

13 r survival cox-model

1

ข้อกำหนดการโต้ตอบและพหุนามคำสั่งที่สูงขึ้น

หากฉันสนใจในการปรับการปฏิสัมพันธ์แบบสองทางให้เหมาะสมระหว่างตัวแปรอธิบายเชิงเส้นและตัวแปรอธิบายอีกที่มีความสัมพันธ์กำลังสองกับตัวแปรที่ขึ้นอยู่กับฉันจะต้องรวมทั้งการโต้ตอบกับองค์ประกอบกำลังสองและการโต้ตอบกับเส้นตรง องค์ประกอบในรูปแบบ? เช่น ในการสร้างหัวข้อของฉันก่อนหน้านี้: คำศัพท์ความโค้งและการเลือกรูปแบบถ้านี่เป็นการวิเคราะห์การเลือกรูปแบบที่ใช้ใน R โดยมีตัวแปรอธิบายหลายตัว แบบจำลองเอาท์พุทที่มีคำที่ใช้โต้ตอบซึ่งรวมถึงคำกำลังสองaaaขbbYyyY∼ a + b + b2+ a b + a b2y∼a+b+b2+ab+ab2 y\sim a+b+b^2+ab+ab^2 MuMIna : b2a:b2a:b^2จะมีผลถ้าคำปฏิสัมพันธ์กับองค์ประกอบเชิงเส้นมีอยู่ในรูปแบบเดียวกันเช่นเดียวกับa , bและb ^ 2เป็นลักษณะพิเศษโดยตรงหรือไม่a : ba:ba:baaaขbbข2b2b^2

13 r regression model-selection

5

วิธีรับขอบเขตของวงรีจากข้อมูลที่กระจายแบบปกติ bivariate

ฉันมีข้อมูลที่ดูเหมือนว่า: ฉันพยายามที่จะใช้การแจกแจงแบบปกติ (การประมาณความหนาแน่นของเคอร์เนลทำงานได้ดีขึ้น แต่ฉันไม่ต้องการความแม่นยำที่ยอดเยี่ยมเช่นนี้) และใช้งานได้ค่อนข้างดี พล็อตความหนาแน่นทำให้วงรี ฉันต้องใช้ฟังก์ชันวงรีนั้นเพื่อตัดสินใจว่าจุดหนึ่งอยู่ในขอบเขตของวงรีหรือไม่ ทำอย่างไร ยินดีต้อนรับรหัส R หรือ Mathematica

13 r regression pdf bivariate

1

ฉันจะคำนวณค่าวิกฤติด้วยการใช้ R ได้อย่างไร

ขออภัยหากเป็นคำถามใหม่ ฉันพยายามสอนสถิติตัวเองเป็นครั้งแรก ฉันคิดว่าฉันมีกระบวนการขั้นพื้นฐานที่ลง แต่ฉันพยายามที่จะดำเนินการกับอาร์ ดังนั้นฉันจึงพยายามประเมินความสำคัญของสัมประสิทธิ์การถดถอยในการถดถอยเชิงเส้นหลายรูปแบบ y^=Xβ^y^=Xβ^ \hat y = X \hat \beta ฉันคิดว่าสถิติสำหรับการทดสอบมอบให้โดยH0:β^j=0,Ha:β^j≠0H0:β^j=0,Ha:β^j≠0H_0: \hat \beta_j = 0, H_a: \hat \beta_j \neq 0 เสื้อ0= β^J- 0se ( β^J)= β^Jσ^2คเจเจ-----√= β^JคเจเจSSR e s/ (n-p)--------------√t0=β^j−0se(β^j)=β^jσ^2Cjj=β^jCjjSSRes/(n−p)t_0 = \frac{\hat \beta_j - 0}{\text{se}(\hat \beta_j)} = \frac{\hat \beta_j}{\sqrt{\hat \sigma^2 C_{jj}}} = \frac{\hat \beta_j}{\sqrt{C_{jj} SS_{Res}/(n-p)}} โดยที่คือรายการในแนวทแยงมุมของ1} j t …

13 r statistical-significance multiple-regression

2

การคำนวณความน่าจะเป็นของรายการยีนที่ทับซ้อนกันระหว่าง RNA seq และชุดข้อมูลชิป ChIP

หวังว่าใครบางคนในฟอรัมเหล่านี้สามารถช่วยฉันแก้ปัญหาพื้นฐานนี้ในการศึกษาการแสดงออกของยีน ฉันจัดลำดับการลึกของเนื้อเยื่อทดลองและเนื้อเยื่อควบคุม จากนั้นฉันได้รับการเพิ่มคุณค่าการพับของยีนในตัวอย่างทดลองมากกว่าการควบคุม จีโนมที่อ้างอิงมียีนประมาณ 15,000 ยีน 3,000 จาก 15,000 ยีนนั้นได้รับการยกระดับให้สูงกว่าตัวอย่างที่ผมสนใจเมื่อเปรียบเทียบกับการควบคุม ดังนั้น: A = ประชากรยีนทั้งหมด = 15,000 B = ประชากรย่อยที่ได้รับการเสริม RNA-Seq = 3,000 ในการทดลองชิป ChIP ก่อนหน้านี้ฉันพบ 400 ยีนที่อุดมไปด้วยชิป ChIP ของยีน 400 ชิปชิพนั้น 100 ยีนอยู่ในกลุ่มของยีน RNA-Seq ที่ได้รับการเสริม 3,000 รายการ ดังนั้น: C = จำนวนทั้งหมดของยีนที่อุดมด้วยชิป ChIP = 400 ความน่าจะเป็นที่ยีน 100 ชิปชิปของฉันจะเพิ่มขึ้นด้วย RNA-Seq โดยบังเอิญเพียงอย่างเดียวคืออะไร อะไรคือวิธีที่ชาญฉลาดที่สุดในการคำนวณว่าการซ้อนทับที่สังเกตระหว่าง …

13 r genetics bioinformatics microarray biostatistics

1

ความหมายของแกน y ในพล็อตฟอเรสต์แบบสุ่มบางส่วนของ Forest

ฉันใช้RandomForestแพคเกจ R และสับสนในการตีความค่าของแกน Y ในแผนการพึ่งพาบางส่วนของพวกเขา ช่วยให้เอกสารระบุว่าพล็อตนั้นเป็น "การแสดงภาพกราฟิกของเอฟเฟกต์เล็กน้อยของตัวแปรในความน่าจะเป็นของชั้นเรียน" อย่างไรก็ตามฉันยังสับสนว่าแกน y หมายถึงอะไร โดยเฉพาะอย่างยิ่งค่าลบหมายถึงอะไร การมีอิทธิพลในทางลบต่อการทำนายชั้นเรียนอย่างถูกต้องหมายความว่าอย่างไร และอะไรคือคุณสมบัติที่สำคัญที่สุดจากตัวเลขเหล่านี้มันคือค่าสูงสุดรูปร่างของเทรนด์ ฯลฯ หรือไม่ คุณสามารถเปรียบเทียบแปลงบางส่วนกับแปลงบางส่วนของตัวแปรอื่น ๆ ได้หรือไม่? แปลงเหล่านี้อาจเปรียบเทียบกับเส้นโค้งการตอบสนองที่สร้างใน Maxent (ซอฟต์แวร์การสร้างแบบจำลองการกระจาย) ได้อย่างไร

13 r interpretation random-forest partial-plot

1

วิธีการอ่านความดีของพอดีกับ nls ของ R?

ฉันพยายามตีความผลลัพธ์ของ nls () ฉันได้อ่านโพสต์นี้แต่ฉันยังไม่เข้าใจวิธีการเลือกแบบที่ดีที่สุด จากความพอดีของฉันฉันมีสองเอาต์พุต: > summary(m) Formula: y ~ I(a * x^b) Parameters: Estimate Std. Error t value Pr(>|t|) a 479.92903 62.96371 7.622 0.000618 *** b 0.27553 0.04534 6.077 0.001744 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: …

12 r least-squares nonlinear-regression goodness-of-fit

1

การวิเคราะห์อภิมานของอัตราส่วนราคาต่อรองเป็นสิ่งที่สิ้นหวังหรือไม่?

ในบทความล่าสุดของNorton และคณะ (2018)ระบุว่า[1][1]^{[1]} อัตราส่วนของอัตราต่อรองที่แตกต่างจากการศึกษาเดียวกันไม่สามารถเปรียบเทียบได้เมื่อแบบจำลองทางสถิติที่ส่งผลให้การประมาณอัตราต่อรองมีตัวแปรอธิบายที่แตกต่างกัน และขนาดของอัตราต่อรองจากการศึกษาหนึ่งสามารถเปรียบเทียบกับขนาดของอัตราต่อรองได้จากการศึกษาอื่นเพราะตัวอย่างที่แตกต่างกันและข้อกำหนดของแบบจำลองที่แตกต่างกันจะมีปัจจัยการปรับขนาดโดยพลการแตกต่างกัน อีกนัยหนึ่งคือขนาดของอัตราต่อรองของการเชื่อมโยงที่กำหนดในการศึกษาหลาย ๆ ครั้งไม่สามารถสังเคราะห์ได้ในการวิเคราะห์อภิมาน การจำลองขนาดเล็กแสดงให้เห็นถึงนี้ (รหัส R อยู่ที่ด้านล่างของคำถาม) สมมติว่ารูปแบบที่แท้จริงคือ: ลองจินตนาการอีกว่าข้อมูลเดียวกันที่สร้างขึ้นโดยตัวแบบข้างต้นถูกวิเคราะห์โดยนักวิจัยสี่คนโดยใช้การถดถอยโลจิสติกส์ นักวิจัย 1 รวมเป็น covariate เท่านั้นนักวิจัย 2 รวมทั้งและและอื่น ๆ การประมาณการแบบจำลองโดยเฉลี่ยของอัตราต่อรองสำหรับของสี่นักวิจัยคือ:logit(yi)=1+log(2)x1i+log(2.5)x2i+log(3)x3i+0x4ilogit(yi)=1+log⁡(2)x1i+log⁡(2.5)x2i+log⁡(3)x3i+0x4i \mathrm{logit}(y_{i})=1 + \log(2)x_{1i} + \log(2.5)x_{2i} + \log(3)x_{3i} + 0x_{4i} x1x1x_{1}x1x1x_{1}x2x2x_{2}x1x1x_{1} res_1 res_2 res_3 res_4 1.679768 1.776200 2.002157 2.004077 เห็นได้ชัดว่ามีเพียงนักวิจัย 3 และ 4 เท่านั้นที่ได้รับอัตราต่อรองที่ถูกต้องประมาณในขณะที่นักวิจัย 1 และ 2 ไม่ได้ …

12 r logistic meta-analysis odds-ratio adjustment

3

วิธีตั้งโปรแกรมการจำลอง Monte Carlo ของกล่องเส้นขนานของ Bertrand ได้อย่างไร

ปัญหาต่อไปนี้ได้รับการโพสต์ในหน้า Facebook ของ Mensa International: \quad\quad\quad\quad\quad\quad\quad\quad โพสต์นั้นได้รับความคิดเห็นมากกว่า 1,000 ข้อ แต่ฉันจะไม่ลงรายละเอียดเกี่ยวกับการอภิปรายที่นั่นเพราะฉันรู้ว่านี่คือกล่องความขัดแย้งของเบอร์ทรานด์และคำตอบคือ . สิ่งที่ทำให้ฉันสนใจที่นี่คือหนึ่งจะตอบปัญหานี้โดยใช้วิธีการ Monte Carlo ได้อย่างไร อัลกอริทึมเป็นวิธีการแก้ปัญหานี้อย่างไร2323\frac23 นี่คือความพยายามของฉัน: สร้างกระจายอย่างสม่ำเสมอตัวเลขสุ่มระหว่าง0และ1NNN000111 ให้เหตุการณ์ของกล่องมี 2 ลูกทองคำ (กล่อง 1) เลือกน้อยกว่าครึ่ง 0.50.50.5SSS P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} การใช้อัลกอริทึมด้านบนใน R: N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 0.670.670.67

12 r probability simulation monte-carlo paradox

1

โมเดลสารเติมแต่งทั่วไป (GAMs), การโต้ตอบและ covariates

ฉันสำรวจเครื่องมือจำนวนหนึ่งเพื่อการคาดการณ์และพบว่าแบบจำลองการเติมทั่วไป (เกม) เพื่อให้มีศักยภาพมากที่สุดสำหรับจุดประสงค์นี้ เกมยอดเยี่ยม! พวกเขาอนุญาตให้ระบุแบบจำลองที่ซับซ้อนอย่างรัดกุม อย่างไรก็ตามความกระชับแบบเดียวกันนั้นทำให้ฉันสับสนโดยเฉพาะอย่างยิ่งในเรื่องที่ว่า GAMs เข้าใจถึงเงื่อนไขการมีปฏิสัมพันธ์และเพื่อนร่วมรัฐอย่างไร ลองพิจารณาชุดข้อมูลตัวอย่าง (โค้ดที่ทำซ้ำได้เมื่อสิ้นสุดการโพสต์) ซึ่งyเป็นฟังก์ชั่นแบบโมโนโทนิกที่รบกวนโดย gaussians สองคู่พร้อมเสียงรบกวน: ชุดข้อมูลมีตัวแปรตัวทำนายบางอย่าง: x: ดัชนีของข้อมูล (1-100) w: คุณลักษณะรองที่ทำเครื่องหมายส่วนต่างๆของyที่ซึ่งมีเกาส์เซียนอยู่ wมีค่า 1-20 โดยxอยู่ระหว่าง 11 ถึง 30 และ 51 ถึง 70 มิฉะนั้นwเท่ากับ 0 w2: w + 1เพื่อที่จะไม่มีค่า 0 mgcvแพ็คเกจของ R ทำให้ง่ายต่อการระบุจำนวนโมเดลที่เป็นไปได้สำหรับข้อมูลเหล่านี้: โมเดล 1 และ 2 นั้นใช้งานง่าย การคาดการณ์yเฉพาะจากค่าดัชนีในxที่ความเรียบเริ่มต้นสร้างสิ่งที่ถูกต้องราง แต่เรียบเกินไป การคาดการณ์yจากwผลลัพธ์ในรูปแบบของ "เฉลี่ย gaussian" ที่มีอยู่yและไม่มี …

12 r modeling gam mgcv

2

พล็อต QQ ดูปกติ แต่การทดสอบของ Shapiro-Wilk บอกเป็นอย่างอื่น

ใน R ฉันมีตัวอย่างของการวัด 348 รายการและต้องการทราบว่าฉันสามารถสันนิษฐานได้ว่าการกระจายนั้นปกติสำหรับการทดสอบในอนาคต โดยพื้นฐานแล้วทำตามคำตอบสแต็คอื่นฉันกำลังดูพล็อตความหนาแน่นและพล็อต QQ ด้วย: plot(density(Clinical$cancer_age)) qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2) ฉันไม่มีประสบการณ์ที่ดีในด้านสถิติ แต่พวกเขาดูเหมือนตัวอย่างของการแจกแจงแบบปกติที่ฉันเคยเห็น จากนั้นฉันก็ทำการทดสอบ Shapiro-Wilk: shapiro.test(Clinical$cancer_age) > Shapiro-Wilk normality test data: Clinical$cancer_age W = 0.98775, p-value = 0.004952 ถ้าฉันตีความอย่างถูกต้องมันจะบอกฉันว่ามันปลอดภัยที่จะปฏิเสธสมมติฐานว่างซึ่งก็คือการแจกแจงเป็นเรื่องปกติ อย่างไรก็ตามฉันได้พบกับโพสต์สแต็คสองโพสต์ ( ที่นี่และที่นี่ ) ซึ่งบ่อนทำลายประโยชน์ของการทดสอบนี้อย่างมาก ดูเหมือนว่าถ้ากลุ่มตัวอย่างมีขนาดใหญ่ (มีการพิจารณาว่าใหญ่เป็น 348 หรือไม่) มันจะพูดเสมอว่าการแจกแจงไม่ปกติ ฉันจะตีความทั้งหมดนั้นได้อย่างไร ฉันควรติดกับพล็อต QQ และถือว่าการกระจายของฉันเป็นเรื่องปกติหรือไม่?

12 r normal-distribution

1

พหุนามหลายมิติแบบหลายตัวแปรตามที่คำนวณใน R คืออะไร

พหุนามมุมฉากในชุดจุดที่มีหลายตัวแปรคือพหุนามที่สร้างค่าบนจุดนั้นในลักษณะที่ผลคูณดอทและสหสัมพันธ์แบบคู่เป็นศูนย์ R สามารถผลิต polynomials มุมฉากกับฟังก์ชั่นโพลี ฟังก์ชั่นเดียวกันนี้มีโพลีเมอร์แบบแปรผันที่สร้างพหุนามแบบฉากฉากในจุดหลายตัวแปร อย่างไรก็ตามชื่อพหุนามที่เกิดขึ้นนั้นไม่ได้เป็นมุมฉากในแง่ของการมีความสัมพันธ์แบบคู่กับศูนย์ ในความเป็นจริงเนื่องจากชื่อพหุนามอันดับแรกควรเป็นเพียงตัวแปรดั้งเดิมพหุนามลำดับที่หนึ่งจะไม่เป็นแบบมุมฉากเว้นแต่ว่าตัวแปรดั้งเดิมจะไม่ถูกแยกส่วน จากนั้นคำถามของฉันคือ: พหุนามหลายมุมฉากหลายตัวแปรคำนวณโดย polym ใน R คืออะไร? พวกเขาเป็นเพียงผลิตภัณฑ์ของชื่อพหุนามแบบหลายมิติแบบมุมฉากหรือไม่? พวกมันใช้ทำอะไร? ชื่อพหุนามหลายมุมฉากแบบหลายตัวแปรมีอยู่จริงหรือไม่? มีวิธีง่าย ๆ ในการผลิตพวกเขา? ใน R พวกเขาใช้จริงในการถดถอยหรือไม่? ปรับปรุง เพื่อตอบสนองต่อความคิดเห็นของ Superpronker ฉันได้ยกตัวอย่างหนึ่งของสิ่งที่ฉันหมายถึงด้วยชื่อพหุนามที่ไม่เกี่ยวข้อง: > x<-rnorm(10000) > cor(cbind(poly(x,degree=3))) 1 2 3 1 1.000000e+00 -6.809725e-17 2.253577e-18 2 -6.809725e-17 1.000000e+00 -2.765115e-17 3 2.253577e-18 -2.765115e-17 1.000000e+00 ฟังก์ชั่นโพลีส่งคืนพหุนามมุมฉากซึ่งประเมินในคะแนน x (ที่นี่ 10,000 …

12 r multiple-regression polynomial orthogonal

1

ช่วงความเชื่อมั่นในการทำนายสำหรับตัวแบบผสมที่ไม่ใช่เชิงเส้น (nlme)

ฉันต้องการได้รับช่วงความเชื่อมั่น 95% จากการทำนายของตัวแบบผสมnlmeแบบไม่เป็นเชิงเส้น ในขณะที่ไม่มีมาตรฐานใดให้ทำเช่นนี้ภายในnlmeฉันสงสัยว่ามันถูกต้องหรือไม่ที่จะใช้วิธีการของ "ช่วงการทำนายประชากร" ตามที่ระบุไว้ในบทหนังสือของ Ben Bolker ในบริบทของแบบจำลองที่เหมาะสมกับโอกาสสูงสุดตามแนวคิด resampling พารามิเตอร์ผลกระทบคงที่ตามเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของแบบจำลองที่ติดตั้งใหม่, การจำลองการทำนายตามนี้แล้วนำ 95% เปอร์เซ็นไทล์ของการทำนายเหล่านี้เพื่อให้ได้ช่วงความมั่นใจ 95%? รหัสการทำเช่นนี้มีลักษณะดังนี้: (ฉันที่นี่ใช้ข้อมูล 'Loblolly' จากnlmeไฟล์ช่วยเหลือ) library(effects) library(nlme) library(MASS) fm1 <- nlme(height ~ SSasymp(age, Asym, R0, lrc), data = Loblolly, fixed = Asym + R0 + lrc ~ 1, random = Asym ~ 1, start …

12 r mixed-model confidence-interval lme4-nlme

2

ใช้ lm สำหรับการทดสอบสัดส่วนตัวอย่าง 2 ตัวอย่าง

ฉันใช้แบบจำลองเชิงเส้นเพื่อทำการทดสอบสัดส่วนตัวอย่าง 2 ระยะเวลาหนึ่ง แต่ได้ตระหนักว่าอาจไม่ถูกต้องสมบูรณ์ ปรากฏว่าการใช้ตัวแบบเชิงเส้นแบบทั่วไปกับลิงค์แบบทวินาม + ตระกูลนั้นให้ผลการทดสอบสัดส่วนตัวอย่าง 2 ตัวอย่าง อย่างไรก็ตามการใช้โมเดลเชิงเส้น (หรือ glm กับตระกูล Gaussian) จะให้ผลลัพธ์ที่แตกต่างออกไปเล็กน้อย ฉันหาเหตุผลเข้าข้างตนเองว่านี่อาจเป็นเพราะ R แก้ไข glm สำหรับตระกูลทวินามและตระกูลเกาส์ แต่อาจมีสาเหตุอื่นได้หรือไม่ ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) …

12 r hypothesis-testing generalized-linear-model proportion

คำถามติดแท็ก r