สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
จะรวมคำศัพท์โต้ตอบใน GAM ได้อย่างไร
รหัสต่อไปนี้ประเมินความคล้ายคลึงกันระหว่างอนุกรมเวลาสองชุด: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ Loc + s(Doy) + s(Doy,by …

3
วิธีการถดถอยโลจิสติกใน R เมื่อผลเป็นเศษส่วน (อัตราส่วนของสองนับ)?
ฉันกำลังตรวจสอบกระดาษที่มีการทดลองทางชีวภาพต่อไปนี้ อุปกรณ์ถูกนำมาใช้เพื่อเปิดเผยเซลล์เพื่อความเครียดที่แตกต่างกันของแรงเฉือนของเหลว เมื่อมีการใช้แรงเฉือนมากขึ้นกับเซลล์จึงเริ่มมีการแยกตัวออกจากสารตั้งต้นมากขึ้น ในแต่ละระดับของความเครียดแรงเฉือนพวกเขานับจำนวนเซลล์ที่ยังคงติดอยู่และเนื่องจากพวกเขารู้ว่าจำนวนเซลล์ทั้งหมดที่ถูกแนบไว้ที่จุดเริ่มต้นพวกเขาสามารถคำนวณสิ่งที่แนบมาเป็นเศษส่วน (หรือแยก) หากคุณพล็อตเศษส่วนสานุศิษย์เทียบกับความเครียดเฉือนผลที่ได้คือเส้นโค้งโลจิสติก ในทางทฤษฎีแต่ละเซลล์มีการสังเกตเพียงอย่างเดียว แต่เห็นได้ชัดว่ามีเซลล์นับพันหรือหมื่นเซลล์ดังนั้นชุดข้อมูลจะมีขนาดมหึมาถ้ามันถูกสร้างขึ้นในแบบปกติ ดังนั้นคำถามของฉัน (ตามที่ระบุในชื่อเรื่อง) น่าจะสมเหตุสมผลแล้ว เราจะทำการถดถอยโลจิสติกโดยใช้ผลลัพธ์เศษส่วนเป็น DV ได้อย่างไร มีการแปลงรูปแบบอัตโนมัติที่สามารถทำได้ใน glm หรือไม่? ในบรรทัดเดียวกันหากมีการวัด 3 ครั้งหรือมากกว่านั้นจะเป็นไปได้อย่างไรสำหรับการถดถอยโลจิสติกพหุนาม

3
ความสัมพันธ์ระหว่างอนุกรมเวลาสองชุด
วิธี / วิธีที่ง่ายที่สุดในการคำนวณความสัมพันธ์ระหว่างอนุกรมเวลาสองชุดที่มีขนาดเท่ากันคืออะไร ฉันคิดถึงการคูณและและเพิ่มการคูณ ดังนั้นถ้าเลขตัวเดียวนี้เป็นบวกเราสามารถบอกได้ว่าทั้งสองอนุกรมนั้นมีความสัมพันธ์กันหรือไม่? ฉันสามารถนึกถึงตัวอย่างบางส่วน แต่ที่อนุกรมเวลาที่เพิ่มขึ้นแบบทวีคูณเชิงเส้นจะไม่มีความสัมพันธ์กับแต่ละอื่น ๆ แต่การคำนวณข้างต้นจะรายงานว่ามีความสัมพันธ์กัน( y [ t ] - μ y )(x[t]−μx)(x[t]−μx)(x[t]-\mu_x)(y[t]−μy)(y[t]−μy)(y[t] - \mu_y) ความคิดใด ๆ

4
L1 ถดถอยประมาณค่ามัธยฐานในขณะที่ประมาณการถดถอย L2 หมายถึงอะไร
ดังนั้นฉันจึงถูกถามคำถามที่มาตรการกลาง L1 (เช่น Lasso) และ L2 (เช่นการถดถอยสัน) ประเมิน คำตอบคือ L1 = ค่ามัธยฐานและ L2 = ค่าเฉลี่ย มีเหตุผลแบบนี้หรือไม่? หรือว่าจะต้องมีการกำหนดทางพีชคณิต? ถ้าเป็นเช่นนั้นฉันจะทำยังไงต่อ

1
ใครเป็นผู้คิดค้นการตรวจสอบข้ามแบบ K-fold?
ฉันกำลังมองหาเอกสารอ้างอิงที่แนะนำการตรวจสอบความถูกต้องไขว้ของ k-fold (ไม่ใช่แค่การอ้างอิงทางวิชาการที่ดีสำหรับวิชา) บางทีมันอาจจะย้อนกลับไปในช่วงเวลาที่ไกลเกินกว่าที่จะระบุกระดาษแผ่นแรกได้อย่างไม่น่าสงสัยดังนั้นกระดาษแรก ๆ ที่ใช้แนวคิดนี้จะเป็นที่สนใจ เร็วที่สุดที่ฉันรู้คือ PA Lachenbruch และ MR Mickey "การประมาณอัตราความผิดพลาดในการวิเคราะห์จำแนก" Technometrics, vol. หมายเลข 10 1, pp. 1–12, กุมภาพันธ์ 1968 และ A. Luntz และ V. Brailovsky“ ในการประมาณค่าตัวอักษรที่ได้รับในกระบวนการทางสถิติของการรับรู้ (ในรัสเซีย),” Techicheskaya Kibernetica, vol. 3, 1969 แต่เท่าที่ฉันสามารถบอกได้ว่าพวกเขาครอบคลุมการตรวจสอบความถูกต้องแบบข้ามครั้งเดียว (ภาษารัสเซียด้านเทคนิคของฉันไม่ใช่ทั้งหมดที่จะเป็นได้; o)

3
การตรวจสอบสติ: p-value ไปได้น้อยแค่ไหน?
ฉันใช้การทดสอบ ranksum เพื่อเปรียบเทียบค่ามัธยฐานของทั้งสองตัวอย่าง (คน ) และได้พบว่าพวกเขามีความแตกต่างอย่างมีนัยสำคัญด้วย: ฉันควรจะสงสัยว่าค่าขนาดเล็กเช่นนี้หรือไม่หรือฉันควรกำหนดให้มีค่าสถิติสูงที่เกี่ยวข้องกับการมีกลุ่มตัวอย่างขนาดใหญ่มาก? มีสิ่งใดที่เป็นค่าต่ำอย่างน่าสงสัยหรือไม่?พีพีn = 120000n=120000n=120000p = 1.12E-207พีppพีpp

4
คุณมีวิสัยทัศน์ระดับโลกเกี่ยวกับเทคนิคการวิเคราะห์เหล่านั้นหรือไม่?
ขณะนี้ฉันอยู่ในโครงการที่ฉันต้องการโดยทั่วไปเหมือนกับที่เราทุกคนเข้าใจว่าเอาต์พุตเกี่ยวข้องกับอินพุตอย่างไร พิลึกนี่คือข้อมูลที่จะได้รับการฉันหนึ่งชิ้นในเวลาดังนั้นฉันต้องการที่จะปรับปรุงการวิเคราะห์ของฉันทุกครั้งที่ผมได้รับใหม่x) ฉันเชื่อว่าสิ่งนี้เรียกว่าการประมวลผลแบบ "ออนไลน์" ซึ่งตรงข้ามกับการประมวลผลแบบ "แบทช์" ซึ่งคุณมีข้อมูลทั้งหมดที่จำเป็นและทำการคำนวณโดยใช้ข้อมูลทั้งหมดในเวลาเดียวกันyyyxxx(y,x)(y,x)(y,x)(y,x)(y,x)(y,x) ดังนั้นฉันจึงมองหาแนวคิดและท้ายที่สุดฉันก็สรุปว่าโลกแบ่งออกเป็นสาม: ส่วนแรกคือดินแดนแห่งสถิติและเศรษฐมิติ คนที่นั่นมี OLS, GLS, ตัวแปรเครื่องดนตรี, ARIMA, การทดสอบ, ความแตกต่างของความแตกต่าง, PCA และ whatnot ดินแดนนี้ส่วนใหญ่ถูกครอบงำด้วยความเป็นเส้นตรงและใช้การประมวลผลแบบ "แบทช์" เท่านั้น ส่วนที่สองคือเกาะแห่งการเรียนรู้ของเครื่องและคำอื่น ๆ เช่นปัญญาประดิษฐ์การเรียนรู้แบบมีผู้สอนและไม่มีผู้ดูแลเครือข่ายประสาทและ SVM การประมวลผล "แบทช์" และ "ออนไลน์" เสร็จสิ้นแล้วที่นี่ ส่วนที่สามเป็นทั้งทวีปที่ฉันเพิ่งค้นพบซึ่งส่วนใหญ่มีประชากรโดยวิศวกรไฟฟ้าจึงดูเหมือนว่า มีคนมักจะเพิ่มคำว่า "กรอง" เพื่อเป็นเครื่องมือของพวกเขาและพวกเขาคิดค้นวัตถุดิบที่ดีเยี่ยมเช่นอัลกอริทึม Widrow-ฮอฟฟ์ซ้ำสองน้อยที่สุดที่ตัวกรอง Wienerการกรองคาลมาและอาจจะสิ่งอื่น ๆ ที่ฉันไม่ได้ค้นพบเลย เห็นได้ชัดว่าพวกเขาส่วนใหญ่ทำการ "ออนไลน์" การประมวลผลตามที่เหมาะกับความต้องการของพวกเขา ดังนั้นคำถามของฉันคือคุณมีวิสัยทัศน์ระดับโลกในเรื่องทั้งหมดนี้หรือไม่? ฉันอยู่ภายใต้ความประทับใจที่ทั้งสามส่วนของโลกไม่ได้พูดคุยกันมากเกินไป ฉันผิดหรือเปล่า? มีทฤษฎีการเข้าใจที่ครบวงจรที่ยิ่งใหญ่ว่ากับอย่างไร? คุณรู้หรือไม่ว่ามีแหล่งข้อมูลใดบ้างที่ฐานของทฤษฎีนั้นอาจถูกวางลง?YYYXXX ฉันไม่แน่ใจว่าคำถามนี้สมเหตุสมผลหรือไม่ แต่ฉันหลงทางเล็กน้อยระหว่างทฤษฎีเหล่านั้นทั้งหมด ฉันจินตนาการคำตอบของคำถามที่ว่า …

3
ตัวอย่างที่ไม่สุ่มสามารถวิเคราะห์โดยใช้การทดสอบทางสถิติมาตรฐานได้หรือไม่
การศึกษาทางคลินิกจำนวนมากขึ้นอยู่กับตัวอย่างที่ไม่สุ่ม อย่างไรก็ตามการทดสอบมาตรฐานส่วนใหญ่ (เช่นการทดสอบ t, ANOVA, การถดถอยเชิงเส้น, การถดถอยโลจิสติก) ขึ้นอยู่กับสมมติฐานที่ตัวอย่างมี "สุ่มหมายเลข" ผลลัพธ์จะถูกต้องหรือไม่หากตัวอย่างที่ไม่ได้สุ่มเหล่านี้ได้รับการวิเคราะห์โดยการทดสอบมาตรฐาน? ขอขอบคุณ.

4
การประมาณการความน่าจะเป็น EM สูงสุดสำหรับการกระจาย Weibull
หมายเหตุ: ฉันกำลังโพสต์คำถามจากนักเรียนเก่าของฉันไม่สามารถโพสต์ด้วยตนเองได้ด้วยเหตุผลทางเทคนิค รับ iid ตัวอย่างจากการแจก Weibull พร้อม pdf มีตัวแปรที่ขาดหายไปที่เป็นประโยชน์ และด้วยเหตุนี้ EM (ความคาดหวัง - การขยายใหญ่สุด) อัลกอริธึมที่สามารถใช้ในการค้นหา MLE ของแทนที่จะใช้ตรงไปตรงมา การเพิ่มประสิทธิภาพเชิงตัวเลข?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

2
เหตุใด lme และ aov จึงให้ผลลัพธ์ที่แตกต่างกันสำหรับมาตรการ ANOVA ใน R ซ้ำ ๆ
ฉันกำลังพยายามเปลี่ยนจากการใช้ezแพคเกจเป็นlmeมาตรการ ANOVA ซ้ำ ๆ (เพราะฉันหวังว่าฉันจะสามารถใช้ความแตกต่างที่กำหนดเองได้ด้วยlme) ตามคำแนะนำจากบล็อกนี้โพสต์ก็สามารถที่จะตั้งค่ารูปแบบเดียวกันโดยใช้ทั้งaov(เช่นเดียวกับezเมื่อมีการร้องขอ) lmeและ อย่างไรก็ตามในตัวอย่างที่ให้ไว้ในโพสต์ค่าFเห็นด้วยอย่างสมบูรณ์ระหว่างaovและlme(ฉันตรวจสอบและพวกเขาทำ) นี่ไม่ใช่กรณีของข้อมูลของฉัน ถึงแม้ว่าค่าFจะใกล้เคียงกัน แต่ก็ไม่เหมือนกัน aovส่งคืนค่า f ที่ 1.3399, lmeส่งคืน 1.36264 ฉันยินดีที่จะยอมรับaovผลลัพธ์ว่า "ถูกต้อง" เนื่องจากนี่คือสิ่งที่ SPSS ส่งคืน (และนี่คือสิ่งที่นับให้กับฟิลด์ / หัวหน้างานของฉัน) คำถาม: มันจะดีถ้ามีคนอธิบายได้ว่าทำไมความแตกต่างนี้จึงมีอยู่และฉันจะใช้lmeเพื่อให้ผลลัพธ์ที่น่าเชื่อถือ (ฉันก็ยินดีที่จะใช้lmerแทนlmeสิ่งประเภทนี้ถ้ามันให้ผลลัพธ์ "ถูกต้อง" อย่างไรก็ตามฉันยังไม่ได้ใช้จนถึงตอนนี้) หลังจากแก้ปัญหานี้แล้วฉันต้องการเรียกใช้การวิเคราะห์ความเปรียบต่าง โดยเฉพาะฉันจะสนใจความแตกต่างของการรวมสองระดับแรกของปัจจัย (เช่นc("MP", "MT")) และเปรียบเทียบสิ่งนี้กับระดับที่สามของปัจจัย (เช่น"AC") นอกจากนี้การทดสอบระดับที่สามกับระดับที่สี่ของปัจจัย (เช่น"AC"กับ"DA") ข้อมูล: tau.base <- structure(list(id = structure(c(1L, 2L, 3L, 4L, 5L, 6L, 7L, …

3
สมการในข่าว: การแปลโมเดลหลายระดับเป็นกลุ่มเป้าหมายทั่วไป
เดอะนิวยอร์กไทมส์มีความคิดเห็นที่ยาวนานเกี่ยวกับระบบการประเมินผลครู 'มูลค่าเพิ่ม' ที่ใช้ในการให้ข้อเสนอแนะกับนักการศึกษานิวยอร์กซิตี้ lede เป็นสมการที่ใช้ในการคำนวณคะแนน - นำเสนอโดยไม่มีบริบท กลยุทธ์วาทศิลป์ดูเหมือนจะเป็นการข่มขู่ทางคณิตศาสตร์: เนื้อหาทั้งหมดของบทความมีอยู่ที่: http://www.nytimes.com/2011/03/07/education/07winerip.html ผู้เขียน Michael Winerip ให้เหตุผลว่าความหมายของสมการนั้นเกินความสามารถของใครก็ตามที่ไม่เข้าใจแมตต์เดมอนผู้เข้าใจโดยเฉลี่ยน้อยกว่าครูทั่วไป: "การคำนวณคะแนนคาดคะเนของมิสซิสไอแซคสัน 3.69 นั้นยิ่งน่ากลัวมากขึ้นมันขึ้นอยู่กับตัวแปร 32 ตัว - รวมถึงว่านักเรียน“ ถูกเก็บรักษาไว้ในเกรดก่อนปีที่ทดสอบก่อน” และนักเรียนเป็น“ ใหม่สู่เมืองก่อนสอบ ปี." ตัวแปร 32 ตัวนั้นเสียบเข้ากับแบบจำลองทางสถิติที่ดูเหมือนหนึ่งในสมการเหล่านั้นใน“ การล่าสัตว์ตามใจปรารถนา” เท่านั้นที่ Matt Damon เท่านั้นที่สามารถแก้ไขได้ กระบวนการดูเหมือนโปร่งใส แต่ชัดเจนว่าเป็นโคลนแม้กระทั่งคนที่มีความคิดสร้างสรรค์เช่นครูอาจารย์ใหญ่และฉันลังเลที่จะพูดแบบนี้ - นักข่าว นางสาว Isaacson อาจมีสององศา Ivy League แต่เธอหายไป “ ฉันพบว่าเป็นไปไม่ได้ที่จะเข้าใจ” เธอกล่าว ในภาษาอังกฤษธรรมดา Ms. Isaacson เดาได้ดีที่สุดเกี่ยวกับสิ่งที่แผนกพยายามจะบอกเธอว่า: …

4
นี่เป็นวิธีที่เหมาะสมในการทดสอบผลกระทบตามฤดูกาลในข้อมูลการนับการฆ่าตัวตายหรือไม่?
ฉันมีข้อมูลใบรับรองการเสียชีวิต 17 ปี (1995 ถึง 2011) ที่เกี่ยวข้องกับการฆ่าตัวตายของรัฐในสหรัฐอเมริกามีตำนานมากมายเกี่ยวกับการฆ่าตัวตายและเดือน / ฤดูกาลจำนวนมากที่ขัดแย้งกันและวรรณกรรมที่ฉัน ' ที่ผ่านมาฉันไม่เข้าใจวิธีการที่ใช้หรือความมั่นใจในผลลัพธ์ ดังนั้นฉันจึงออกเดินทางเพื่อดูว่าฉันสามารถตัดสินได้หรือไม่ว่าการฆ่าตัวตายมีแนวโน้มที่จะเกิดขึ้นมากหรือน้อยในเดือนใดก็ตามภายในชุดข้อมูลของฉัน การวิเคราะห์ทั้งหมดของฉันเสร็จสิ้นใน R จำนวนการฆ่าตัวตายทั้งหมดในข้อมูลคือ 13,909 หากคุณดูปีที่มีการฆ่าตัวตายน้อยที่สุดพวกเขาจะเกิดขึ้นใน 309/365 วัน (85%) หากคุณดูปีที่มีการฆ่าตัวตายมากที่สุดพวกเขาจะเกิดขึ้นใน 339/365 วัน (93%) ดังนั้นจึงมีจำนวนวันที่ยุติธรรมในแต่ละปีโดยไม่มีการฆ่าตัวตาย อย่างไรก็ตามเมื่อรวมกันตลอดทั้ง 17 ปีมีการฆ่าตัวตายในทุกวันของปีรวมถึงวันที่ 29 กุมภาพันธ์ (แม้ว่าจะเพียง 5 เมื่อเฉลี่ย 38) เพียงแค่เพิ่มจำนวนการฆ่าตัวตายในแต่ละวันของปีไม่ได้บ่งบอกถึงฤดูกาลที่ชัดเจน (ในสายตาของฉัน) เมื่อรวมกันในระดับรายเดือนการฆ่าตัวตายเฉลี่ยต่อเดือนมีตั้งแต่: (m = 65, sd = 7.4, ถึง m = 72, sd = 11.1) …

5
ทำไมอคติจึงได้รับผลกระทบเมื่อการทดลองทางคลินิกสิ้นสุดลงตั้งแต่แรก?
การวิเคราะห์ชั่วคราวเป็นการวิเคราะห์ข้อมูลที่จุดเวลาหนึ่งหรือหลายจุดก่อนปิดการศึกษาอย่างเป็นทางการโดยมีเจตนาเช่นอาจยุติการศึกษาก่อนเวลา อ้างอิงจากส Piantadosi, S. ( การทดลองทางคลินิก - มุมมองระเบียบวิธี ): " การประเมินผลการรักษาจะลำเอียงเมื่อการทดลองสิ้นสุดลงในระยะแรกการตัดสินใจก่อนหน้านี้มีอคติที่มากขึ้น " คุณช่วยอธิบายเรื่องนี้ให้ฉันฟังได้ไหม ฉันสามารถเข้าใจได้อย่างง่ายดายว่าความแม่นยำจะได้รับผลกระทบ แต่การเรียกร้องเกี่ยวกับอคตินั้นไม่ชัดเจนสำหรับฉัน ...

4
ความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) คืออะไร?
มีความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) หรือไม่? ความคล้ายคลึงและความแตกต่างของพวกเขาคืออะไร มันสร้างความแตกต่างหรือไม่ถ้ามีสองคลาสหรือมากกว่าสองคลาส?

3
ลำดับของตัวแปรอธิบายมีความสำคัญเมื่อคำนวณสัมประสิทธิ์การถดถอยหรือไม่
ตอนแรกฉันคิดว่าคำสั่งไม่สำคัญ แต่จากนั้นฉันอ่านเกี่ยวกับกระบวนการ orthogonalization กรัมสำหรับการคำนวณค่าสัมประสิทธิ์การถดถอยหลายและตอนนี้ฉันมีความคิดที่สอง ตามกระบวนการ gram-schmidt ตัวแปรที่อธิบายต่อมาถูกจัดทำดัชนีในหมู่ตัวแปรอื่น ๆ เวกเตอร์ที่เหลือของมันที่เล็กลงนั้นเป็นเพราะเวกเตอร์ที่เหลือของตัวแปรก่อนหน้านั้นจะถูกลบออกจากมัน ดังนั้นค่าสัมประสิทธิ์การถดถอยของตัวแปรอธิบายก็มีขนาดเล็กลงเช่นกัน หากนั่นเป็นจริงเวกเตอร์ที่เหลือของตัวแปรนั้นจะใหญ่กว่าถ้ามันถูกจัดทำดัชนีไว้ก่อนหน้านี้เนื่องจากเวกเตอร์ที่เหลือน้อยกว่าจะถูกลบออกจากมัน ซึ่งหมายความว่าสัมประสิทธิ์การถดถอยจะใหญ่ขึ้นเช่นกัน ตกลงดังนั้นฉันถูกขอให้อธิบายคำถามของฉัน ดังนั้นฉันจึงโพสต์ภาพหน้าจอจากข้อความที่ทำให้ฉันสับสนตั้งแต่แรก ตกลงไปเลย ความเข้าใจของฉันคือว่ามีอย่างน้อยสองตัวเลือกในการคำนวณค่าสัมประสิทธิ์การถดถอย ตัวเลือกแรกจะแสดง (3.6) ในภาพหน้าจอด้านล่าง นี่คือตัวเลือกที่สอง (ฉันต้องใช้หลายภาพหน้าจอ) ถ้าฉันไม่ได้อ่านอะไรผิดพลาด (ซึ่งเป็นไปได้อย่างแน่นอน) ดูเหมือนว่าคำสั่งจะมีความสำคัญในตัวเลือกที่สอง มันมีความสำคัญในตัวเลือกแรกหรือไม่? ทำไมหรือทำไมไม่? หรือกรอบอ้างอิงของฉันสับสนหรือเปล่าว่านี่ไม่ใช่คำถามที่ถูกต้อง? นอกจากนี้ทั้งหมดนี้เกี่ยวข้องกับ Type I Sum of Squares หรือไม่กับ Type II Sum of Squares ขอบคุณล่วงหน้ามากฉันสับสนมาก!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.