สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
“ จบสิ้น” หมายความว่าอย่างไรในวิธีการเรียนรู้ลึก
ฉันต้องการรู้ว่ามันคืออะไรและมันแตกต่างจากการประกอบกันอย่างไร สมมติว่าฉันต้องการบรรลุความแม่นยำสูงในการจัดหมวดหมู่และการแบ่งเซ็กเมนต์สำหรับงานเฉพาะถ้าฉันใช้เครือข่ายที่แตกต่างกันเช่น CNN, RNN และอื่น ๆ เพื่อให้บรรลุสิ่งนี้เรียกว่าแบบ end to end model หรือไม่? (สถาปัตยกรรม?) หรือไม่?

1
การอนุมานตามเงื่อนไขบ่อยครั้งยังคงถูกใช้ในทางปฏิบัติหรือไม่?
ฉันเพิ่งตรวจสอบเอกสารเก่าบางฉบับโดย Nancy Reid, Barndorff-Nielsen, Richard Cox และใช่ Ronald Fisher เล็กน้อยเกี่ยวกับแนวคิดของ "การอนุมานตามเงื่อนไข" ในกระบวนทัศน์ประจำซึ่งดูเหมือนจะหมายถึงการอนุมานอิงเพียง "เซตย่อยที่เกี่ยวข้อง" ของพื้นที่ตัวอย่างไม่ใช่พื้นที่ตัวอย่างทั้งหมด เป็นตัวอย่างที่สำคัญเป็นที่ทราบกันดีว่าช่วงความเชื่อมั่นที่อิงตามสถิติ t สามารถปรับปรุงได้(Goutis & Casella, 1992)หากคุณยังพิจารณาค่าสัมประสิทธิ์การเปลี่ยนแปลงของตัวอย่างด้วย (เรียกว่าสถิติเสริม) ในฐานะที่เป็นคนที่ใช้ความน่าจะเป็นไปตามการอนุมานเป็นประจำฉันคิดว่าเมื่อฉันสร้างช่วงเวลาที่ไม่มั่นใจ % - ความมั่นใจฉันกำลังทำการอนุมานตามเงื่อนไข (โดยประมาณ) เนื่องจากความน่าจะเป็นเป็นเงื่อนไขในตัวอย่างที่สังเกตαα\alpha คำถามของฉันคือนอกเหนือจากการถดถอยโลจิสติกตามเงื่อนไขแล้วฉันไม่เคยเห็นการใช้ความคิดเกี่ยวกับการปรับแต่งสถิติเพิ่มเติมก่อนที่จะอนุมาน การอนุมานแบบนี้ จำกัด อยู่กับตระกูลชี้แจงหรือไม่หรือจะใช้ชื่ออื่นในทุกวันนี้เพื่อให้ดูเหมือนจะถูก จำกัด ฉันพบบทความล่าสุด(Spanos, 2011)ที่ดูเหมือนว่าจะสงสัยอย่างจริงจังเกี่ยวกับวิธีการที่ใช้โดยการอนุมานตามเงื่อนไข (เช่นบรรพบุรุษ) แต่มันเสนอข้อเสนอแนะที่สมเหตุสมผลและมีความซับซ้อนทางคณิตศาสตร์น้อยกว่าที่การอนุมานพารามิเตอร์ในกรณี "ผิดปกติ" (ซึ่งการสนับสนุนของการแจกแจงถูกกำหนดโดยพารามิเตอร์) สามารถแก้ไขได้โดยการตัดทอนการแจกแจงการสุ่มตัวอย่างแบบไม่มีเงื่อนไข Fraser (2004)ให้การปกป้องที่ดีของเงื่อนไข แต่ฉันยังคงทิ้งความรู้สึกว่ามีมากกว่าโชคเล็กน้อยและความฉลาดจะต้องใช้การอนุมานตามเงื่อนไขกับกรณีที่ซับซ้อน ... แน่นอนซับซ้อนกว่าการเรียกไคสแควร์ การประมาณค่าอัตราส่วนความน่าจะเป็นสำหรับการอนุมานตามเงื่อนไข "โดยประมาณ" เวลส์ (2011, p. 163)อาจตอบคำถามของฉัน …

1
การคำนวณอัจฉริยะของ Steve Hsu ในประเทศจีน
ในบล็อกของเขา Steve Hsu นักฟิสิกส์เขียนดังนี้: สมมติว่ามีการกระจายตัวตามปกติมีเพียงประมาณ 10,000 คนในสหรัฐอเมริกาที่แสดงที่ + 4SD และจำนวนใกล้เคียงกันในยุโรปดังนั้นนี่จึงเป็นประชากรที่ได้รับการคัดเลือก หากคุณคาดการณ์ตัวเลขเอเชียตะวันออกเฉียงใต้ของประชากร 1.3 พันล้านคนในประเทศจีนคุณจะได้รับบางอย่างเช่น 300,000 คนในระดับนี้ซึ่งค่อนข้างล้นเหลือ คุณสามารถอธิบายคำแถลงของสตีฟเป็นภาษาอังกฤษธรรมดา - สำหรับนักสถิติโดยใช้ตัวดำเนินการทางคณิตศาสตร์ทั่วไปเช่นและ ?-+++-−-

1
เทคนิคการเสริมข้อมูลที่มีประโยชน์สำหรับเครือข่ายประสาทเทียมระดับลึกคืออะไร?
พื้นหลัง: ฉันเพิ่งเข้าใจในระดับลึกถึงความสำคัญของการเสริมข้อมูลเมื่อการฝึกอบรมเครือข่ายประสาทสับสนหลังจากที่ได้เห็นการพูดคุยที่ดีเยี่ยมนี้โดยเจฟฟรีย์ฮินตัน เขาอธิบายว่าโครงข่ายประสาทเทียมแบบยุคปัจจุบันไม่สามารถสรุปกรอบการอ้างอิงของวัตถุภายใต้การทดสอบทำให้ยากสำหรับเครือข่ายที่จะเข้าใจอย่างแท้จริงว่าภาพสะท้อนของวัตถุนั้นเหมือนกัน งานวิจัยบางชิ้นพยายามแก้ไขสิ่งนี้ นี่คือหนึ่งในตัวอย่างมากมาย ฉันคิดว่าสิ่งนี้ช่วยในการกำหนดวิธีการเพิ่มข้อมูลที่สำคัญในวันนี้เมื่อฝึกอบรมเครือข่ายประสาทเทียม เทคนิคการเสริมข้อมูลมักจะไม่ได้ทำการเปรียบเทียบกัน ดังนั้น: คำถาม: มีเอกสารอะไรบ้างที่ผู้ปฏิบัติงานรายงานว่ามีประสิทธิภาพดีขึ้นเป็นพิเศษ เทคนิคการเสริมข้อมูลที่คุณพบว่ามีประโยชน์อะไรบ้าง?

2
การทำแบบเบย์ก่อนจากผลลัพธ์ที่พบบ่อย
เราควรจะเปลี่ยนผลการค้นหาเป็นประจำไปสู่ ​​Bayesian ได้อย่างไร? พิจารณาสถานการณ์ทั่วไปที่น่าสนใจต่อไปนี้: ทำการทดลองในอดีตและผลลัพธ์ของพารามิเตอร์บางอย่างถูกวัด การวิเคราะห์ทำด้วยวิธีการที่ใช้บ่อย ช่วงความเชื่อมั่นสำหรับได้รับในผลลัพธ์ϕφϕ\phiφϕ\phi ตอนนี้ผมกำลังทำบางการทดสอบใหม่ที่ฉันต้องการที่จะวัดค่าพารามิเตอร์อื่น ๆ บางพูดทั้งและ\การทดลองของฉันแตกต่างจากการศึกษาก่อนหน้า --- มันไม่ได้ใช้วิธีการเดียวกัน ผมอยากจะทำวิเคราะห์คชกรรมและดังนั้นผมจะต้องไพรเออร์ขึ้นในวันที่และ\ϕ θ ϕθθ\thetaφϕ\phiθθ\thetaφϕ\phi ไม่มีการวัดก่อนหน้านี้ที่ได้รับการดำเนินการดังนั้นฉันวาง uninformative (พูดว่าชุดของมัน) ก่อนที่มัน θθ\theta ดังที่กล่าวไว้มีผลลัพธ์ก่อนหน้าสำหรับกำหนดเป็นช่วงความมั่นใจ ในการใช้ผลลัพธ์นั้นในการวิเคราะห์ปัจจุบันของฉันฉันจะต้องแปลผลลัพธ์นักการประจำก่อนหน้านี้เป็นข้อมูลก่อนการวิเคราะห์ของฉัน φϕ\phi ตัวเลือกหนึ่งที่ไม่สามารถใช้งานได้ในสถานการณ์จำลองนี้คือการทำซ้ำการวิเคราะห์ก่อนหน้าซึ่งนำไปสู่การวัดในแบบเบย์ ถ้าฉันสามารถทำสิ่งนี้จะมีหลังจากการทดลองก่อนหน้านี้ที่ฉันจะใช้เป็นของฉันก่อนหน้านี้และจะไม่มีปัญหาϕφϕ\phi φϕ\phi ฉันควรแปล CI ที่ใช้บ่อยเป็นการแจกแจงก่อนแบบเบย์สำหรับการวิเคราะห์ของฉันได้อย่างไร หรือกล่าวอีกนัยหนึ่งฉันจะแปลผลลัพธ์ที่พบบ่อยที่สุดในให้เป็นหลังที่ที่ฉันจะใช้ก่อนหน้านี้ในการวิเคราะห์ได้อย่างไรϕφϕ\phiφϕ\phi ข้อมูลเชิงลึกหรือการอ้างอิงใด ๆ ที่กล่าวถึงปัญหาประเภทนี้ยินดีต้อนรับ

1
เหตุใดเลขคณิตจึงมีขนาดเล็กกว่าการแจกแจงจึงมีความหมายในการแจกแจงแบบล็อก - ปกติ
ดังนั้นฉันจึงมีการสร้างกระบวนการสุ่มเข้าสู่ระบบกระจายตามปกติตัวแปรสุ่มXนี่คือฟังก์ชันความหนาแน่นของความน่าจะเป็นที่สอดคล้องกัน:XXX ผมอยากประมาณการกระจายตัวของการแจกแจงแบบเดิมสักครู่, สมมุติว่าช่วงเวลาที่ 1: ค่าเฉลี่ยเลขคณิต ในการทำเช่นนั้นฉันวาด 100 ตัวแปรสุ่ม 10,000 ครั้งเพื่อให้ฉันสามารถคำนวณค่าเฉลี่ยเลขคณิตได้ 10,000 ค่า มีสองวิธีที่แตกต่างกันในการประมาณค่าเฉลี่ย (อย่างน้อยนั่นคือสิ่งที่ฉันเข้าใจ: ฉันอาจผิด): โดยการคำนวณทางคณิตศาสตร์อย่างชัดเจนหมายถึงวิธีปกติ: X¯= ∑i = 1ยังไม่มีข้อความXผมยังไม่มีข้อความ.X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. หรือโดยการประมาณและจากการแจกแจงปกติพื้นฐาน:จากนั้นค่าเฉลี่ยเป็นμ μ = N Σฉัน= 1ล็อก( X ฉัน )σσ\sigmaμμ\muˉ X =exp(μ+1μ = ∑i = 1ยังไม่มีข้อความเข้าสู่ระบบ( Xผม)ยังไม่มีข้อความσ2= ∑i = 1ยังไม่มีข้อความ( บันทึก( Xผม) - μ )2ยังไม่มีข้อความμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log …

1
อะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยการตอบสนองแบบเศษส่วน?
เท่าที่ฉันทราบความแตกต่างระหว่างตัวแบบโลจิสติกและตัวแบบการตอบสนองแบบเศษส่วน (frm) คือตัวแปรตาม (Y) ซึ่ง frm คือ [0,1] แต่โลจิสติกคือ {0, 1} นอกจากนี้ frm ใช้ตัวประมาณค่าความน่าจะเป็นในการกำหนดพารามิเตอร์ โดยปกติเราสามารถใช้เพื่อให้ได้รูปแบบโลจิสติกโดยglmglm(y ~ x1+x2, data = dat, family = binomial(logit)) สำหรับ FRM เราเปลี่ยนไป family = binomial(logit)family = quasibinomial(logit) ฉันสังเกตเห็นว่าเรายังสามารถใช้family = binomial(logit)เพื่อรับพารามิเตอร์ของ frm เพราะมันให้ค่าประมาณเดียวกัน ดูตัวอย่างต่อไปนี้ library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole …

1
การระบุขนาดเอฟเฟกต์ก่อนหน้าในการวิเคราะห์อภิมาน
ความกังวลเกี่ยวกับคำถามของฉันไพรเออร์กับขนาดของผลกระทบในโครงการของฉันวัดเป็นของโคเฮนDจากการอ่านวรรณกรรมดูเหมือนว่านักบวชที่คลุมเครือมักถูกนำมาใช้เช่นในโรงเรียนแปดตัวอย่างที่เป็นตัวอย่างของการวิเคราะห์อภิมานเบย์แบบลำดับชั้น ในตัวอย่างแปดโรงเรียน, ฉันได้เห็นคลุมเครือก่อนที่ใช้สำหรับการประมาณการของหมู่บ้านเช่น \ หมู่ _ {\ theta} \ ซิม \ operatorname {} ปกติ (0, 100)DDDμθ∼normal(0,100)μθ∼normal⁡(0,100)\mu_{\theta} \sim \operatorname{normal}(0, 100) วินัยของฉันคือจิตวิทยาโดยปกติแล้วขนาดของเอฟเฟกต์จะเล็ก เป็นเช่นนี้ผมกำลังพิจารณาที่จะใช้นี้ก่อน: μθ∼normal(0,.5)μθ∼normal⁡(0,.5)\mu_{\theta} \sim \operatorname{normal}(0, .5)0.5) เหตุผลของฉันก่อนหน้านี้อย่างแน่นหนาคือจากความเข้าใจของฉันเกี่ยวกับนักบวชฉันกำลังวางความน่าจะเป็น 95% ก่อนที่μθμθ\mu_{\theta}อยู่ระหว่าง -1 ถึง 1 ทำให้ความน่าจะเป็นก่อนหน้านี้ 5% สำหรับผลกระทบที่ใหญ่กว่า - 1 หรือ 1 เนื่องจากเอฟเฟกต์ที่มีขนาดใหญ่นี้ไม่ค่อยเกิดขึ้นนี่เป็นเหตุผลที่สมควรมาก่อนหรือไม่?

1
การป้องกันการโอเวอร์โหลดของ LSTM ในชุดข้อมูลขนาดเล็ก
ฉันกำลังสร้างแบบจำลอง 15000 ทวีตสำหรับการคาดการณ์ความเชื่อมั่นโดยใช้เลเยอร์ LSTM เดียวกับหน่วยที่ซ่อนอยู่ 128 หน่วยโดยใช้การแทนคำที่เหมือนคำ 2vec ด้วย 80 มิติ ฉันได้รับความแม่นยำในการสืบเชื้อสาย (38% กับการสุ่ม = 20%) หลังจาก 1 ยุค การฝึกอบรมเพิ่มเติมทำให้ความถูกต้องในการตรวจสอบความถูกต้องเริ่มลดลงเนื่องจากความแม่นยำในการฝึกอบรมเริ่มขึ้น ฉันจึงคิดหาวิธีที่จะทำให้เป็นมาตรฐาน ฉันไม่ต้องการลดจำนวนหน่วยที่ซ่อนอยู่ (128 หน่วยดูเหมือนน้อยไปแล้ว) ขณะนี้ฉันใช้การออกกลางคันด้วยความน่าจะเป็น 50% แต่อาจเพิ่มขึ้นได้ เครื่องมือเพิ่มประสิทธิภาพคืออดัมพร้อมพารามิเตอร์เริ่มต้นสำหรับ Keras ( http://keras.io/optimizers/#adam ) วิธีที่มีประสิทธิภาพในการลดการ overfitting สำหรับโมเดลนี้ในชุดข้อมูลของฉันคืออะไร?

4
พล็อตกล่องข้อมูลใดให้ข้อมูลว่าฮิสโตแกรมไม่มี?
ฮิสโทแกรมให้ความรู้สึกที่ดีเกี่ยวกับการกระจายตัวของตัวแปร พล็อตกล่องพยายามทำสิ่งเดียวกัน แต่อย่าให้ภาพการกระจายตัวของตัวแปรนี้เป็นอย่างดี ฉันไม่เข้าใจว่าทำไมคนถึงใช้กล่องแปลง ฮิสโทแกรมดีกว่าในทุกด้าน มีเหตุผลที่ฉันจะใช้ทั้งคู่หรือไม่ สิ่งเดียวที่ฉันคิดว่าพล็อตกล่องให้คือ: ค่าผิดปกติ! มันบอกเราว่าการสังเกตใดที่อาจเป็นค่าผิดปกติ

2
ตัวอย่างอิสระ t-test: จริง ๆ แล้วข้อมูลจำเป็นต้องแจกให้กับกลุ่มตัวอย่างขนาดใหญ่หรือไม่
สมมุติว่าฉันต้องการทดสอบว่าตัวอย่างอิสระสองตัวอย่างมีค่าเฉลี่ยต่างกันหรือไม่ ฉันรู้ว่าการกระจายพื้นฐานคือไม่ปกติ ถ้าฉันเข้าใจถูกต้องสถิติทดสอบของฉันคือค่าเฉลี่ยและสำหรับขนาดตัวอย่างที่มีขนาดใหญ่พอค่าเฉลี่ยควรกระจายตามปกติแม้ว่าตัวอย่างจะไม่ได้ การทดสอบความสำคัญเชิงพารามิเตอร์ควรจะใช้ได้ในกรณีนี้ใช่ไหม ฉันได้อ่านข้อมูลที่ขัดแย้งและสับสนเกี่ยวกับเรื่องนี้ดังนั้นฉันขอขอบคุณการยืนยัน (หรือคำอธิบายว่าทำไมฉันถึงผิด) นอกจากนี้ฉันได้อ่านแล้วว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่ฉันควรใช้ค่าสถิติ z แทนค่าสถิติ แต่ในทางปฏิบัติการแจกแจงแบบ t จะมาบรรจบกับการแจกแจงแบบปกติและสถิติทั้งสองควรเหมือนกันไม่ใช่หรือ? แก้ไข : ด้านล่างนี้เป็นแหล่งข้อมูลที่อธิบายการทดสอบ z พวกเขาทั้งสองระบุว่าประชากรจะต้องกระจายตามปกติ: ที่นี่มันบอกว่า "โดยไม่คำนึงถึงประเภทของการทดสอบ Z- ใช้มันสันนิษฐานว่าประชากรจากตัวอย่างที่วาดเป็นเรื่องปกติ" และที่นี่ข้อกำหนดสำหรับการทดสอบ z ถูกแสดงรายการเป็น "การกระจายสองแบบปกติ แต่เป็นประชากรอิสระσเป็นที่รู้จัก"

2
สิ่งที่เป็นที่รู้จักและใช้งานอยู่ในปัจจุบันของทฤษฎีความโกลาหลในการขุดข้อมูล?
ในขณะที่การอ่านตลาดมวลชนบางงานเกี่ยวกับทฤษฎีความโกลาหลในช่วงไม่กี่ปีที่ผ่านมาฉันเริ่มสงสัยว่ามันสามารถนำไปประยุกต์ใช้กับการทำเหมืองข้อมูลและด้านอื่น ๆ ที่เกี่ยวข้องได้อย่างไรเช่นตาข่ายประสาทการจดจำรูปแบบการจัดการความไม่แน่นอน ฯลฯ มีตัวอย่างน้อยมากของแอปพลิเคชั่นดังกล่าวในการวิจัยที่ตีพิมพ์ซึ่งฉันสงสัยว่าก) พวกเขาได้นำไปใช้จริงในการทดลองและโครงการที่เผยแพร่แล้วและข) ถ้าไม่ทำไมพวกเขาถึงใช้น้อยมากในความสัมพันธ์เหล่านี้ สาขา? การอภิปรายส่วนใหญ่เกี่ยวกับทฤษฎีความโกลาหลที่ฉันเคยเห็นมาในปัจจุบันเกี่ยวข้องกับแอปพลิเคชั่นทางวิทยาศาสตร์ที่มีประโยชน์โดยสิ้นเชิง แต่ไม่ค่อยมีส่วนเกี่ยวข้องกับการทำเหมืองข้อมูล หนึ่งในตัวอย่างต้นแบบคือปัญหาสามตัวจากฟิสิกส์ ฉันต้องการนำการอภิปรายเกี่ยวกับการใช้งานทางวิทยาศาสตร์ทั่วไปประเภทนี้และ จำกัด คำถามเฉพาะแอปพลิเคชันที่เกี่ยวข้องกับการทำเหมืองข้อมูลและสาขาที่เกี่ยวข้องซึ่งเห็นได้ชัดว่ามีอยู่น้อยมากในวรรณกรรม รายการแอปพลิเคชันที่มีศักยภาพด้านล่างนี้สามารถใช้เป็นจุดเริ่มต้นของการค้นหางานวิจัยที่ตีพิมพ์ แต่ฉันสนใจเฉพาะแอปพลิเคชันเหล่านั้นที่ได้นำไปใช้จริง สิ่งที่ฉันกำลังมองหานั้นเป็นที่ทราบกันดีว่าการใช้ทฤษฎีความโกลาหลกับการขุดข้อมูล ขัดแย้งกับรายการแอพพลิเคชั่นที่มีศักยภาพซึ่งกว้างกว่ามาก นี่คือตัวอย่างเล็ก ๆ ของแนวคิดนอกคอกสำหรับแอปพลิเคชันการขุดข้อมูลที่เกิดขึ้นกับฉันขณะอ่าน อาจจะไม่มีพวกมันในทางปฏิบัติบางทีบางคนอาจถูกนำไปใช้จริงในขณะที่เราพูด แต่ไปตามเงื่อนไขที่ฉันยังไม่คุ้นเคย: การระบุโครงสร้างที่คล้ายกันของตัวเองในการจดจำรูปแบบดังที่ Mandelbrot ทำในทางปฏิบัติในกรณีที่เกิดข้อผิดพลาดเกิดขึ้นในสายโทรศัพท์อะนาล็อกเมื่อสองสามทศวรรษที่แล้ว การเผชิญหน้ากับผลการขุดของ Feigenbaum อย่างต่อเนื่อง (อาจเป็นในลักษณะที่คล้ายคลึงกับที่นักทฤษฎีสตริงถูกทำให้ตกใจเพื่อดูสมการของ Maxwell ปรากฏขึ้นในสถานที่ที่ไม่คาดคิดในระหว่างการวิจัย) การระบุความลึกของบิตที่เหมาะสมที่สุดสำหรับตุ้มน้ำหนักโครงข่ายประสาทและการทดสอบการขุดต่างๆ ฉันสงสัยเกี่ยวกับอันนี้เนื่องจากสเกลตัวเลขขนาดเล็กที่หายตัวไปซึ่งความไวต่อเงื่อนไขเริ่มต้นเข้ามามีบทบาทซึ่งบางส่วนมีส่วนรับผิดชอบต่อความไม่แน่นอนของฟังก์ชั่นที่เกี่ยวข้องกับความโกลาหล การใช้ความคิดของมิติเศษส่วนในรูปแบบอื่น ๆ ที่ไม่จำเป็นต้องเกี่ยวข้องกับความอยากรู้อยากเห็นเศษส่วนที่น่าสนใจเช่น Menger Sponges, Koch Curves หรือ Sierpinski Carpets บางทีแนวคิดนี้สามารถนำไปใช้กับมิติของแบบจำลองการทำเหมืองในบางวิธีที่เป็นประโยชน์โดยการทำให้มันเป็นเศษส่วน? ได้รับกฎหมายพลังงานเช่นเดียวกับที่เข้ามาเป็นเศษส่วน เนื่องจากฟังก์ชั่นที่พบในแฟร็กทัลไม่ใช่แบบไม่เชิงเส้นฉันจึงสงสัยว่ามีแอปพลิเคชันบางอย่างในการประยุกต์กับการถดถอยแบบไม่เชิงเส้น ทฤษฎีความโกลาหลมีความสัมพันธ์วง (และบางครั้งคุยโว) กับเอนโทรปีดังนั้นฉันจึงสงสัยว่ามีวิธีการคำนวณเอนโทรปีของแชนนอน …

3
เครื่องสามารถใช้โมเดลการเรียนรู้ของเครื่อง (GBM, NN และอื่น ๆ ) สำหรับการวิเคราะห์การอยู่รอดได้อย่างไร
ฉันรู้ว่าแบบจำลองทางสถิติแบบดั้งเดิมเช่น Cox Proportional Hazards Regression & แบบจำลอง Kaplan-Meier บางอย่างสามารถใช้ในการทำนายวันจนกว่าเหตุการณ์ที่จะเกิดขึ้นต่อไปจะบอกว่าล้มเหลว ฯลฯ เช่นการวิเคราะห์การอยู่รอด คำถาม การถดถอยของโมเดลการเรียนรู้ของเครื่องเช่น GBM, โครงข่ายใยประสาทเทียม ฯลฯ สามารถใช้ในการทำนายวันจนถึงเหตุการณ์ได้อย่างไร? ฉันเชื่อว่าการใช้วันจนกว่าจะเกิดขึ้นเป็นตัวแปรเป้าหมายและการใช้โมเดลการถดถอยจะไม่ทำงาน ทำไมมันไม่ทำงานและจะแก้ไขอย่างไร เราสามารถแปลงปัญหาการวิเคราะห์การเอาชีวิตรอดเป็นการจัดประเภทแล้วได้รับความน่าจะเป็นของการอยู่รอดได้หรือไม่? ถ้าเช่นนั้นจะสร้างตัวแปรเป้าหมายไบนารีได้อย่างไร? ข้อดีและข้อเสียของวิธีการเรียนรู้ของเครื่องเทียบกับการถดถอยอันตรายของ Cox Proportional & รุ่น Kaplan-Meier ฯลฯ คืออะไร? ลองนึกภาพข้อมูลตัวอย่างอินพุตเป็นรูปแบบด้านล่าง บันทึก: เซ็นเซอร์ส่ง Ping ข้อมูลในช่วงเวลา 10 นาที แต่ในบางครั้งข้อมูลอาจหายไปเนื่องจากปัญหาเครือข่าย ฯลฯ ตามที่แสดงโดยแถวที่มี NA var1, var2, var3 เป็นตัวทำนายตัวแปรอธิบาย failure_flag บอกว่าเครื่องล้มเหลวหรือไม่ เรามีข้อมูล 6 เดือนล่าสุดทุก ๆ …

3
การมีส่วนร่วมทางสถิติหลักของ Ronald Fisher คืออะไร
ริชาร์ดว์คินส์ได้อธิบายโรนัลด์ฟิชเชอร์เป็น "พ่อของสถิติที่ทันสมัยและการออกแบบการทดลอง" สายซึ่งเป็นที่ยกมาในฟิชเชอร์ของวิกิพีเดียประวัติ และยังมีแอนเดอรส์ฮาลด์เรียกเขาว่า "อัจฉริยะที่เกือบจะโดดเดี่ยวเดียวดายสร้างรากฐานสำหรับวิทยาศาสตร์ทางสถิติที่ทันสมัย" ในหนังสือของเขาประวัติศาสตร์ของคณิตศาสตร์สถิติ ฉันแค่สงสัยว่าสิ่งที่เขาทำเพื่อให้ผู้คนให้เขาประเมินสูงเช่นนี้?

1
ประเมิน Random Forest: OOB กับ CV
เมื่อเราประเมินคุณภาพของป่าสุ่มตัวอย่างเช่นใช้ AUC มีความเหมาะสมกว่าหรือไม่ในการคำนวณปริมาณเหล่านี้ผ่านตัวอย่าง Out of Bag หรือชุดตรวจสอบข้ามที่ถูกระงับไว้? ฉันได้ยินมาว่าการคำนวณมันผ่านตัวอย่าง OOB ให้การประเมินในแง่ร้ายมากกว่า แต่ฉันไม่เห็นสาเหตุ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.