สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ทำความเข้าใจเกี่ยวกับการถดถอยกระบวนการแบบเกาส์ผ่านมุมมองฟังก์ชั่นพื้นฐานมิติที่ไม่มีที่สิ้นสุด
บ่อยครั้งมีการกล่าวกันว่าการถดถอยของกระบวนการเกาส์เซียนสอดคล้องกับการถดถอยเชิงเส้นแบบเบย์ด้วยฟังก์ชั่นพื้นฐานจำนวนไม่ จำกัด ตอนนี้ฉันกำลังพยายามที่จะเข้าใจในรายละเอียดเพื่อให้ได้สัญชาตญาณว่ารุ่นใดที่ฉันสามารถแสดงโดยใช้ GPR คุณคิดว่านี่เป็นวิธีการที่ดีในการพยายามทำความเข้าใจ GPR หรือไม่? ในหนังสือGaussian Processes สำหรับการเรียนรู้ของเครื่อง Rasmussen และ Williams แสดงให้เห็นว่าชุดของกระบวนการ gaussian ที่อธิบายโดยเคอร์เนลเลขชี้กำลังเชิงเอ็กซ์โพเรนเชียลพารามิเตอร์สามารถอธิบายได้อย่างเท่าเทียมกันว่าเป็นการถดถอยแบบเบย์ด้วยความเชื่อก่อนหน้านี้w∼N(0,σ 2 p I)กับน้ำหนักและจำนวนฟังก์ชันพื้นฐานพื้นฐานของรูปแบบ ดังนั้นพารามิเตอร์ของเคอร์เนลสามารถแปลได้อย่างเต็มที่ในการกำหนดพารามิเตอร์ของฟังก์ชันพื้นฐานk(x,x′;l)=σ2pexp(−(x−x)22l2)k(x,x′;l)=σp2exp⁡(−(x−x)22l2)k(x,x';l)= \sigma_p^2\exp\left(-\frac{(x-x)^2}{2l^2}\right)w∼N(0,σ2pI)w∼N(0,σp2I)w \sim \mathcal{N}(0,\sigma_p^2 I)ϕc(x;l)=exp(−(x−c)22l2)ϕc(x;l)=exp⁡(−(x−c)22l2)\phi_c(x;l)=\exp\left(-\frac{(x-c)^2}{2l^2}\right) parameterisation ของเคอร์เนล differentiable สามารถแปลเป็น parameterisation ของฟังก์ชั่นพื้นฐานและพื้นฐานหรือมีเมล็ดที่แตกต่างกันได้หรือไม่เช่นหมายเลขของฟังก์ชั่นพื้นฐานขึ้นอยู่กับการกำหนดค่าหรือไม่ ความเข้าใจของฉันจนถึงตอนนี้สำหรับฟังก์ชันเคอร์เนลคงที่ k (x, x ') ทฤษฎีของ Mercer'sบอกเราว่าสามารถแสดงเป็นk(x,x′)k(x,x′)k(x,x') โดยที่ ϕ iเป็นฟังก์ชันไม่ว่าจะเป็นจำนวนจริงหรือจำนวนเชิงซ้อน ดังนั้นสำหรับเคอร์เนลที่กำหนดโมเดลการถดถอยแบบเบย์ที่สอดคล้องกันจะมี w ∼ Nก่อนหน้า ( 0 , diag)k ( x …

5
เส้นทางสู่สถิติทางคณิตศาสตร์ที่ไม่มีพื้นฐานการวิเคราะห์: หนังสือเรียนที่เหมาะสำหรับการศึกษาด้วยตนเอง
ฉันมีความโน้มเอียงทางคณิตศาสตร์ค่อนข้างมาก - มีคณิตศาสตร์ 6 ภาคการศึกษาในระดับปริญญาตรีของฉัน - แม้ว่าฉันจะไม่ได้ฝึกฝนสักหน่อยและพูดช้าๆด้วยสมการเชิงอนุพันธ์ย่อยบางส่วนและการบูรณาการเส้นทางที่แนวคิดของฉันกลับมา ฉันยังไม่เคยมีหลักสูตรเกี่ยวกับการพิสูจน์ทางคณิตศาสตร์ (การคิดเชิงคณิตศาสตร์) หรือการวิเคราะห์ ฉันเข้าใจความน่าจะเป็นในระดับบัณฑิตศึกษาด้วย - ได้ศึกษาอย่างเป็นทางการและฟื้นฟูความรู้ของฉันเมื่อไม่นานมานี้ ฉันยังมีหลักสูตรระดับบัณฑิตศึกษาสองสามหลักสูตรเกี่ยวกับสถิติและการเรียนรู้ทางสถิติ ฉันต้องการศึกษาสถิติทางคณิตศาสตร์ในอีก 18-24 เดือนข้างหน้าโดยไม่สนใจผลประโยชน์ส่วนตัว ฉันต้องการสละเวลาเรียน 5 ชั่วโมงโดยเฉลี่ยต่อสัปดาห์ ฉันเป็นบิตที่สูญเสียในการทำ ฉันลองศึกษาจากหนังสือCasella และ Bergerแต่ไม่สามารถทำอะไรได้เลย ฉันพบว่าหนังสือเล่มนี้น่าเบื่อนิดหน่อยและวิธีการรักษายาก สิ่งที่ฉันพบยากเกี่ยวกับ Casella และ Berger: อายที่จะพูดแบบนี้ แต่การเริ่มต้นสำหรับการตั้งค่าประเภท - วิธีการบรรจุเพื่อลดพื้นที่สีขาวทำให้ฉันหมดแรง มีหลักฐานมากมายที่อยู่ที่นั่น แต่ฉันรู้สึกว่าขาดสัญชาตญาณว่าทำไมเราจึงพยายามบรรลุผลและสิ่งที่เป็นเป้าหมายที่ใหญ่กว่าในมือ การอ้างอิงของบทพิสูจน์จากบทก่อนหน้านี้เป็นวิธีที่ทำให้วัสดุค่อนข้างยากสำหรับฉัน - ฉันจะกลับไปมากจนกระทั่งในที่สุดฉันก็ยอมแพ้ ตัวอย่างดูเหมือนจะเป็นไปได้มาก แต่ฉันไม่สามารถแก้ไขปัญหาได้ - ปัญหาดูเหมือนว่าจะอยู่ในชั้นเรียนด้วยตัวเอง ฉันไม่สามารถเข้าไปในเนื้อหา - และฉันสงสัยว่าวิธีการทำงานของจิตใจของฉันฉันต้องการการรักษาที่เข้มงวดมากขึ้น - ฉันควรพิจารณาวิธีการทางทฤษฎีการวัดทางสถิติสถิติหรือไม่? ดังนั้นคำถาม : มีตำราเรียนที่ใครบางคนในรองเท้าของฉันสามารถเรียนรู้และสอนตัวเองได้ …

3
มีอัลกอริธึมที่รวดเร็วสำหรับการคำนวณ SVD ที่ถูกตัดทอนหรือไม่
อาจจะปิดหัวข้อที่นี่ แต่มีอยู่หลายคน ( หนึ่ง , สอง ) คำถามที่เกี่ยวข้องแล้ว สำรวจวรรณกรรม (หรือการค้นหา google สำหรับ Truncated SVD Algorithms) เปิดเอกสารจำนวนมากที่ใช้ SVD ที่ถูกตัดทอนในรูปแบบต่าง ๆ และเรียกร้อง (น่าหงุดหงิดมักไม่มีการอ้างอิง) ว่ามีอัลกอริธึมที่รวดเร็วสำหรับการคำนวณ แต่ไม่มีใคร ดูเหมือนว่าจะชี้ไปที่อัลกอริธึมเหล่านั้น สิ่งเดียวที่ฉันสามารถหาเป็นหนึ่งในขั้นตอนวิธีการสุ่มที่ใช้ในห้องสมุด redSVD สิ่งที่ฉันต้องการเห็นคือชุดของอัลกอริธึมที่แน่นอนและไม่แน่นอนเหมาะสำหรับการทำความเข้าใจว่าระบบทำงานอย่างไร ใครบ้างมีการอ้างอิงที่ดีสำหรับสิ่งนี้หรือไม่?

2
การสุ่มตัวอย่างจากการแจกแจง von Mises-Fisher ใน Python?
ฉันกำลังมองหาวิธีง่ายๆในการสุ่มตัวอย่างจากการแจกแจงหลายตัวแปร von Mises-Fisherใน Python ฉันได้ดูในโมดูลสถิติใน scipyและโมดูล numpyแต่พบการกระจาย von Mises univariate เท่านั้น มีรหัสอะไรบ้าง? ฉันยังไม่พบ เห็นได้ชัดว่า Wood (1994) ได้ออกแบบอัลกอริทึมสำหรับการสุ่มตัวอย่างจากการกระจาย vMF ตามลิงค์นี้แต่ฉันไม่พบกระดาษ - แก้ไขเพื่อความแม่นยำฉันสนใจอัลกอริทึมที่หายากในวรรณกรรม (เอกสารส่วนใหญ่เน้นที่ ) บทความ seminal (Wood, 1994) ไม่สามารถพบได้ฟรีสำหรับความรู้ของฉันS2S2S^2

2
การแปลงข้อมูล: ตัวแปรทั้งหมดหรือเฉพาะที่ไม่ใช่แบบปกติ?
ในการค้นพบสถิติของ Andy Field การใช้ SPSS เขาระบุว่าตัวแปรทั้งหมดจะต้องถูกแปลง อย่างไรก็ตามในสิ่งพิมพ์: "การตรวจสอบความสัมพันธ์เชิงพื้นที่ที่แตกต่างกันระหว่างการใช้ที่ดินและคุณภาพน้ำโดยใช้การถดถอยเชิงน้ำหนัก I: การออกแบบรูปแบบและการประเมินผล" พวกเขาระบุว่าเฉพาะตัวแปรที่ไม่ปกติเท่านั้นที่ถูกเปลี่ยน การวิเคราะห์นี้เฉพาะเจาะจงหรือไม่ ตัวอย่างเช่นในการเปรียบเทียบวิธีการเปรียบเทียบบันทึกกับข้อมูลดิบจะให้ผลที่แตกต่างอย่างเห็นได้ชัดในขณะที่เมื่อใช้บางอย่างเช่นการถดถอยเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรมันจะมีความสำคัญน้อยลง แก้ไข: นี่คือหน้าข้อความเต็มในส่วน "การแปลงข้อมูล": และนี่คือลิงค์ไปยังกระดาษ: http://www.sciencedirect.com/science/article/pii/S0048969708009121

3
ฉันจะตรวจจับเซ็กเมนต์ของชุดข้อมูลโดยทางโปรแกรมให้เหมาะสมกับเส้นโค้งที่ต่างกันได้อย่างไร
มีอัลกอริธึมที่มีเอกสารใด ๆ ในการแยกส่วนของชุดข้อมูลที่กำหนดเป็นส่วนโค้งที่แตกต่างกันของชุดข้อมูลที่เหมาะสมที่สุดหรือไม่? ตัวอย่างเช่นมนุษย์ส่วนใหญ่ที่ดูแผนภูมิข้อมูลนี้จะแบ่งออกเป็น 3 ส่วนอย่างง่าย: ส่วนของไซน์, ส่วนเชิงเส้นและส่วนอธิบายอินเวอร์ส อันที่จริงฉันสร้างสิ่งนี้ขึ้นมาด้วยคลื่นไซน์เส้นและสูตรเลขชี้กำลังแบบง่าย มีอัลกอริธึมที่มีอยู่สำหรับการค้นหาชิ้นส่วนเช่นนั้นซึ่งสามารถติดตั้งแยกกันกับส่วนโค้ง / เส้นต่าง ๆ เพื่อสร้างชุดข้อมูลเชิงประกอบที่เหมาะที่สุดกับชุดย่อยของข้อมูลหรือไม่? โปรดทราบว่าถึงแม้ว่าตัวอย่างจะมีส่วนท้ายของกลุ่มค่อนข้างมาก แต่ก็ไม่จำเป็นต้องเป็นอย่างนั้น นอกจากนี้ยังอาจมีการกระทุ้งฉับพลันในค่าที่ตัดส่วน บางทีกรณีเหล่านั้นจะง่ายต่อการตรวจจับ อัปเดต: นี่คือรูปภาพของข้อมูลจริงเล็กน้อย: อัปเดต 2: นี่คือชุดข้อมูลจริงขนาดเล็กผิดปกติ (มีเพียง 509 จุดข้อมูล): 4,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235 นี่มันเป็นสถานที่เกิดเหตุด้วยappoximateตำแหน่งของบางองค์ประกอบโลกแห่งความจริงที่รู้จักกันขอบทำเครื่องหมายด้วยเส้นประหรูหราเราจะไม่ปกติมี: อย่างไรก็ตามความหรูหราอย่างหนึ่งที่เรามีคือการเข้าใจถึงปัญหาหลังเหตุการณ์ข้อมูลในกรณีของฉันไม่ใช่อนุกรมเวลา แต่มีความสัมพันธ์เชิงพื้นที่ มันสมเหตุสมผลแล้วที่จะวิเคราะห์ชุดข้อมูลทั้งหมด (โดยปกติคือจุดข้อมูล 5,000 - 15,000 จุด) ในคราวเดียวไม่ใช่อย่างต่อเนื่อง

3
ข้อสมมติฐานในการรับค่าประมาณ OLS
บางคนสามารถอธิบายสั้น ๆ ให้ฉันได้ทำไมจึงต้องใช้สมมติฐานทั้งหกเพื่อคำนวณค่าประมาณ OLS ฉันพบเฉพาะเกี่ยวกับความหลากหลายทางชีวภาพ - ว่าถ้ามันมีอยู่เราไม่สามารถสลับเมทริกซ์ (X'X) และประมาณการตัวประมาณโดยรวม แล้วคนอื่น ๆ (เช่นลิเนียริตี้เชิงเส้นศูนย์ข้อผิดพลาดเฉลี่ย ฯลฯ )?

3
บานพับขาดทุนและข้อดีและข้อเสีย / ข้อ จำกัด
การสูญเสียบานพับสามารถกำหนดใช้และการสูญเสียล็อกสามารถกำหนดเป็นล็อก( 1 + ประสบการณ์( - Y ฉันW T xฉัน ) )สูงสุด ( 0 , 1 - yผมWTxผม)สูงสุด(0,1-YผมWTxผม)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)เข้าสู่ระบบ( 1 + ประสบการณ์( - yผมWTxผม) )เข้าสู่ระบบ(1+ประสบการณ์⁡(-YผมWTxผม))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) ฉันมีคำถามต่อไปนี้: มีข้อเสียของการสูญเสียบานพับ (เช่นไวต่อค่าผิดปกติตามที่ระบุไว้ในhttp://www.unc.edu/~yfliu/papers/rsvm.pdf ) หรือไม่? อะไรคือความแตกต่างข้อดีข้อเสียของหนึ่งเมื่อเทียบกับที่อื่น

4
ช่วงความเชื่อมั่นเมื่อขนาดตัวอย่างใหญ่มาก
คำถามของฉันสามารถใช้ถ้อยคำใหม่เป็น "วิธีการประเมินข้อผิดพลาดการสุ่มตัวอย่างโดยใช้ข้อมูลขนาดใหญ่" โดยเฉพาะอย่างยิ่งสำหรับสิ่งพิมพ์วารสาร นี่คือตัวอย่างที่แสดงให้เห็นถึงความท้าทาย จากชุดข้อมูลที่มีขนาดใหญ่มาก (ผู้ป่วยที่ไม่ซ้ำกันมากกว่า 100,000 รายและยาที่กำหนดจากโรงพยาบาล 100 แห่ง) ฉันสนใจที่จะประเมินสัดส่วนของผู้ป่วยที่ทานยาโดยเฉพาะ มันตรงไปตรงมาเพื่อให้ได้สัดส่วนนี้ ช่วงความเชื่อมั่นของมัน (เช่นพารามิเตอร์หรือ bootstrap) แน่น / แคบอย่างไม่น่าเชื่อเพราะ n มีขนาดใหญ่มาก ในขณะที่โชคดีที่มีตัวอย่างขนาดใหญ่ฉันยังคงค้นหาวิธีการประเมินนำเสนอและ / หรือแสดงภาพความน่าจะเป็นข้อผิดพลาดบางรูปแบบ ในขณะที่ดูเหมือนว่าไม่ช่วยเหลือ (ถ้าไม่ทำให้เข้าใจผิด) เพื่อใส่ / แสดงช่วงความเชื่อมั่น (เช่น 95% CI: .65878 - .65881) แต่ก็ดูเหมือนว่าเป็นไปไม่ได้ที่จะหลีกเลี่ยงบางข้อความเกี่ยวกับความไม่แน่นอน โปรดแจ้งให้เราทราบว่าคุณคิดอย่างไร ฉันจะขอบคุณวรรณกรรมใด ๆ ในหัวข้อนี้ วิธีในการหลีกเลี่ยงความมั่นใจในข้อมูลแม้จะมีกลุ่มตัวอย่างขนาดใหญ่

1
เหตุใดตัวแบบผสมแบบผสมจึงแก้ปัญหาการพึ่งพาได้?
สมมติว่าเราสนใจว่าคะแนนสอบของนักเรียนจะได้รับผลกระทบจากจำนวนชั่วโมงที่นักเรียนเหล่านั้นเรียนอย่างไร เพื่อสำรวจความสัมพันธ์นี้เราสามารถเรียกใช้การถดถอยเชิงเส้นต่อไปนี้: exam.gradesi=a+β1×hours.studiedi+eiexam.gradesi=a+β1×hours.studiedi+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i แต่ถ้าเราสุ่มตัวอย่างนักเรียนจากโรงเรียนต่าง ๆ เราอาจคาดหวังว่านักเรียนในโรงเรียนเดียวกันจะคล้ายกันมากกว่านักเรียนจากโรงเรียนต่าง ๆ เพื่อจัดการกับปัญหาการพึ่งพานี้คำแนะนำในหนังสือเรียน / บนเว็บไซต์จำนวนมากคือการใช้เอฟเฟกต์แบบผสมและเข้าโรงเรียนเป็นเอฟเฟกต์แบบสุ่ม ดังนั้นโมเดลจะกลายเป็น: แต่ทำไมมันถึงแก้ปัญหาการพึ่งพาที่มีอยู่ในการถดถอยเชิงเส้น?exam.gradesi=a+β1×hours.studiedi+schoolj+eiexam.gradesi=a+β1×hours.studiedi+schoolj+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i โปรดตอบกลับราวกับว่าคุณกำลังคุยกับเด็กอายุ 12 ปี

1
ทำไมการเพิ่มเอฟเฟกต์ความล่าช้าจึงเพิ่มความเบี่ยงเบนในโมเดลลำดับชั้นแบบเบย์?
ข้อมูลประกอบ:ขณะนี้ฉันกำลังทำงานเปรียบเทียบรูปแบบลำดับชั้นแบบเบย์ต่างๆ ข้อมูลyijyijy_{ij}มีตัวเลขของการวัดเป็นอยู่ที่ดีสำหรับผู้เข้าร่วมiiiและเวลาที่ jjjjฉันมีผู้เข้าร่วมประมาณ 1,000 คนและผู้สังเกตการณ์ 5 ถึง 10 คนต่อผู้เข้าร่วม เช่นเดียวกับชุดข้อมูลระยะยาวส่วนใหญ่ฉันคาดหวังว่าจะเห็นรูปแบบความสัมพันธ์อัตโนมัติซึ่งการสังเกตที่ใกล้เวลาจะมีความสัมพันธ์มากกว่ารูปแบบอื่น ๆ ลดความซับซ้อนของบางสิ่งบางอย่างโมเดลพื้นฐานมีดังนี้: yij∼N(μij,σ2)yij∼N(μij,σ2)y_{ij} \sim N(\mu_{ij}, \sigma^2) ฉันกำลังเปรียบเทียบรุ่นที่ไม่มีความล่าช้า: μij=β0iμij=β0i\mu_{ij} = \beta_{0i} ด้วยความล่าช้าแบบ: μij=β0i+β1(yi(j−1)−β0i)μij=β0i+β1(yi(j−1)−β0i)\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i}) β0iβ0i\beta_{0i}β1β1\beta_1yi0yi0y_{i0} ผลลัพธ์ที่ฉันได้รับบ่งชี้ว่า: พารามิเตอร์ lag มีค่าประมาณ. 18, 95% CI [.14, .21] คือมันไม่ใช่ศูนย์ ความเบี่ยงเบนเฉลี่ยและ DIC เพิ่มขึ้นหลายร้อยเมื่อความล่าช้ารวมอยู่ในโมเดล การตรวจสอบการคาดการณ์หลังแสดงให้เห็นว่าการรวมเอฟเฟกต์ความล่าช้าแบบจำลองสามารถกู้คืนความสัมพันธ์อัตโนมัติในข้อมูลได้ดีขึ้น ดังนั้นโดยสรุปพารามิเตอร์ lag ที่ไม่เป็นศูนย์และการตรวจสอบการทำนายหลังแนะนำโมเดล lag จะดีกว่า ยังหมายถึงความเบี่ยงเบนและ …

2
GLM: การตรวจสอบตัวเลือกการกระจายและฟังก์ชันลิงก์
ฉันมีโมเดลเชิงเส้นทั่วไปที่ใช้ฟังก์ชันการแจกแจงแบบเกาส์และล็อกลิงก์ หลังจากติดตั้งแบบจำลองแล้วฉันจะตรวจสอบส่วนที่เหลือ: พล็อต QQ, ส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้, ฮิสโตแกรมของส่วนที่เหลือ (ยอมรับว่าจำเป็นต้องใช้ความระมัดระวังเนื่องจาก) ทุกอย่างดูดี สิ่งนี้ดูเหมือนจะแนะนำ (สำหรับฉัน) ว่าทางเลือกของการแจกแจงแบบเกาส์นั้นค่อนข้างสมเหตุสมผล หรืออย่างน้อยที่สุดสิ่งที่เหลืออยู่สอดคล้องกับการกระจายตัวที่ฉันใช้ในแบบจำลองของฉัน Q1 : มันจะไปไกลเกินกว่าที่จะยืนยันว่าเป็นตัวเลือกการกระจายตัวของฉันหรือไม่? ฉันเลือกฟังก์ชั่นบันทึกการเชื่อมโยงเพราะตัวแปรตอบกลับของฉันเป็นค่าบวกเสมอ แต่ฉันต้องการการยืนยันว่าเป็นทางเลือกที่ดี Q2 : มีการทดสอบใด ๆ เช่นการตรวจสอบสิ่งที่เหลืออยู่สำหรับการเลือกการแจกแจงที่สามารถรองรับฟังก์ชั่นลิงค์ของฉันได้หรือไม่? (การเลือกฟังก์ชั่นลิงค์ดูเหมือนจะเป็นเรื่องที่ไม่ชอบใจฉันเนื่องจากแนวทางเดียวที่ฉันสามารถค้นหาได้นั้นค่อนข้างคลุมเครือและมีคลื่นมือซึ่งน่าจะเป็นเหตุผลที่ดี)

2
ผลลัพธ์ที่แตกต่างจาก RandomForest ผ่าน caret และแพ็คเกจ RandomForest พื้นฐาน
ฉันสับสนเล็กน้อย: ผลลัพธ์ของโมเดลที่ได้รับการฝึกอบรมผ่านคาเร็ตจะแตกต่างจากโมเดลในแพ็คเกจดั้งเดิมอย่างไร ฉันอ่านว่าจำเป็นต้องมีการประมวลผลล่วงหน้าก่อนการทำนายด้วย FinalModel ของ RandomForest พร้อมชุดคาเร็ตหรือไม่? แต่ฉันไม่ได้ใช้ preprocessing ใด ๆ ที่นี่ ฉันฝึกป่าสุ่มที่แตกต่างกันโดยใช้ชุดคาเร็ตและปรับแต่งค่า mtry ที่แตกต่างกัน > cvCtrl = trainControl(method = "repeatedcv",number = 10, repeats = 3, classProbs = TRUE, summaryFunction = twoClassSummary) > newGrid = expand.grid(mtry = c(2,4,8,15)) > classifierRandomForest = train(case_success ~ ., data = train_data, trControl = cvCtrl, …

1
ความแตกต่างระหว่างการถดถอยโลจิสติกและการสนับสนุนเครื่องเวกเตอร์คืออะไร?
ฉันรู้ว่าการถดถอยโลจิสติกส์พบไฮเปอร์เพลนที่แยกตัวอย่างการฝึกอบรม ฉันรู้ด้วยว่าเครื่องเวกเตอร์สนับสนุนพบไฮเปอร์เพลนที่มีระยะห่างสูงสุด คำถามของฉัน: ความแตกต่างระหว่างการถดถอยโลจิสติก (LR) และเครื่องเวกเตอร์สนับสนุน (SVM) คือ LR พบไฮเปอร์เพลนใด ๆ ที่แยกตัวอย่างการฝึกอบรมในขณะที่ SVM ค้นหาไฮเปอร์เพลนที่มีระยะห่างสูงสุด? หรือฉันผิด θ ⋅ x = 0θ⋅x=0\theta \cdot x = 00.50.50.50.50.50.5θ ⋅ x = 0θ⋅x=0\theta \cdot x = 0

1
เมื่อไหร่ที่เราจะใช้ tantiles และอยู่ตรงกลางแทนที่จะเป็น quantiles และมัธยฐาน?
ฉันไม่สามารถหาคำจำกัดความของคำว่า tantile หรือ medial บน Wikipedia หรือ Wolfram Mathworld แต่คำอธิบายต่อไปนี้มีให้ในBílková, D. และ Mala, I. (2012), "การประยุกต์ใช้วิธี L-moment เมื่อสร้างแบบจำลองการกระจายรายได้ ในสาธารณรัฐเช็ก ", วารสารสถิติออสเตรีย , 41 (2), 125–132 ตรงกลางคือค่าของที่ (ตัวอย่าง) tantile เช่นเดียวกับค่าเฉลี่ยของกลุ่มตัวอย่างเท่ากับมูลค่าของที่50 % quantile ตัวอย่าง ตัวอย่าง tantiles เช่นเดียวกับ quantiles ตัวอย่างจะขึ้นอยู่กับตัวอย่างที่สั่งซื้อ ก่อนอื่นผลรวมสะสมของการสังเกตในตัวอย่างที่สั่งซื้อจะถูกประเมิน แล้วสำหรับที่กำหนดร้อยละP , 0 &lt; P &lt; 100เป็นพี50%50%50\%50%50%50\%ppp0&lt;p&lt;1000&lt;p&lt;1000<p<100 tantile ถูกกำหนดให้เป็นค่าของตัวแปรที่วิเคราะห์ซึ่งแบ่งการสังเกตทั้งหมดในตัวอย่างที่ได้รับคำสั่งออกเป็นสองส่วน: ผลรวมของการสังเกตที่น้อยกว่าหรือเท่ากับคือ p %p%p%p\%p%p%p\%ของผลรวมการสังเกตและผลรวมของการสังเกตที่มากขึ้นแสดงถึงส่วนที่เหลือของผลรวมนี้( …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.