สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
Bootstrap vs. การทดสอบสมมติฐานการเปลี่ยนลำดับ
มีเทคนิคการสุ่มตัวอย่างที่นิยมใช้กันหลายครั้งซึ่งมักใช้ในทางปฏิบัติเช่น bootstrapping, permutation test, jackknife เป็นต้นมีบทความและหนังสือจำนวนมากที่พูดถึงเทคนิคเหล่านี้เช่นPhilip I Good (2010) Permutation, Parametric และ Bootstrap Tests ของสมมติฐาน คำถามของฉันคือเทคนิคการสุ่มตัวอย่างแบบใดที่ได้รับความนิยมและง่ายต่อการใช้งานมากขึ้น การทดสอบการบูตหรือการเปลี่ยนรูป?

2
ทำความเข้าใจกับพารามิเตอร์ภายในการแจกแจงแบบทวินามลบ
ฉันพยายามใส่ข้อมูลของฉันเป็นแบบจำลองต่างๆและคิดว่าfitdistrฟังก์ชั่นจากไลบรารี่MASSของRให้ฉันNegative Binomialเป็นแบบที่ดีที่สุด ตอนนี้จากหน้าwikiคำจำกัดความได้รับเป็น: การแจกแจง NegBin (r, p) อธิบายความน่าจะเป็นของความล้มเหลว k และความสำเร็จ r ในการทดลอง k + r Bernoulli (p) ด้วยความสำเร็จในการทดลองครั้งสุดท้าย ใช้Rในการดำเนินการรูปแบบที่เหมาะสมให้ฉันสองพารามิเตอร์และmean dispersion parameterฉันไม่เข้าใจวิธีตีความสิ่งเหล่านี้เพราะฉันไม่เห็นพารามิเตอร์เหล่านี้ในหน้าวิกิ ทั้งหมดที่ฉันเห็นคือสูตรต่อไปนี้: ที่เป็นจำนวนของการสังเกตและk r=0...nตอนนี้ฉันจะเชื่อมโยงสิ่งเหล่านี้กับพารามิเตอร์ที่กำหนดโดยได้Rอย่างไร ไฟล์ช่วยเหลือไม่ได้ให้ข้อมูลมากนัก นอกจากนี้เพื่อพูดคำสองสามคำเกี่ยวกับการทดสอบของฉัน: ในการทดลองทางสังคมที่ฉันกำลังทำอยู่ฉันพยายามนับจำนวนผู้ใช้ที่ผู้ใช้แต่ละคนติดต่อในระยะเวลา 10 วัน ขนาดประชากรคือ 100 สำหรับการทดสอบ ตอนนี้ถ้าแบบจำลองนั้นเหมาะกับเนกาทีฟทวินามลบฉันสามารถพูดได้ว่ามันเป็นไปตามการกระจายตัวนั้น แต่ฉันต้องการเข้าใจความหมายที่เข้าใจง่ายที่อยู่เบื้องหลังสิ่งนี้ หมายความว่าอย่างไรว่าจำนวนคนที่ได้รับการติดต่อจากการทดสอบของฉันนั้นมีการกระจายตัวแบบทวินามลบ มีใครช่วยอธิบายสิ่งนี้ได้ไหม

5
การวิเคราะห์ข้ามอนุกรมเวลาที่ผ่านการตรวจสอบความถูกต้อง
ฉันใช้ชุดคาเร็ตใน R เพื่อสร้างแบบจำลองการทำนายสำหรับการจำแนกและการถดถอย คาเร็ตมีอินเทอร์เฟซแบบรวมเพื่อปรับแต่งพารามิเตอร์ไฮเปอร์โมเดลโดยการตรวจสอบข้ามหรือการรัดสาย ตัวอย่างเช่นหากคุณกำลังสร้างแบบจำลอง 'เพื่อนบ้านที่ใกล้ที่สุด' อย่างง่ายสำหรับการจำแนกคุณควรใช้เพื่อนบ้านกี่คน 2? 10? 100? คาเร็ตช่วยให้คุณตอบคำถามนี้โดยการสุ่มตัวอย่างข้อมูลของคุณใหม่ลองใช้พารามิเตอร์ที่แตกต่างกันจากนั้นรวบรวมผลลัพธ์เพื่อตัดสินใจว่าผลลัพธ์ใดที่มีความแม่นยำในการทำนายที่ดีที่สุด ฉันชอบวิธีการนี้เนื่องจากเป็นวิธีการที่มีประสิทธิภาพสำหรับการเลือกพารามิเตอร์ไฮเปอร์โมเดลและเมื่อคุณเลือกพารามิเตอร์ไฮเปอร์สุดท้ายแล้วจะมีการประเมินที่ผ่านการตรวจสอบความถูกต้องของวิธีการ 'ดี' โดยใช้ความแม่นยำสำหรับโมเดลการจำแนกประเภท และ RMSE สำหรับตัวแบบการถดถอย ตอนนี้ฉันมีข้อมูลอนุกรมเวลาที่ฉันต้องการสร้างแบบจำลองการถดถอยสำหรับอาจใช้ฟอเรสต์แบบสุ่ม เทคนิคที่ดีในการประเมินความถูกต้องทำนายของแบบจำลองของฉันคืออะไรโดยธรรมชาติของข้อมูล หากป่าสุ่มไม่ได้ใช้กับข้อมูลอนุกรมเวลาวิธีที่ดีที่สุดในการสร้างแบบจำลองวงดนตรีที่ถูกต้องสำหรับการวิเคราะห์อนุกรมเวลาคืออะไร

8
ความแตกต่างระหว่างการทำนายและการอนุมานคืออะไร?
ฉันกำลังอ่านคำว่า " ความรู้เบื้องต้นเกี่ยวกับสถิติ " ในบทที่ 2 พวกเขาหารือเกี่ยวกับเหตุผลสำหรับการประเมินการทำงานฉfff 2.1.1 ทำไมประมาณการ ?fff มีสองเหตุผลหลักที่เราอาจต้องการที่จะประเมินเป็นF : การคาดการณ์และการอนุมาน เราคุยกันในทางกลับกัน ฉันอ่านมันมาสองสามครั้งแล้ว แต่ฉันก็ยังไม่ชัดเจนเกี่ยวกับความแตกต่างระหว่างการทำนายและการอนุมาน มีคนให้ตัวอย่างที่แตกต่าง (จริง) หรือไม่?


1
อะไรคือความง่ายในการตีความความดีของการวัดขนาดพอดีสำหรับโมเดลเอฟเฟ็กต์แบบผสมเชิงเส้น
ฉันกำลังใช้แพคเกจ R lme4 ฉันกำลังใช้โมเดลเอฟเฟกต์แบบผสมเชิงเส้นที่มีเอฟเฟกต์แบบสุ่ม: library(lme4) mod1 <- lmer(r1 ~ (1 | site), data = sample_set) #Only random effects mod2 <- lmer(r1 ~ p1 + (1 | site), data = sample_set) #One fixed effect + # random effects mod3 <- lmer(r1 ~ p1 + p2 + (1 | site), data = …

5
วิธีจัดการกับแบบจำลองการทำนาย "เอาชนะตนเอง" ได้อย่างไร
ฉันกำลังดูการนำเสนอโดยผู้เชี่ยวชาญ ML จากผู้ค้าปลีกรายใหญ่ซึ่งพวกเขาได้พัฒนาแบบจำลองเพื่อทำนายเหตุการณ์ที่เกิดขึ้นในสต็อก สมมติว่าสักครู่หนึ่งเมื่อเวลาผ่านไปโมเดลของพวกเขาจะแม่นยำมากไม่ว่าจะ "เอาชนะตนเอง" นั่นคือถ้าโมเดลทำงานได้ดีจริง ๆ แล้วพวกเขาจะสามารถคาดการณ์เหตุการณ์ที่เกิดขึ้นในสต็อกและหลีกเลี่ยงพวกเขาในที่สุดก็มาถึงจุดที่พวกเขามีเหตุการณ์สต็อกน้อยหรือไม่มีเลยเลย แต่ถ้าเป็นเช่นนั้นจะไม่มีข้อมูลทางประวัติศาสตร์เพียงพอที่จะเรียกใช้โมเดลหรือโมเดลของพวกเขาได้รับการตกรางเนื่องจากปัจจัยเชิงสาเหตุแบบเดียวกับที่ใช้เพื่อระบุเหตุการณ์หมดสต็อกจะไม่ทำเช่นนั้นอีกต่อไป อะไรคือกลยุทธ์ในการจัดการกับสถานการณ์เช่นนี้? นอกจากนี้เราสามารถคาดการณ์สถานการณ์ตรงข้ามได้ตัวอย่างเช่นระบบผู้แนะนำอาจกลายเป็น "การตอบสนองด้วยตนเอง" ด้วยการเพิ่มยอดขายของคู่สินค้าที่ได้แรงหนุนจากการส่งออกของระบบผู้แนะนำแม้ว่าทั้งสองรายการจะไม่จริง ๆ ที่เกี่ยวข้อง สำหรับฉันดูเหมือนว่าทั้งสองเป็นผลลัพธ์ของลูปข้อเสนอแนะที่เกิดขึ้นระหว่างผลลัพธ์ของตัวทำนายและการดำเนินการที่ยึดตามนั้น เราจะจัดการกับสถานการณ์เช่นนี้ได้อย่างไร?

2
ใครเป็นผู้คิดค้นการไล่ระดับสีแบบสุ่มสุ่ม?
ฉันพยายามที่จะเข้าใจประวัติศาสตร์ของการไล่โทนสีเชื้อสายและStochastic การไล่ระดับสีโคตร เชื้อสายไล่โทนสีถูกคิดค้นในCauchyใน 1,847 Méthode Generale pour la ความละเอียด des systèmes d'สมsimultanées ได้ pp. 536-538 สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ดูที่นี่ ตั้งแต่นั้นมาวิธีการลาดลงของการไล่ระดับสีก็ยังคงพัฒนาอยู่และฉันไม่คุ้นเคยกับประวัติของพวกเขา โดยเฉพาะอย่างยิ่งฉันสนใจในการประดิษฐ์เชื้อสายการไล่ระดับสีสุ่ม การอ้างอิงที่สามารถใช้ในงานวิชาการได้มากกว่าที่ได้รับการต้อนรับ


1
การสุ่มตัวอย่าง Metropolis Hastings, Gibbs, สำคัญ, และการปฏิเสธคืออะไรแตกต่างกัน?
ฉันได้พยายามเรียนรู้วิธีการ MCMC และได้พบกับการสุ่มตัวอย่าง Metropolis Hastings, Gibbs, ความสำคัญและการปฏิเสธ ในขณะที่ความแตกต่างบางอย่างเห็นได้ชัดคือวิธีการที่กิ๊บส์เป็นกรณีพิเศษของ Metropolis Hastings เมื่อเรามีเงื่อนไขแบบสมบูรณ์ แต่สิ่งอื่น ๆ นั้นชัดเจนน้อยกว่าเช่นเมื่อเราต้องการใช้ MH ในตัวอย่าง Gibbs เป็นต้นไม่มีใครมี วิธีง่ายๆในการดูจำนวนมากของความแตกต่างระหว่างแต่ละเหล่านี้หรือไม่ ขอบคุณ!

4
ค่าคงที่การแปลในคอมพิวเตอร์วิสัยทัศน์และเครือข่ายประสาทเทียมคืออะไร?
ฉันไม่ได้มีพื้นหลังคอมพิวเตอร์วิสัยทัศน์ แต่เมื่อผมอ่านการประมวลผลภาพและเครือข่ายประสาทสับสนบทความที่เกี่ยวข้องและเอกสารที่ผมต้องเผชิญคือคำหรือtranslation invariance หรือฉันอ่านมากว่าการดำเนินการสังวัตนาให้? !! สิ่งนี้หมายความว่า? ตัวผมเองมักจะแปลมันให้กับตัวเองราวกับว่ามันหมายความว่าถ้าเราเปลี่ยนภาพในรูปร่างใด ๆ แนวคิดที่แท้จริงของภาพจะไม่เปลี่ยน ตัวอย่างเช่นถ้าฉันหมุนรูปภาพของต้นไม้ที่บอกว่ามันเป็นต้นไม้อีกครั้งไม่ว่าฉันจะทำอย่างไรกับภาพนั้น และฉันเองก็พิจารณาการทำงานทั้งหมดที่สามารถเกิดขึ้นกับภาพและแปลงมันในทาง (ครอบตัด, ปรับขนาด, ปรับระดับสีเทา, ปรับสีและอื่น ๆ ... ) ให้เป็นแบบนี้ ฉันไม่รู้ว่านี่เป็นเรื่องจริงหรือไม่ดังนั้นฉันจะขอบคุณถ้าใครสามารถอธิบายเรื่องนี้ให้ฉันได้translation invarianttranslation invariance

6
นักวิทยาศาสตร์ได้คำนวณรูปร่างของฟังก์ชันความหนาแน่นของความน่าจะเป็นกระจายแบบปกติได้อย่างไร
นี่อาจเป็นคำถามสมัครเล่น แต่ฉันสนใจว่านักวิทยาศาสตร์เกิดขึ้นได้อย่างไรกับรูปร่างของฟังก์ชันความหนาแน่นของความน่าจะเป็นการแจกแจงแบบปกติ โดยทั่วไปสิ่งที่ฉันเป็นคนนั้นอาจจะง่ายกว่าที่ฟังก์ชันความน่าจะเป็นของข้อมูลที่แจกแจงแบบปกติมีรูปร่างของรูปสามเหลี่ยมหน้าจั่วแทนที่จะเป็นรูปโค้งและคุณจะพิสูจน์ให้คนฟังก์ชั่นว่าความหนาแน่นของความน่าจะเป็นของ ข้อมูลที่กระจายตามปกติทั้งหมดมีรูปทรงระฆังหรือไม่ โดยการทดลอง? หรือโดยการคำนวณทางคณิตศาสตร์ ท้ายที่สุดแล้วเราจะพิจารณาข้อมูลที่กระจายไปตามปกติอย่างไร? ข้อมูลที่ตามหลังรูปแบบความน่าจะเป็นของการแจกแจงแบบปกติหรืออย่างอื่น? โดยทั่วไปคำถามของฉันคือทำไมฟังก์ชั่นความหนาแน่นของความน่าจะเป็นการแจกแจงปกติมีรูปร่างเป็นรูปทรงระฆัง และนักวิทยาศาสตร์ได้จำแนกสถานการณ์จริงที่สามารถใช้การแจกแจงแบบปกติโดยการทดลองหรือการศึกษาธรรมชาติของข้อมูลต่าง ๆ ได้อย่างไร ดังนั้นฉันจึงพบว่าลิงก์นี้มีประโยชน์จริง ๆ ในการอธิบายการได้มาของรูปแบบการทำงานของเส้นโค้งการแจกแจงแบบปกติและจึงตอบคำถามว่า อย่างน้อยก็มีเหตุผลสำหรับฉัน

10
ทำไมเวลาการเอาชีวิตรอดจึงมีการกระจายอย่างทวีคูณ
ฉันกำลังเรียนรู้การวิเคราะห์ความอยู่รอดจากบทความนี้ใน UCLA IDREและได้ดีดตัวขึ้นที่หัวข้อ 1.2.1 บทช่วยสอนบอกว่า: ... ถ้าเวลารอดชีวิตนั้นมีการแจกแจงแบบเลขชี้กำลังแล้วความน่าจะเป็นในการสังเกตเวลาการอยู่รอด ... ทำไมเวลาการเอาชีวิตรอดจึงมีการกระจายอย่างทวีคูณ ดูเหมือนว่าฉันผิดธรรมชาติมาก ทำไมไม่กระจายตามปกติ? สมมติว่าเรากำลังตรวจสอบช่วงชีวิตของสิ่งมีชีวิตบางอย่างภายใต้เงื่อนไขบางประการ (พูดจำนวนวัน) ควรจะอยู่ตรงกลางรอบจำนวนที่มีการเปลี่ยนแปลงบ้างหรือไม่ (พูด 100 วันกับความแปรปรวน 3 วัน)? หากเราต้องการให้เวลาเป็นบวกอย่างเคร่งครัดทำไมไม่แจกแจงแบบปกติด้วยค่าเฉลี่ยที่สูงขึ้นและความแปรปรวนน้อยมาก (แทบจะไม่มีโอกาสได้จำนวนลบ)

1
การตรวจสอบความถูกต้องไขว้ซ้อนกันเป็นสิ่งที่จำเป็นจริงๆและสามารถสร้างความแตกต่างในทางปฏิบัติเมื่อใด?
เมื่อใช้การตรวจสอบข้ามที่จะทำแบบเลือก (เช่นเช่น hyperparameter จูน) และการประเมินประสิทธิภาพของรูปแบบที่ดีที่สุดควรใช้ซ้อนกันตรวจสอบข้าม ลูปภายนอกคือการประเมินประสิทธิภาพของโมเดลและลูปด้านในคือเลือกโมเดลที่ดีที่สุด รุ่นจะถูกเลือกในชุดฝึกอบรมภายนอก (โดยใช้วง CV ภายใน) และวัดประสิทธิภาพของชุดการทดสอบภายนอกที่สอดคล้องกัน สิ่งนี้ได้รับการพูดคุยและอธิบายในหลาย ๆ หัวข้อ (เช่นที่นี่การฝึกอบรมกับชุดข้อมูลแบบเต็มหลังจากการตรวจสอบข้ามได้หรือไม่ , ดูคำตอบโดย @DikranMarsupial) และชัดเจนสำหรับฉันทั้งหมด การทำเฉพาะการตรวจสอบความถูกต้องไขว้แบบง่าย (ไม่ซ้อนกัน) สำหรับการเลือกทั้งโมเดลและการประมาณประสิทธิภาพสามารถให้ผลการประเมินประสิทธิภาพแบบเอนเอียงในเชิงบวก @DikranMarsupial มีกระดาษ 2010 ว่าหัวข้อนี้ ( ในกว่ากระชับในรุ่นต่อมาการคัดเลือกและการคัดเลือกอคติในการประเมินผลการปฏิบัติงาน ) มาตรา 4.3 ถูกเรียกว่าเป็นมากกว่ากระชับในรุ่นเลือกจริงๆกังวลของแท้ในการปฏิบัติ? - และกระดาษแสดงว่าคำตอบคือใช่ จากทั้งหมดที่กล่าวมาตอนนี้ฉันกำลังทำงานกับหลายตัวแปรการถดถอยหลายสันเขาและฉันไม่เห็นความแตกต่างระหว่าง CV ที่เรียบง่ายและซ้อนกันและ CV ที่ซ้อนกันดังนั้นในกรณีนี้ดูเหมือนว่าเป็นภาระการคำนวณที่ไม่จำเป็น คำถามของฉันคือ: ภายใต้เงื่อนไขใด CV ง่าย ๆ จะให้อคติที่สังเกตได้ซึ่งหลีกเลี่ยงด้วย CV แบบซ้อน? CV ที่ซ้อนกันมีความสำคัญในทางปฏิบัติเมื่อใดและจะไม่สำคัญมากเมื่อไหร่? มีกฎของหัวแม่มือหรือไม่? …

6
ทำไมตัวหารของตัวประมาณความแปรปรวนร่วมไม่ควรเป็น n-2 แทนที่จะเป็น n-1
ตัวหารของตัวประมาณค่าความแปรปรวน (ไม่เอนเอียง) คือเนื่องจากมีการสังเกตและมีการประมาณเพียงหนึ่งพารามิเตอร์เท่านั้นn−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} ในทำนองเดียวกันฉันสงสัยว่าทำไมตัวหารความแปรปรวนร่วมไม่ควรเป็นเมื่อมีการประมาณสองพารามิเตอร์?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.