สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
ขนาดเอฟเฟกต์คืออะไร ... และทำไมถึงมีประโยชน์?
ฉันมีพื้นหลังสถิติระดับเบื้องต้น - ระดับบัณฑิตศึกษา (สมมติว่าฉันรู้สถิติทางคณิตศาสตร์และความน่าจะเป็นในระดับปริญญาตรี (เช่น Wackerly et al., ความน่าจะเป็นของรอสส์) และมีความรู้เกี่ยวกับทฤษฎีการวัด) ฉันเพิ่งเริ่มงานออกแบบการทดลองและการรายงานสถิติในสถิติการศึกษาและได้ถูกวางไว้ในโครงการที่โดยทั่วไปฉันกำลังประเมินตัวชี้วัดความรับผิดชอบสำหรับโรงเรียนและต้องวิเคราะห์ข้อมูลเสนอการเปลี่ยนแปลง ฯลฯ โปรดทราบว่าฉันเป็นเพียงคนเดียว หนึ่งในแผนกของฉันมีพื้นหลังสถิติทางคณิตศาสตร์ ในตำแหน่งของฉันผู้คนแนะนำอย่างยิ่งให้ใช้ขนาดเอฟเฟกต์เพื่อวัดประสิทธิภาพของโปรแกรม ครั้งเดียวที่ฉันเคยได้ยินเรื่องขนาดเอฟเฟกต์มาจากเพื่อนของฉันซึ่งเรียนจิตวิทยา ความประทับใจของฉันคือEffect Size=Difference of MeansStandard Deviation.Effect Size=Difference of MeansStandard Deviation.\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.} มีประโยชน์อย่างไรเกี่ยวกับตัวชี้วัดนี้ผ่านการทดสอบสมมติฐานแบบดั้งเดิมและทำไมฉันจึงต้องสนใจมัน ให้ฉันดูเหมือนว่าไม่มีอะไรมากไปกว่าสถิติทดสอบสำหรับสองตัวอย่าง -test ฉันไม่เห็นว่ามีประโยชน์เลยนอกจากอาจทำให้ทุกอย่างในระดับเดียวกัน (ซึ่งเป็นเหตุผลว่าทำไมทุกคน "ทำให้ปกติ" อะไรก็ได้) แต่ฉันคิดว่าสถิติการทดสอบ และp- value เป็นที่ต้องการtttppp

1
วิธีที่สองช่วงเวลาเคลื่อนไหวบราวเนียน?
ให้Bเสื้อBเสื้อB_tเป็นภาพเคลื่อนไหว Brownian มาตรฐาน ให้แสดงถึงเหตุการณ์และให้ที่หมายถึงฟังก์ชั่นตัวบ่งชี้ มีเช่นนั้นสำหรับสำหรับทั้งหมดหรือไม่ ฉันสงสัยว่าคำตอบคือใช่; ฉันได้ลองสับสนกับวิธีช่วงเวลาที่สอง แต่ไม่ได้ประโยชน์มาก สามารถแสดงด้วยวิธีโมเมนต์ที่สองได้หรือไม่ หรือฉันควรจะลองอย่างอื่น?{ B t = 0 สำหรับบาง j - 1EJ,nEj,nE_{j, n}Kn=22nΣJ=2n+11EJ,n,1ρ>0P{Kn≥ρ2n}≥ρn{Bt= 0 สำหรับบางคน j−12n≤ t ≤j2n} ,{Bt=0 สำหรับบางคน J-12n≤เสื้อ≤J2n},\left\{B_t = 0 \text{ for some }{{j-1}\over{2^n}} \le t \le {j\over{2^n}}\right\},Kn=∑j=2n+122n1Ej,n,Kn=∑j=2n+122n1Ej,n,K_n = \sum_{j = 2^n + 1}^{2^{2n}} 1_{E_{j,n}},111ρ>0ρ>0\rho > 0P{Kn≥ρ2n}≥ρP{Kn≥ρ2n}≥ρ\mathbb{P}\{K_n \ge \rho2^{n}\} \ge \rhonnn

3
เป็นตัวอย่างที่ดีที่ซีรีส์ที่ไม่มีรูทยูนิตไม่ใช่เครื่องเขียน
ฉันเคยเห็นหลายครั้งที่ผู้คนปฏิเสธโมฆะในการทดสอบเพิ่ม Dickey-Fullerแล้วอ้างว่ามันแสดงให้เห็นว่าซีรี่ส์ของพวกเขานั้นอยู่กับที่ (แต่น่าเสียดายที่ฉันไม่สามารถแสดงแหล่งที่มาของการอ้างสิทธิ์เหล่านี้ได้ วารสารหนึ่งฉบับหรืออีกฉบับหนึ่ง) ฉันยืนยันว่ามันเป็นความเข้าใจผิด (การปฏิเสธโมฆะของหน่วยรากนั้นไม่จำเป็นต้องเป็นแบบเดียวกับที่มีชุดเครื่องเขียนโดยเฉพาะอย่างยิ่งเนื่องจากรูปแบบทางเลือกที่ไม่เป็นทางเลือกจะไม่ค่อยถูกตรวจสอบหรือพิจารณาเมื่อทำการทดสอบเช่นนั้น) สิ่งที่ฉันค้นหาคือ: a) ตัวอย่างที่ชัดเจนที่ชัดเจนเกี่ยวกับการอ้างสิทธิ์ (ฉันนึกภาพออกได้สองสามคนตอนนี้ แต่ฉันพนันได้ว่าคนอื่นที่ไม่ใช่ฉันจะมีสิ่งที่ดีกว่าที่ฉันคิดไว้) มันอาจเป็นคำอธิบายของสถานการณ์ที่เฉพาะเจาะจงอาจมีข้อมูล (จำลองหรือจริงทั้งสองมีข้อดี) หรือ b) ข้อโต้แย้งที่น่าเชื่อถือว่าทำไมการปฏิเสธในส่วนที่เพิ่มขึ้นของ Dickey-Fuller ควรถูกมองว่าเป็นการสร้างความคงที่ (หรือแม้กระทั่งทั้งคู่ (ก) และ (ข) หากคุณรู้สึกฉลาด)

2
ความเร็ว, ค่าใช้จ่ายในการคำนวณของ PCA, LASSO, elastic net
ฉันกำลังพยายามเปรียบเทียบความซับซ้อนของการคำนวณ / ความเร็วในการประมาณค่าของวิธีการสามกลุ่มสำหรับการถดถอยเชิงเส้นตามที่ระบุไว้ใน Hastie et al "องค์ประกอบของการเรียนรู้ทางสถิติ" (2nd ed.), บทที่ 3: การเลือกชุดย่อย วิธีการหดตัว วิธีการที่ใช้ทิศทางอินพุตที่ได้รับ (PCR, PLS) การเปรียบเทียบอาจหยาบมากเพียงแค่ให้ความคิด ฉันรวบรวมว่าคำตอบอาจขึ้นอยู่กับขนาดของปัญหาและวิธีการที่เหมาะสมกับสถาปัตยกรรมคอมพิวเตอร์ดังนั้นสำหรับตัวอย่างที่เป็นรูปธรรมเราอาจพิจารณาขนาดตัวอย่างของผู้ลงทะเบียนผู้สมัคร 500 และ 50 คน ฉันส่วนใหญ่สนใจในแรงจูงใจเบื้องหลังความซับซ้อนของการคำนวณ / ความเร็วในการประมาณค่า แต่ไม่นานเท่าไรที่จะใช้กับโพรเซสเซอร์บางตัวสำหรับตัวอย่างที่กำหนด

1
ความขัดแย้งในการเลือกรูปแบบ (AIC, BIC, เพื่ออธิบายหรือทำนาย)
หลังจากอ่าน Galit Shmueli "เพื่ออธิบายหรือทำนาย" (2010) ฉันรู้สึกสับสนกับความขัดแย้งที่เห็นได้ชัด มีสามสถานที่ AIC- เมื่อเทียบกับ BIC ตามทางเลือกรูปแบบ (ในตอนท้ายของหน้า 300 - จุดเริ่มต้นของ P 301..) ใส่เพียง AIC ควรจะใช้สำหรับการเลือกรูปแบบที่มีไว้สำหรับการคาดการณ์ในขณะที่ BIC ควรจะใช้สำหรับการเลือกรูปแบบการหาคำอธิบาย นอกจากนี้ (ไม่ใช่ในกระดาษด้านบน) เรารู้ว่าภายใต้เงื่อนไขบางอย่าง BIC เลือกรูปแบบที่แท้จริงในชุดของแบบจำลองที่มีตัวเลือก; รูปแบบที่แท้จริงคือสิ่งที่เราแสวงหาในการสร้างแบบจำลองที่อธิบาย (ตอนท้ายของหน้า 293) Simple arithmetics: AIC จะเลือกแบบจำลองที่มีขนาดใหญ่กว่า BIC สำหรับตัวอย่างที่มีขนาด 8 หรือใหญ่กว่า (ที่น่าพอใจln(n)>2ln(n)>2\text{ln}(n)>2เนื่องจากการปรับความซับซ้อนแตกต่างกันใน AIC กับ BIC) "true"รูปแบบ (เช่นรุ่นที่มี regressors ที่ถูกต้องและรูปแบบการทำงานที่ถูกต้อง แต่ค่าสัมประสิทธิ์ประมาณไม่สมบูรณ์) อาจจะไม่เป็นแบบที่ดีที่สุดในการทำนาย (หน้า 307.) …

2
ในโมเดลปัวซองความแตกต่างระหว่างการใช้เวลาในรูปของ covariate หรือออฟเซ็ตคืออะไร
ฉันเพิ่งค้นพบวิธีจำลองแบบการเปิดเผยเมื่อเวลาผ่านไปโดยใช้บันทึกเวลา (เช่น) เป็นการชดเชยในการถดถอยของปัวซอง ฉันเข้าใจว่าออฟเซ็ตสอดคล้องกับการมีเวลาเป็น covariate กับสัมประสิทธิ์ 1 ฉันต้องการเข้าใจความแตกต่างระหว่างการใช้เวลาเป็นออฟเซ็ตหรือ covariate ปกติดีกว่า (ดังนั้นการประมาณค่าสัมประสิทธิ์) ฉันควรใช้วิธีใดวิธีหนึ่งในสถานการณ์ใด การอัปเกรด: ฉันไม่รู้ว่ามันน่าสนใจหรือไม่ แต่ฉันรันการตรวจสอบความถูกต้องของสองวิธีโดยใช้ข้อมูลแยกแบบสุ่มซ้ำ 500 ครั้งและฉันสังเกตเห็นว่าการใช้วิธีการชดเชยทำให้เกิดข้อผิดพลาดในการทดสอบที่มากขึ้น

4
ทำไมการแยกข้อมูลออกเป็นชุดการฝึกอบรมและการทดสอบจึงไม่เพียงพอ
ฉันรู้ว่าในการเข้าถึงประสิทธิภาพของลักษณนามฉันต้องแบ่งข้อมูลออกเป็นชุดฝึกอบรม / ทดสอบ แต่อ่านนี้ : เมื่อประเมินการตั้งค่าที่แตกต่างกัน (“ พารามิเตอร์มากเกินไป”) สำหรับตัวประมาณเช่นการตั้งค่า C ที่ต้องตั้งค่าด้วยตนเองสำหรับ SVM ยังคงมีความเสี่ยงที่จะเกิดการล้นในชุดทดสอบเนื่องจากพารามิเตอร์สามารถปรับได้จนกว่าตัวประเมินจะทำงานอย่างเหมาะสมที่สุด ด้วยวิธีนี้ความรู้เกี่ยวกับชุดทดสอบสามารถ“ รั่วไหล” ลงในแบบจำลองและตัวชี้วัดการประเมินผลไม่ได้รายงานเกี่ยวกับประสิทธิภาพของการวางนัยทั่วไปอีกต่อไป เพื่อแก้ปัญหานี้ยังมีอีกส่วนหนึ่งของชุดข้อมูลที่สามารถเรียกได้ว่า "ชุดการตรวจสอบความถูกต้อง": การฝึกอบรมเกี่ยวกับชุดการฝึกอบรมหลังจากการประเมินเสร็จสิ้นในชุดการตรวจสอบความถูกต้องและเมื่อการทดสอบประสบความสำเร็จ การประเมินขั้นสุดท้ายสามารถทำได้ในชุดทดสอบ ฉันเห็นว่ามีการแนะนำชุดการตรวจสอบความถูกต้องอีกชุดที่สามซึ่งได้รับการพิสูจน์ด้วยการตั้งค่าการทดสอบที่มากเกินไประหว่างการปรับจูนพารามิเตอร์ ปัญหาคือฉันไม่สามารถเข้าใจได้ว่าการล้นเกินนี้จะปรากฏได้อย่างไรจึงไม่สามารถเข้าใจเหตุผลของชุดที่สามได้

1
สูตรชีต ANOVA ตัวอักษรซุปและการถดถอยเท่าเทียมกัน
ฉันสามารถขอความช่วยเหลือในการพยายามรับตลับลูกปืนของฉันให้เทียบเท่ากับ ANOVA และ REGRESSION ได้หรือไม่? ฉันพยายามปรับความคิดศัพท์ศัพท์และไวยากรณ์ของวิธีการทั้งสองนี้ มีโพสต์จำนวนมากในไซต์นี้เกี่ยวกับความเหมือนกันของพวกเขาเช่นนี้หรือนี่แต่ก็ยังดีที่มีแผนที่ "คุณอยู่ที่นี่" อย่างรวดเร็วเมื่อเริ่มต้น ฉันวางแผนที่จะอัพเดทโพสต์นี้และหวังว่าจะได้รับความช่วยเหลือในการแก้ไขข้อผิดพลาด ANOVA ทางเดียว: Structure: DV is continuous; IV is ONE FACTOR with different LEVELS. Scenario: miles-per-gal. vs cylinders Note that Income vs Gender (M, F) is a t-test. Syntax: fit <- aov(mpg ~ as.factor(cyl), data = mtcars); summary(fit); TukeyHSD(fit) Regression: fit …

2
ทำให้รู้สึกของการวิเคราะห์องค์ประกอบอิสระ
ฉันเคยเห็นและมีความสุขกับคำถามการทำความเข้าใจการวิเคราะห์องค์ประกอบหลักและตอนนี้ฉันมีคำถามเดียวกันสำหรับการวิเคราะห์องค์ประกอบอิสระ ฉันหมายถึงฉันต้องการคำถามที่ครอบคลุมเกี่ยวกับวิธีการที่เข้าใจง่ายในการทำความเข้าใจ ICA หรือไม่ ฉันต้องการที่จะเข้าใจมัน ฉันต้องการได้รับวัตถุประสงค์ของมัน ฉันต้องการรับความรู้สึกของมัน ฉันเชื่ออย่างยิ่งว่า: คุณไม่เข้าใจอะไรจริงๆเว้นแต่คุณจะอธิบายให้คุณยายฟัง -- Albert Einstein ฉันไม่สามารถอธิบายแนวคิดนี้กับคนธรรมดาหรือยายได้ ทำไมต้องเป็น ICA แนวคิดนี้จำเป็นสำหรับอะไร? คุณจะอธิบายเรื่องนี้กับคนธรรมดาได้อย่างไร
18 intuition  ica 

1
พิสูจน์สูตร LOOCV
จากบทนำสู่การเรียนรู้เชิงสถิติโดย James et al. การประมาณค่าการตรวจสอบความถูกต้องแบบข้ามใบ (LOOCV) ถูกกำหนดโดย ที่ 2CV ( n ) = 1n n Σฉัน=1MSEฉันCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEฉัน=(y ที่ฉัน - Yฉัน)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 โดยไม่มีการพิสูจน์สมการ (5.2) ระบุว่าสำหรับการถดถอยแบบพหุนามหรือพหุนามอย่างน้อยที่สุด (ไม่ว่าสิ่งนี้จะนำไปใช้กับการถดถอยของตัวแปรเพียงตัวเดียวไม่รู้จักกับฉัน) โดยที่ "คือ TH ค่าติดตั้งจากน้อยสแควร์เดิมพอดี ( ความคิดที่ไม่มีสิ่งนี้หมายความว่าโดยวิธีการที่มันไม่ได้หมายความว่าจากการใช้ทั้งหมดของจุดในชุดข้อมูล?) และคืองัด" ซึ่งถูกกำหนดโดยCV ( n ) = 1n n Σฉัน=1( Y ฉัน- Yฉัน1 - เอชฉัน )2ปีฉันฉันCV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i …

2
ปัญหาของนักบวชเชิงประจักษ์คืออะไร?
ในวรรณคดีบางครั้งฉันก็กลั้นกับคำพูดการเลือกนักบวชที่ขึ้นอยู่กับข้อมูล (เช่น Zellners g- ก่อน) จะถูกวิพากษ์วิจารณ์จากมุมมองทางทฤษฎี ปัญหาจะเกิดขึ้นที่ไหนหากข้อมูลก่อนหน้านี้ไม่ได้ถูกเลือกโดยอิสระจากข้อมูล

1
การตีความการทดสอบจุ่มของ Hartigans
ฉันอยากจะหาวิธีที่จะบอกปริมาณความเข้มของความ bimodality ของการแจกแจงบางอย่างที่ฉันได้รับสังเกตุ จากสิ่งที่ฉันอ่านยังคงมีการถกเถียงกันเกี่ยวกับวิธีการหาปริมาณ bimodality ฉันเลือกที่จะใช้การทดสอบการจุ่มของ Hartigans ซึ่งน่าจะเป็นสิ่งเดียวที่มีอยู่ใน R (กระดาษต้นฉบับ: http://www.stat.washington.edu/wxs/Stat593-s03/Literature/hartigan85a.pdf ) ทดสอบจุ่ม Hartigans' หมายถึง: 'จุ่มมาตรการทดสอบ multimodality ในกลุ่มตัวอย่างโดยการแตกต่างสูงสุดที่มากกว่าจุดตัวอย่างทั้งหมดระหว่างฟังก์ชั่นการกระจายเชิงประจักษ์และฟังก์ชั่นการกระจายรูปแบบเดียวที่ช่วยลดความแตกต่างสูงสุด' ฉันต้องการที่จะเข้าใจอย่างถ่องแท้ว่าฉันควรตีความสถิตินี้อย่างไรก่อนที่จะใช้ ฉันคาดหวังว่าการทดสอบการจุ่มจะเพิ่มขึ้นหากการแจกแจงนั้นต่อเนื่องหลายรูปแบบ (เนื่องจากมันถูกกำหนดเป็น "ความแตกต่างสูงสุดจากการกระจายตัวแบบเดียว") แต่ : คุณสามารถอ่านได้ในหน้าวิกิพีเดียเกี่ยวกับการกระจายแบบ multimodal ว่า"ค่าน้อยกว่า 0.05 บ่งบอกถึงความคุ้มค่าและความสำคัญของ bimodality มากกว่า 0.05 แต่น้อยกว่า 0.10 แสดงให้เห็นถึงความแตกต่างที่มีนัยสำคัญเล็กน้อย" . ข้อความดังกล่าวมาจากบทความนี้(รูปที่ 2) ตามบทความนี้ดัชนีทดสอบการจุ่มอยู่ใกล้กับ 0 เมื่อการแจกแจงแบบ bimodal มันทำให้ฉันสับสน ในการแปลความหมายอย่างถูกต้องของการทดสอบการจุ่มของ Hartigans ฉันได้สร้างการแจกแจงบางส่วน (รหัสต้นฉบับมาจากที่นี่ ) และฉันเพิ่มมูลค่าของ exp …
18 r  distributions 

5
ทำไมต้องใช้ทฤษฎีที่มีค่ามาก
ฉันมาจากวิศวกรรมโยธาที่เราใช้ทฤษฎีค่าสุดขีดเช่นการกระจายของ GEV เพื่อทำนายค่าของเหตุการณ์บางอย่างเช่นความเร็วลมที่ยิ่งใหญ่ที่สุดนั่นคือค่าที่ 98.5% ของความเร็วลมจะลดลง คำถามของฉันคือว่าทำไมต้องใช้เช่นการกระจายค่ามาก ? มันจะไม่ง่ายถ้าเราเพียงแค่ใช้การกระจายโดยรวมและได้รับค่าสำหรับความน่าจะเป็น 98.5% ?

1
มีเงื่อนไขที่ชัดเจนภายใต้เส้นทางบ่วงบาศริดจ์หรืออีลาสติกที่ยืดหยุ่นเป็นโมโนโทนหรือไม่?
คำถามที่จะสรุปจากพล็อต Lasso นี้ (glmnet)แสดงให้เห็นถึงเส้นทางการแก้ปัญหาสำหรับ Lasso Estimatorที่ไม่ใช่แบบโมโนโทนิก นั่นคือบางส่วนของเมล็ดกาแฟเติบโตในค่าสัมบูรณ์ก่อนที่จะหดตัว ฉันใช้โมเดลเหล่านี้กับชุดข้อมูลหลายประเภทและไม่เคยเห็นพฤติกรรมนี้ "ในป่า" และจนถึงทุกวันนี้ได้สันนิษฐานว่าพวกเขามักพูดซ้ำซาก มีเงื่อนไขที่ชัดเจนซึ่งรับประกันว่าเส้นทางของโซลูชันจะเป็นเสียงเดียวหรือไม่? มันมีผลต่อการตีความผลลัพธ์หรือไม่หากเส้นทางเปลี่ยนทิศทาง?

1
เมทริกซ์ความสับสนรายงานจากการตรวจสอบข้าม K-fold อย่างไร
สมมติว่าฉันใช้การตรวจสอบความถูกต้องข้ามแบบ K-fold ด้วย K = 10 เท่า จะมีเมทริกซ์ความสับสนหนึ่งครั้งสำหรับแต่ละครั้ง เมื่อรายงานผลลัพธ์ฉันควรคำนวณเมทริกซ์ความสับสนเฉลี่ยหรือเพียงแค่รวมเมทริกซ์ความสับสน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.