สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
เหตุใดการวินิจฉัยจากการทดสอบทรงกลมของ Bartlett จึงหมายความว่า PCA ไม่เหมาะสม
ฉันเข้าใจว่าการทดสอบของ Bartlett เกี่ยวข้องกับการพิจารณาว่าตัวอย่างของคุณมาจากประชากรที่มีความแปรปรวนเท่ากันหรือไม่ หากตัวอย่างนั้นมาจากประชากรที่มีความแปรปรวนเท่ากันเราจะไม่ปฏิเสธสมมติฐานว่างของการทดสอบดังนั้นการวิเคราะห์องค์ประกอบหลักนั้นไม่เหมาะสม ฉันไม่แน่ใจว่าปัญหาของสถานการณ์นี้อยู่ที่ใด (มีชุดข้อมูลแบบ homoskedastic) อยู่ มีปัญหาอะไรกับการมีชุดข้อมูลที่การกระจายของข้อมูลทั้งหมดของคุณเหมือนกัน? ฉันไม่เห็นเรื่องใหญ่ถ้าเงื่อนไขนี้มีอยู่ เหตุใดจึงทำให้ PCA ไม่เหมาะสม ฉันไม่สามารถหาข้อมูลที่ดีได้ทุกที่ทางออนไลน์ ใครบ้างมีประสบการณ์ในการตีความว่าเพราะเหตุใดการทดสอบนี้จึงเกี่ยวข้องกับ PCA

3
R: อะไรที่ฉันเห็นในการพึ่งพาบางส่วนของ gbm และ RandomForest
ที่จริงแล้วฉันคิดว่าฉันเข้าใจสิ่งที่เราสามารถแสดงด้วยพล็อตการพึ่งพาบางส่วน แต่ใช้ตัวอย่างสมมุติง่าย ๆ ฉันรู้สึกงงงวย ในกลุ่มของรหัสต่อไปฉันจะสร้างสามตัวแปรอิสระ ( , B , C ) และขึ้นอยู่กับตัวแปร ( Y ) กับคแสดงให้เห็นความสัมพันธ์เชิงเส้นใกล้ชิดกับปีขณะที่และขเป็น uncorrelated กับY ฉันทำการวิเคราะห์การถดถอยด้วยต้นไม้การถดถอยที่เพิ่มขึ้นโดยใช้แพ็คเกจ R :gbm a <- runif(100, 1, 100) b <- runif(100, 1, 100) c <- 1:100 + rnorm(100, mean = 0, sd = 5) y <- 1:100 + rnorm(100, mean = 0, …


1
Kernel Bandwidth: กฎของ Scott กับ Silverman
ทุกคนสามารถอธิบายเป็นภาษาอังกฤษธรรมดาได้ว่าอะไรคือความแตกต่างระหว่างกฎของหัวแม่มือของ Scott และ Silverman สำหรับการเลือกแบนด์วิดธ์? โดยเฉพาะเมื่อใดจะดีกว่าอีก มันเกี่ยวข้องกับการกระจายต้นแบบหรือไม่? จำนวนตัวอย่าง? PS ผมหมายถึงรหัสใน SciPy

1
มีการอธิบายลักษณะเฉพาะของความสัมพันธ์ทางไกลหรือไม่?
ฉันเฝ้าดูหน้าวิกิพีเดียเพื่อหาความสัมพันธ์ทางไกลที่ซึ่งมันดูเหมือนว่าจะถูกกำหนดโดยวิธีการคำนวณ ในขณะที่ฉันจะทำการคำนวณที่ผมต่อสู้เพื่อให้ได้รับมาตรการความสัมพันธ์สิ่งที่ระยะทางและทำไมการคำนวณดูที่พวกเขาทำ มีลักษณะของการสัมพันธ์ทางไกลที่เข้าใจได้ง่ายขึ้น (หรือมากขึ้น) ที่จะช่วยให้ฉันเข้าใจว่ามันวัดได้อย่างไร? ฉันรู้ว่าการขอสัญชาติญาณนั้นค่อนข้างคลุมเครือ แต่ถ้าฉันรู้ว่าฉันต้องการสัญชาติญาณแบบใดฉันคงไม่ได้ถามในตอนแรก ฉันก็จะมีความสุขกับสัญชาตญาณเกี่ยวกับกรณีของความสัมพันธ์ระยะทางระหว่างตัวแปรสุ่มสองตัว (แม้ว่าความสัมพันธ์ของระยะทางจะถูกกำหนดระหว่างเวกเตอร์สุ่มสองตัว)

1
รูทีนการเลือก eps และ minPts สำหรับ DBSCAN
DBSCAN เป็นขั้นตอนวิธีการจัดกลุ่มที่อ้างถึงมากที่สุดตามวรรณกรรมบางเล่มและสามารถหากลุ่มรูปร่างตามอำเภอใจตามความหนาแน่น มันมีสองพารามิเตอร์ eps (ตามรัศมีของพื้นที่ใกล้เคียง) และ minPts (เป็นเพื่อนบ้านขั้นต่ำในการพิจารณาจุดเป็นจุดหลัก) ซึ่งฉันเชื่อว่ามันขึ้นอยู่กับพวกเขา มีวิธีปกติหรือวิธีการที่ใช้กันทั่วไปเพื่อเลือกพารามิเตอร์เหล่านี้หรือไม่?

4
อะไรคือความหมายของรูปแบบที่ลดลง?
ในเศรษฐมิติสิ่งที่มีความหมายโดยรูปแบบลดลง? นอกจากนี้สิ่งที่ผู้คนกำลังมองหาเมื่อพวกเขาพูดว่า "ฉันต้องการที่จะเห็นประมาณการแบบฟอร์มที่ลดลง" สิ่งนี้เกิดขึ้นจากการทำงานและคำอธิบายของแต่ละบุคคลและการค้นหาของ Google นั้นเป็นเรื่องทางเทคนิคมากเกินไป หวังว่าใครบางคนที่สามารถยกตัวอย่างง่ายๆ

3
การประมาณความหนาแน่นมีประโยชน์ที่ไหน?
หลังจากผ่านการทดสอบทางคณิตศาสตร์สั้น ๆ เล็กน้อยฉันคิดว่าฉันมีสัญชาตญาณเล็กน้อยในการประมาณความหนาแน่นของเคอร์เนล แต่ฉันก็ทราบด้วยว่าการประมาณความหนาแน่นหลายตัวแปรสำหรับตัวแปรมากกว่าสามตัวอาจไม่ใช่ความคิดที่ดีในแง่ของคุณสมบัติทางสถิติของตัวประมาณค่า ดังนั้นในสถานการณ์ประเภทใดที่ฉันควรจะประเมินพูดความหนาแน่นของตัวแปรที่แยกจากกันโดยใช้วิธีการที่ไม่ใช้พารามิเตอร์? มันมีค่าพอที่จะเริ่มกังวลเกี่ยวกับการประมาณค่าสำหรับตัวแปรมากกว่าสองตัวหรือไม่? หากคุณสามารถชี้ไปที่ลิงค์ที่มีประโยชน์เกี่ยวกับการประยุกต์ใช้การประมาณค่าความหนาแน่นหลายตัวแปรนั้นจะดีมาก

3
คำนวณความแปรปรวนที่อธิบายโดยตัวทำนายแต่ละตัวในการถดถอยหลายครั้งโดยใช้ R
ฉันใช้การถดถอยหลายครั้งซึ่งโมเดลโดยรวมมีความสำคัญและอธิบายความแปรปรวนประมาณ 13% อย่างไรก็ตามฉันต้องการค้นหาจำนวนความแปรปรวนที่อธิบายโดยตัวทำนายสำคัญแต่ละตัว ฉันจะทำสิ่งนี้โดยใช้ R ได้อย่างไร นี่คือตัวอย่างข้อมูลและรหัส: D = data.frame( dv = c( 0.75, 1.00, 1.00, 0.75, 0.50, 0.75, 1.00, 1.00, 0.75, 0.50 ), iv1 = c( 0.75, 1.00, 1.00, 0.75, 0.75, 1.00, 0.50, 0.50, 0.75, 0.25 ), iv2 = c( 0.882, 0.867, 0.900, 0.333, 0.875, 0.500, 0.882, 0.875, 0.778, …
14 r  regression  variance 

2
มีฟังก์ชั่นใน R ที่นำศูนย์กลางของกลุ่มที่พบและกำหนดกลุ่มให้กับชุดข้อมูลใหม่
ฉันมีสองส่วนของชุดข้อมูลหลายมิติขอเรียกพวกเขาและtrain testและฉันต้องการสร้างแบบจำลองตามชุดข้อมูลรถไฟแล้วตรวจสอบความถูกต้องของชุดข้อมูลทดสอบ จำนวนของกลุ่มเป็นที่รู้จักกัน ฉันพยายามใช้การจัดกลุ่ม k-mean ใน R และได้วัตถุที่มีศูนย์กลางของกลุ่ม: kClust <- kmeans(train, centers=N, nstart=M) มีฟังก์ชั่นใน R ที่นำศูนย์กลางของกลุ่มที่พบและกำหนดกลุ่มให้กับชุดข้อมูลการทดสอบของฉันหรือไม่? ฉันสามารถลองวิธีการ / ขั้นตอนวิธีอื่นได้อย่างไร
14 r  clustering  k-means 


4
การใช้ ARMA-GARCH จำเป็นต้องใช้เครื่องเขียนหรือไม่?
ฉันจะใช้แบบจำลอง ARMA-GARCH สำหรับอนุกรมเวลาทางการเงินและสงสัยว่าชุดควรจะอยู่กับที่หรือไม่ก่อนที่จะใช้โมเดลดังกล่าว ฉันรู้ที่จะใช้โมเดล ARMA ชุดควรจะอยู่กับที่อย่างไรก็ตามฉันไม่แน่ใจสำหรับ ARMA-GARCH เนื่องจากฉันรวมถึงข้อผิดพลาด GARCH ซึ่งบ่งบอกถึงความผันผวนของการจัดกลุ่มและความแปรปรวนแบบไม่คงที่และแบบไม่คงที่ไม่ว่าจะเปลี่ยนแปลงอะไรก็ตาม . อนุกรมเวลาทางการเงินมักจะอยู่กับที่หรือหยุดนิ่ง? ฉันลองใช้การทดสอบ ADF กับซีรี่ย์ระเหยสองสามตัวและได้ค่า p <0.01 ซึ่งดูเหมือนว่าจะบ่งบอกความคงที่ แต่หลักการของซีรียส์ระเหยนั้นเองบอกเราว่า บางคนสามารถบอกฉันว่าฉันสับสนหรือเปล่า

2
การวิเคราะห์กำลังไฟสำหรับการทดสอบ Kruskal-Wallis หรือ Mann-Whitney U โดยใช้ R?
เป็นไปได้ไหมที่จะทำการวิเคราะห์พลังงานสำหรับการทดสอบ Kruskal-Wallis และ Mann-Whitney U? ถ้าใช่จะมีแพ็คเกจ / ฟังก์ชั่น R ใดบ้างที่ใช้งานได้?

1
Wilcoxon ทดสอบผลรวมอันดับใน R
ฉันมีผลลัพธ์จากการทดสอบเดียวกันกับตัวอย่างสองตัวอย่าง: x <- c(17, 12, 13, 16, 9, 19, 21, 12, 18, 17) y <- c(10, 6, 15, 9, 8, 11, 8, 16, 13, 7, 5, 14) และฉันต้องการคำนวณการทดสอบผลรวมลำดับของ Wilcoxon เมื่อฉันคำนวณสถิติด้วยมือฉันจะได้รับ: T W = ∑อันดับ( X i ) = 156.5TWTWT_{W}TW= ∑ อันดับ( Xผม) = 156.5TW=∑rank(Xi)=156.5 T_{W}=\sum\text{rank}(X_{i}) = 156.5 เมื่อฉันให้ R แสดง …

3
เครื่องเรียนรู้คำสาปของมิติอธิบาย?
ฉันมีปัญหาในการเข้าใจคำสาปของมิติ โดยเฉพาะฉันเจอมันในขณะที่ทำการscikit-learnสอนในหลาม ใครช่วยอธิบายด้านล่างด้วยวิธีที่ง่ายกว่านี้ได้ไหม ขออภัยฉันพยายามที่จะเข้าใจเป็นเวลานานและไม่สามารถเข้าใจได้ว่าพวกเขามาพร้อมกับการคำนวณจำนวนตัวอย่างการฝึกอบรมเพื่อให้ได้ตัวประมาณ KNN ​​อย่างมีประสิทธิภาพ นี่คือคำอธิบาย: เพื่อให้ตัวประมาณมีผลคุณต้องมีระยะห่างระหว่างจุดที่อยู่ใกล้เคียงกับค่าน้อยกว่าค่า d ซึ่งขึ้นอยู่กับปัญหา ในมิติเดียวสิ่งนี้ต้องใช้กับคะแนนเฉลี่ย n ~ 1 / d ในบริบทของตัวอย่าง KNN ด้านบนหากข้อมูลถูกอธิบายโดยคุณลักษณะเพียงหนึ่งเดียวที่มีค่าอยู่ระหว่าง 0 ถึง 1 และด้วยการสังเกตการณ์การฝึกอบรม n ข้อมูลใหม่จะไม่อยู่ไกลกว่า 1 / n ดังนั้นกฎการตัดสินใจของเพื่อนบ้านที่ใกล้ที่สุดจะมีประสิทธิภาพทันทีที่ 1 / n มีขนาดเล็กเมื่อเทียบกับขนาดของความแตกต่างระหว่างคุณลักษณะระดับคลาส หากจำนวนฟีเจอร์คือ p ตอนนี้คุณต้องมีคะแนน n ~ 1 / d ^ p สมมติว่าเราต้องการ 10 คะแนนในหนึ่งมิติ: ตอนนี้ต้องใช้ 10 ^ p …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.