สถิติและข้อมูลขนาดใหญ่ kolmogorov-smirnov

2

วิธีการตรวจสอบการกระจายที่เหมาะกับข้อมูลของฉันที่ดีที่สุด?

ฉันมีชุดข้อมูลและต้องการทราบว่าการกระจายแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ฉันใช้fitdistr()ฟังก์ชันเพื่อประมาณค่าพารามิเตอร์ที่จำเป็นเพื่ออธิบายการแจกแจงแบบสมมติ (เช่น Weibull, Cauchy, Normal) การใช้พารามิเตอร์เหล่านั้นฉันสามารถทำการทดสอบ Kolmogorov-Smirnov เพื่อประเมินว่าข้อมูลตัวอย่างของฉันมาจากการแจกแจงแบบเดียวกับการแจกแจงแบบสันนิษฐานของฉันหรือไม่ หากค่า p คือ> 0.05 ฉันสามารถสรุปได้ว่าข้อมูลตัวอย่างถูกดึงมาจากการแจกแจงแบบเดียวกัน แต่ค่า p ไม่ได้ให้ข้อมูลเกี่ยวกับความเหมาะสมของพระเจ้าใช่ไหม? ดังนั้นในกรณีที่ค่า p ของข้อมูลตัวอย่างของฉันคือ> 0.05 สำหรับการแจกแจงแบบปกติรวมถึงการแจกแบบไวบูลฉันจะรู้ได้อย่างไรว่าการแจกแจงแบบใดที่เหมาะกับข้อมูลของฉันดีกว่า นี่เป็นสิ่งที่ฉันทำ: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] …

133 r distributions goodness-of-fit kolmogorov-smirnov distribution-identification

2

Kullback – Leibler vs Kolmogorov-Smirnov ระยะทาง

ฉันเห็นได้ว่ามีความแตกต่างอย่างเป็นทางการระหว่าง Kullback – Leibler กับ Kolmogorov-Smirnov อย่างไรก็ตามทั้งสองถูกใช้เพื่อวัดระยะห่างระหว่างการแจกแจง มีสถานการณ์ทั่วไปที่ควรใช้อย่างใดอย่างหนึ่งแทนอีกสถานการณ์หนึ่งหรือไม่? เหตุผลที่ต้องทำคืออะไร?

37 distributions distance-functions kolmogorov-smirnov kullback-leibler

2

อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov?

อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov? ผลลัพธ์จากทั้งสองวิธีนี้จะแตกต่างกันเมื่อใด

30 distributions statistical-significance normality-assumption kolmogorov-smirnov

3

การทดสอบ Kolmogorov-Smirnov ใช้ได้กับการแจกแจงแบบแยกหรือไม่?

ฉันกำลังเปรียบเทียบตัวอย่างและตรวจสอบว่ามันกระจายเป็นแบบกระจายแยกหรือไม่ อย่างไรก็ตามฉันไม่แน่ใจอย่างมั่นใจว่า Kolmogorov-Smirnov ใช้งานได้ ดูเหมือนว่าWikipediaจะบอกเป็นนัยว่าไม่เป็นเช่นนั้น หากไม่เป็นเช่นนั้นฉันจะทดสอบการกระจายตัวตัวอย่างได้อย่างไร

29 hypothesis-testing discrete-data kolmogorov-smirnov

3

มันมีความหมายหรือไม่ที่จะทดสอบความเป็นมาตรฐานด้วยขนาดตัวอย่างที่เล็กมาก (เช่น n = 6)?

ฉันมีขนาดตัวอย่างเป็น 6 ในกรณีเช่นนี้มันสมเหตุสมผลไหมที่จะทดสอบความเป็นมาตรฐานโดยใช้การทดสอบ Kolmogorov-Smirnov ฉันใช้ SPSS ฉันมีขนาดตัวอย่างเล็กมากเพราะต้องใช้เวลาพอสมควร ถ้ามันไม่สมเหตุสมผลจำนวนตัวอย่างที่น้อยที่สุดที่สมเหตุสมผลในการทดสอบคือเท่าใด หมายเหตุ: ฉันได้ทำการทดสอบบางอย่างที่เกี่ยวข้องกับซอร์สโค้ด ตัวอย่างคือเวลาที่ใช้ในการเข้ารหัสในซอฟต์แวร์เวอร์ชัน (เวอร์ชัน A) ที่ จริงแล้วฉันมีขนาดตัวอย่างอีก 6 ตัวซึ่งเป็นเวลาที่ใช้ในการเข้ารหัสในซอฟต์แวร์เวอร์ชันอื่น(เวอร์ชัน B) ฉันต้องการทำการทดสอบสมมติฐานโดยใช้หนึ่งตัวอย่าง t-testเพื่อทดสอบว่าเวลาที่ใช้ในรหัสรุ่น A นั้นแตกต่างจากเวลาที่ใช้ในรหัสรุ่น B หรือไม่ (นี่คือ H1 ของฉัน) เงื่อนไขเบื้องต้นของ t-test หนึ่งตัวอย่างคือข้อมูลที่จะทดสอบต้องมีการแจกแจงแบบปกติ นั่นคือเหตุผลที่ฉันต้องทดสอบความเป็นปกติ

26 hypothesis-testing normality-assumption kolmogorov-smirnov power

3

ทำไมการทดสอบ Kolmogorov-Smirnov ถึงใช้งานได้?

ในการอ่านเกี่ยวกับการทดสอบ KS 2 ตัวอย่างผมเข้าใจว่าสิ่งที่ทำแต่ผมไม่เข้าใจว่าทำไมมันทำงาน กล่าวอีกนัยหนึ่งฉันสามารถทำตามทุกขั้นตอนเพื่อคำนวณฟังก์ชันการกระจายเชิงประจักษ์ค้นหาความแตกต่างสูงสุดระหว่างทั้งสองเพื่อค้นหา D-statistic คำนวณค่าวิกฤตเปลี่ยนค่า D-statistic เป็น p-value เป็นต้น แต่ฉันไม่รู้ว่าทำไมสิ่งนี้จริง ๆ บอกอะไรฉันเกี่ยวกับการแจกแจงสองอย่าง บางคนอาจบอกฉันได้อย่างง่ายดายว่าฉันต้องกระโดดข้ามลาและนับว่ามันวิ่งเร็วแค่ไหนและถ้าความเร็วน้อยกว่า 2 กม. / ชม. ฉันก็ปฏิเสธสมมติฐานว่าง แน่ใจว่าฉันสามารถทำสิ่งที่คุณบอกให้ฉันทำ แต่สิ่งใดที่เกี่ยวข้องกับสมมติฐานว่าง? เหตุใดการทดสอบ KS 2 ตัวอย่างทำงาน การคำนวณความแตกต่างสูงสุดระหว่าง ECDF นั้นเกี่ยวข้องกับการแจกแจงสองแบบที่แตกต่างกันอย่างไร ความช่วยเหลือใด ๆ ที่ชื่นชม ฉันไม่ใช่นักสถิติดังนั้นให้สมมติว่าฉันเป็นคนงี่เง่าถ้าเป็นไปได้

25 distributions statistical-significance nonparametric kolmogorov-smirnov

1

Kolmogorov-Smirnov ที่มีข้อมูลไม่ต่อเนื่อง: การใช้ dgof :: ks.test ใน R คืออะไร

คำถามเริ่มต้น: ฉันต้องการทดสอบว่าชุดข้อมูลที่แยกกันสองชุดนั้นมาจากการแจกแจงแบบเดียวกันหรือไม่ แนะนำให้ทำการทดสอบ Kolmogorov-Smirnov กับฉัน Conover ( สถิติ nonparametric ในทางปฏิบัติ , 3d) ดูเหมือนจะบอกว่าการทดสอบ Kolmogorov-Smirnov สามารถนำมาใช้เพื่อจุดประสงค์นี้ได้ แต่พฤติกรรมของมันคือ "อนุรักษ์นิยม" ด้วยการแจกแจงแบบแยกส่วนและฉันไม่แน่ใจว่าสิ่งที่นี่หมายถึงอะไร ความคิดเห็นของ DavidR สำหรับคำถามอื่นกล่าวว่า "... คุณยังสามารถทำการทดสอบระดับαตามสถิติ KS แต่คุณจะต้องค้นหาวิธีอื่นเพื่อให้ได้ค่าวิกฤตเช่นการจำลอง" รุ่นของ ks.test () ในแพคเกจ dgof การ R ( บทความ , Cran ) เพิ่มความสามารถบางอย่างที่ไม่ได้อยู่ในรุ่นเริ่มต้นของ ks.test () ในแพคเกจสถิติ เหนือสิ่งอื่นใด dgof :: ks.test รวมถึงพารามิเตอร์นี้: simulate.p.value: ตรรกะที่ระบุว่าจะคำนวณค่า p โดยการจำลอง …

23 r goodness-of-fit discrete-data kolmogorov-smirnov

4

วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?

หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

4

ซึ่งเชื่อว่า: ทดสอบ Kolmogorov-Smirnov หรือพล็อต QQ?

ฉันพยายามที่จะตรวจสอบว่าชุดข้อมูลของฉันของข้อมูลอย่างต่อเนื่องเป็นไปตามการกระจายแกมม่าที่มีพารามิเตอร์รูปร่าง 1.7 และอัตรา= 0.000063====== ปัญหาคือเมื่อฉันใช้ R เพื่อสร้างพล็อต QQ ของชุดข้อมูลของฉันกับแกมมาทฤษฎีการกระจาย (1.7 0.000063) ผมได้รับการพล็อตที่แสดงให้เห็นว่าข้อมูลเชิงประจักษ์ ๆ เห็นด้วยกับการกระจายรังสีแกมมาที่ สิ่งเดียวกันนี้เกิดขึ้นกับพล็อต ECDFxxx แต่เมื่อฉันเรียกใช้การทดสอบ Kolmogorov-Smirnov มันทำให้ฉันมีขนาดเล็กเกินสมควร -value ของ\%< 1 %ppp<1%<1%<1\% ฉันควรเลือกที่จะเชื่อ เอาต์พุตกราฟิกหรือผลลัพธ์จากการทดสอบ KS หรือไม่

16 pdf kolmogorov-smirnov cdf qq-plot

1

ฉันสามารถใช้ Kolmogorov-Smirnov เพื่อเปรียบเทียบการแจกแจงเชิงประจักษ์สองแบบได้หรือไม่?

มันเป็นการดีหรือไม่ที่จะใช้การทดสอบความดีแบบพอดีของ Kolmogorov-Smirnov เพื่อเปรียบเทียบการแจกแจงเชิงประจักษ์สองครั้งเพื่อพิจารณาว่าพวกมันดูเหมือนว่ามาจากการแจกแจงพื้นฐานเดียวกันแทนที่จะเปรียบเทียบการกระจายเชิงประจักษ์หนึ่งไปสู่การแจกแจงอ้างอิงที่ระบุล่วงหน้าหรือไม่ ให้ฉันลองถามอีกวิธีนี้ ฉันรวบรวมตัวอย่าง N จากการแจกจ่ายในที่เดียว ฉันรวบรวมตัวอย่าง M ที่สถานที่อื่น ข้อมูลมีความต่อเนื่อง (แต่ละตัวอย่างเป็นจำนวนจริงระหว่าง 0 ถึง 10 พูด) แต่ไม่แจกแจงตามปกติ ฉันต้องการทดสอบว่าตัวอย่าง N + M เหล่านี้ทั้งหมดมาจากการแจกแจงพื้นฐานเดียวกันหรือไม่ มันเหมาะสมที่จะใช้การทดสอบ Kolmogorov-Smirnov เพื่อจุดประสงค์นี้หรือไม่? F0F0F_0NNNF1F1F_1MMMF0F0F_0F1F1F_1D=supx|F0(x)−F1(x)|D=supx|F0(x)−F1(x)|D = \sup_x |F_0(x) - F_1(x)|DDD (ฉันอ่านที่อื่นว่าการทดสอบ Kolmogorov-Smirnov สำหรับความดีของพอดีไม่ถูกต้องสำหรับการกระจายโดยสิ้นเชิงแต่ฉันยอมรับว่าฉันไม่เข้าใจสิ่งนี้หมายความว่าหรือทำไมมันอาจจะเป็นจริงนั่นหมายความว่าวิธีการเสนอของฉันไม่ดี ) หรือคุณแนะนำอย่างอื่นแทน

16 hypothesis-testing distributions kolmogorov-smirnov

2

ทดสอบการสุ่มตัวอย่าง IID

คุณจะทดสอบหรือตรวจสอบว่าการสุ่มตัวอย่างเป็น IID (เป็นอิสระและกระจายตัวเหมือนกัน) โปรดทราบว่าฉันไม่ได้หมายถึง Gaussian และการกระจายแบบเหมือนจริงเพียง IID และความคิดที่อยู่ในใจของฉันคือการแบ่งตัวอย่างซ้ำ ๆ เป็นสองตัวอย่างย่อยที่มีขนาดเท่ากันทำการทดสอบ Kolmogorov-Smirnov และตรวจสอบว่าการกระจายตัวของค่า p มีค่าเท่ากันหรือไม่ ความคิดเห็นใด ๆ เกี่ยวกับวิธีการนั้นและข้อเสนอแนะใด ๆ ยินดีต้อนรับ ความชัดเจนหลังจากเริ่มรับรางวัล: ฉันกำลังมองหาการทดสอบทั่วไปที่สามารถนำไปใช้กับข้อมูลอนุกรมที่ไม่ใช่เวลา

16 hypothesis-testing independence kolmogorov-smirnov resampling iid

1

มันสมเหตุสมผลหรือไม่ที่จะทำการทดสอบ Kolmogorov-Smirnov แบบ one-tailed?

มันมีความหมายและเป็นไปได้หรือไม่ที่จะทำการทดสอบ KS แบบทางเดียว? สมมติฐานว่างของการทดสอบดังกล่าวจะเป็นอย่างไร หรือการทดสอบ KS นั้นเป็นการทดสอบแบบสองทางโดยเนื้อแท้ ฉันจะได้รับประโยชน์จากคำตอบที่ช่วยให้ฉันเข้าใจการกระจายของD (ฉันกำลังทำงานผ่านกระดาษของ Massey ในปี 1951 และค้นหาคำอธิบายที่ท้าทายตัวอย่างเช่นและD - supremum และ infinite ของความแตกต่างของค่าไม่แน่นอน ของความแตกต่างใน CDF เชิงประจักษ์?)D+D+D^{+}D−D-D^{-} คำถามติดตามผล: value เป็นอย่างไรสำหรับD +และD -ได้มาอย่างไร จำนวนมากดังนั้นของสิ่งพิมพ์ฉันกำลังเผชิญหน้ากับกำลังนำเสนอค่าขึ้นบัญชีดำมากกว่า CDF ของD n , D +และD -pพีpD+D+D^{+}D−D-D^{-}DnDnD_{n}D+D+D^{+}D−D−D^{-} อัปเดต:ฉันเพิ่งค้นพบคำถามที่เกี่ยวข้องอะไรคือสมมติฐานว่างในการทดสอบ Kolmogorov-Smirnov ด้านเดียว? ซึ่งฉันพลาดการสแกนครั้งแรกก่อนที่จะเขียนอันนี้

15 hypothesis-testing goodness-of-fit kolmogorov-smirnov

3

การแจกจ่ายของฉันเป็นเรื่องปกติ การทดสอบ Kolmogorov-Smirnov ไม่เห็นด้วย

ฉันมีปัญหากับค่าปกติของข้อมูลบางอย่างที่ฉันมี: ฉันได้ทำการทดสอบ Kolmogorov ซึ่งบอกว่ามันไม่ปกติกับ p = .0000 ฉันไม่เข้าใจ: ความเบ้ของการกระจายของฉัน = -. 497 และ kurtosis = -0,024 นี่คือพล็อตเรื่องการกระจายตัวของฉันซึ่งดูธรรมดามาก ... (ฉันมีสามคะแนนและแต่ละคะแนนนี้ไม่ปกติกับค่า p ที่สำคัญสำหรับการทดสอบ Kolmogorov ... ฉันไม่เข้าใจจริงๆ)

15 normal-distribution spss kolmogorov-smirnov histogram qq-plot

2

2 ตัวอย่าง Kolmogorov-Smirnov กับ Anderson-Darling กับ Cramer-von-Mises

ฉันสงสัยว่าเกณฑ์การใช้ Kolmogorov-Smirnov, Cramer-von-Mises และ Anderson-Darling คืออะไรเมื่อเปรียบเทียบ 2 ECDFS ฉันรู้คณิตศาสตร์ว่าแต่ละวิธีแตกต่างกันอย่างไร แต่ถ้าฉันมีข้อมูล ECDF บางอย่างฉันจะรู้ได้อย่างไรว่าการทดสอบใดที่เหมาะสมที่จะใช้

15 kolmogorov-smirnov anderson-darling two-sample

1

ทดสอบความแตกต่างระหว่างการแจกแจงแบบไม่ต่อเนื่องเชิงประจักษ์ 2 ครั้ง

ฉันมีข้อมูลทดสอบที่มีตัวอย่างจำนวนมากจากการกระจายแบบไม่ต่อเนื่องซึ่งฉันใช้เป็นการแจกแจงเชิงประจักษ์ ฉันต้องการทดสอบว่าการแจกแจงนั้นแตกต่างกันจริงหรือไม่และความแตกต่างในค่าเฉลี่ยนั้นสำหรับการแจกแจงที่ต่างกันจริงหรือไม่ เนื่องจากเป็นดิสทริบิวชันแบบไม่ต่อเนื่องความเข้าใจของฉันก็คือการทดสอบ Kolmogorov-Smirnov นั้นไม่ถูกต้องเนื่องจากสมมติฐานการกระจายอย่างต่อเนื่อง การทดสอบ Chi-Squared จะเป็นการทดสอบที่ถูกต้องหรือไม่ว่าการแจกแจงนั้นแตกต่างกันจริงหรือไม่? ฉันจะใช้การทดสอบใดสำหรับความแตกต่างของค่าเฉลี่ย วิธีที่ดีกว่าคือการสุ่มตัวอย่างจากการแจกแจงและรับความแตกต่างจากนั้นทำการวิเคราะห์การกระจายความแตกต่าง

14 chi-squared kolmogorov-smirnov

คำถามติดแท็ก kolmogorov-smirnov