คำถามติดแท็ก kolmogorov-smirnov

การทดสอบ Kolmogorov-Smirnov เป็นการทดสอบความเหมาะสมของข้อมูลเพื่อการแจกแจง มันมักจะใช้เพื่อทดสอบว่ามีการกระจายตัวแปรตามปกติ

3
ฉันสามารถใช้การทดสอบ Kolmogorov-Smirnov และประมาณค่าพารามิเตอร์การกระจายได้หรือไม่
ฉันได้อ่านแล้วว่าการทดสอบ Kolmogorov-Smirnov ไม่ควรใช้เพื่อทดสอบความดีของการแจกแจงที่มีการประมาณค่าพารามิเตอร์จากตัวอย่าง การแยกตัวอย่างของฉันออกเป็นสองส่วนและใช้ครึ่งแรกสำหรับการประมาณค่าพารามิเตอร์และอีกอันสำหรับการทดสอบ KS หรือไม่ ขอบคุณล่วงหน้า

1
มีทางเลือกอื่นสำหรับการทดสอบ Kolmogorov-Smirnov สำหรับข้อมูลที่เชื่อมโยงกับการแก้ไขหรือไม่?
ฉันได้รับข้อมูลจำนวนมากจากตัวอย่างสองตัวอย่าง (ควบคุมและจัดการ) แต่ละค่ามีหลายพันค่าซึ่งต้องผ่านการทดสอบที่สำคัญใน R. ตามทฤษฎีค่าควรจะต่อเนื่อง แต่เนื่องจากการปัดเศษทำโดยซอฟต์แวร์การวัดที่พวกเขาไม่ได้ ' และพวกเขามีความผูกพัน การแจกแจงไม่เป็นที่รู้จักและรูปร่างของการควบคุมและการแจกแจงที่ได้รับการรักษาอาจแตกต่างกันดังนั้นฉันต้องการใช้การทดสอบแบบไม่อิงพารามิเตอร์เพื่อเปรียบเทียบว่าความแตกต่างระหว่างตัวอย่างมีความสำคัญสำหรับ 10 ปัจจัยที่แตกต่างกันหรือไม่ ฉันคิดว่าจะใช้การทดสอบ Kolmogorov-Smirnov แต่มันไม่เหมาะสำหรับความสัมพันธ์ ฉันเพิ่งสะดุดกับห้องสมุด R ใหม่ที่เรียกว่าการจับคู่ที่ดำเนินการทดสอบรุ่น bootstrap ของ KS และยอมรับความสัมพันธ์ ตอนนี้เป็นความคิดที่ดีจริง ๆ หรือฉันควรใช้การทดสอบอื่นแทนหรือไม่ และฉันจำเป็นต้องปรับค่า p หรือไม่?

1
Kolmogorov – Smirnov test กับ t-test
ฉันมีความยากลำบากในการเข้าใจการตีความของการทดสอบ KS ตัวอย่าง 2 ตัวและมันแตกต่างจากการทดสอบแบบปกติระหว่าง 2 กลุ่ม ให้บอกว่าฉันมีชายและหญิงทำงานบางอย่างและฉันรวบรวมคะแนนจากงานนั้น เป้าหมายสูงสุดของฉันคือการพิจารณาว่าเพศชายและเพศหญิงปฏิบัติงานต่างกันหรือไม่ สิ่งหนึ่งที่ฉันทำได้คือทดสอบระหว่าง 2 กลุ่ม อีกสิ่งหนึ่งที่ฉันทำได้คือคำนวณ ECDF สำหรับชายและหญิงพล็อตและทำการทดสอบ KS 2 ตัวอย่าง ฉันจะได้รับสิ่งนี้: การทดสอบ KS สมมติฐานว่างสำหรับการทดสอบ KS คือการแจกแจงคะแนนต่อเนื่อง 2 ชุดมาจากประชากรเดียวกัน เมื่อทำการทดสอบ KS ฉันได้รับ: D = 0.18888, p-value = 0.04742 ก่อนอื่นฉันต้องการตรวจสอบว่าการตีความผลลัพธ์ของฉันถูกต้อง ที่นี่ฉันจะปฏิเสธสมมติฐานว่างและบอกว่าการแจกแจงคะแนนชายและหญิงมาจากประชากรที่แตกต่างกัน หรือกล่าวอีกนัยหนึ่งการกระจายของคะแนนชายและหญิงนั้นแตกต่างกัน โดยเฉพาะอย่างยิ่งเพศชายมักจะมีโอกาสสูงที่จะได้คะแนนต่ำกว่าในงานนี้และนั่นคือความแตกต่างระหว่าง 2 เพศที่ฉันตีความจากเนื้อเรื่อง t-test ตอนนี้ที่การทดสอบจะทดสอบความแตกต่างระหว่างชายและหญิงหมายถึงตัวแปรคะแนน ให้จินตนาการถึงกรณีที่การแสดงของผู้ชายนั้นแย่กว่าผู้หญิงในงานนี้ ในกรณีดังกล่าวการกระจายของคะแนนชายจะมุ่งไปที่ค่าเฉลี่ยต่ำในขณะที่การแจกแจงคะแนนหญิงจะอยู่กึ่งกลางค่าเฉลี่ยสูง สถานการณ์นี้จะสอดคล้องกับพล็อตด้านบนเนื่องจากผู้ชายจะมีโอกาสสูงที่จะได้รับคะแนนต่ำกว่า หากการทดสอบเสื้อยืดออกมามีนัยสำคัญฉันจะสรุปได้ว่าคะแนนผู้หญิงโดยเฉลี่ยสูงกว่าเพศชายอย่างมีนัยสำคัญ หรือในแง่ของประชากรคะแนนหญิงมาจากประชากรที่มีค่าเฉลี่ยสูงกว่าประชากรชายซึ่งฟังดูคล้ายกับข้อสรุปของแคนซัสว่ามาจากประชากรที่แตกต่างกัน ความแตกต่างคืออะไร? ดังนั้นข้อสรุปฉันจะวาดทั้งใน …

2
มีแบบทดสอบความเท่ากันอย่างง่ายของการทดสอบ Kolmogorov – Smirnov หรือไม่?
มีการทดสอบด้านเดียวสองด้านสำหรับความเท่าเทียมกัน (TOST) สำหรับการทดสอบ Kolmogorov – Smirnov เพื่อทดสอบสมมุติฐานเชิงลบว่าการแจกแจงสองครั้งนั้นแตกต่างกันอย่างน้อยระดับการระบุที่นักวิจัยกำหนดหรือไม่? ถ้าไม่ใช่ TOST แล้วรูปแบบอื่น ๆ ของการทดสอบความเท่ากัน? Nick Stauner ชี้ให้เห็นอย่างชาญฉลาดว่า (ฉันควรรู้แล้ว;) ว่ามีการทดสอบความเท่าเทียม TOST แบบ nonparametric อื่น ๆ สำหรับสมมติฐานว่างสำหรับการสุ่มเชิงเปรียบเทียบและมีข้อ จำกัด ที่เข้มงวดมากขึ้น

3
Kolmogorov-Smirnov สองมิติ
ฉันต้องการเรียกใช้การทดสอบ Kolmogorov-Smironov สองมิติเพื่อพิจารณาว่าการแจกแจงสองมิตินั้นเหมาะกับการอ้างอิงหรือไม่ มีแพ็คเกจหรือแอพพลิเคชั่นที่ฉันสามารถใช้ในแบบตรงไปตรงมาได้ไหม? หรือมีอัลกอริทึมที่แตกต่างกันซึ่งเป็นที่ต้องการ ฉันมีความรู้ทางสถิติขั้นพื้นฐาน

3
การกระจายความน่าจะเป็นแบบคลัสเตอร์ - วิธีการและตัวชี้วัด?
ฉันมีจุดข้อมูลบางอย่างซึ่งแต่ละอันประกอบด้วย 5 เวกเตอร์ของผลลัพธ์ที่ไม่ต่อเนื่องแบบจับกันเป็นกลุ่มผลของเวกเตอร์แต่ละตัวที่สร้างโดยการกระจายตัวที่แตกต่างกัน (ชนิดที่ฉันไม่แน่ใจการคาดเดาที่ดีที่สุดของฉันคือ Weibull กฎหมาย (1 ถึง 0, ประมาณ) ฉันกำลังมองหาที่จะใช้อัลกอริทึมการจัดกลุ่มเช่น K-Means เพื่อใส่แต่ละจุดข้อมูลลงในกลุ่มตามคุณลักษณะของการกระจายองค์ประกอบ 5 ฉันสงสัยว่ามีตัวชี้วัดระยะทางที่กำหนดไว้หรือไม่ซึ่งจะสวยงามสำหรับวัตถุประสงค์เหล่านี้ ฉันมีความคิดสามข้อ แต่ฉันไม่ใช่นักสถิติที่มีประสบการณ์ (เป็นนักวิทยาศาสตร์คอมพิวเตอร์การขุดข้อมูลเริ่มต้น) ดังนั้นฉันจึงมีความคิดเล็ก ๆ น้อย ๆ ว่าฉันอยู่ไกลแค่ไหน เนื่องจากฉันไม่รู้แน่ชัดว่าการแจกแจงแบบไหนฉันกำลังเข้าใกล้ปัญหาของฉันคือการสับการกระจายแต่ละครั้ง (ฉันมี 5 ต่อจุด) ลงในแต่ละค่าของข้อมูลที่ไม่ต่อเนื่อง (ฉันแพด แต่ละอันที่สอดคล้องกับความยาวเดียวกันกับศูนย์ที่ท้าย) และใช้แต่ละค่าเหล่านี้เป็นแอตทริบิวต์ที่แยกต่างหากสำหรับจุดข้อมูลเอง ฉันลองใช้ทั้งระยะทางแมนฮัตตันและระยะทางแบบยุคลิดเป็นตัวชี้วัดตามคุณลักษณะเหล่านี้สำหรับทั้ง PDF และ CDF อีกครั้งเนื่องจากฉันไม่ทราบว่ามีการแจกแจงแบบใดฉันจึงคิดว่าถ้าฉันจะวัดระยะห่างระหว่างการแจกแจงโดยรวมฉันสามารถใช้การทดสอบแบบไม่อิงพารามิเตอร์ระหว่างการแจกแจงเช่นการทดสอบ KS เพื่อค้นหาโอกาสที่การแจกแจงที่กำหนดถูกสร้างขึ้นโดย PDF ที่แตกต่างกัน ฉันคิดว่าตัวเลือกแรกของฉัน (ด้านบน) โดยใช้ระยะทางแมนฮัตตันจะเป็นขอบเขตบนของสิ่งที่ฉันอาจใช้วิธีนี้ (เนื่องจากสถิติ KS คือค่าสัมบูรณ์สูงสุดของความแตกต่างของ CDFs ซึ่งระยะทางแมนฮัตตันเป็น ผลรวมของค่าสัมบูรณ์ของความแตกต่างใน PDF) …

3
มีรุ่นตัวอย่างหลายตัวหรือเป็นทางเลือกในการทดสอบ Kolmogorov-Smirnov หรือไม่
ฉันกำลังเปรียบเทียบการกระจายขนาดของต้นไม้ในหกคู่แปลงที่หนึ่งแปลงได้รับการรักษาและอื่น ๆ ควบคุม โดยใช้การทดสอบ Kolmogorov-Smirnov คู่ของแปลงแต่ละผมพบว่าช่วงที่จะ0.75มีวิธีการที่เหมาะสมในการจัดการกับข้อมูลซ้ำทั้งหมดหรือไม่เช่นการทดสอบหลายตัวอย่างของการทดสอบ KS หรือมีการทดสอบติดตามที่เหมาะสมหรือไม่? หรือฉันควรสรุปบางอย่างเช่น "การกระจายขนาดแตกต่างกันอย่างมีนัยสำคัญ ) ใน 2 คู่ของแปลงและเล็กน้อย ( ) ในหนึ่งคู่ของแปลง"ppp0.00037070.00037070.00037070.750.750.75(p&lt;0.05(p&lt;0.05(p < 0.05p=0.59p=0.59p = 0.59

2
“ ไม่ควรมีความสัมพันธ์” ในการทดสอบ Kolmgorov-Smirnov หนึ่งตัวอย่างใน R
ฉันจะใช้การทดสอบ Kolmogorov-Smirnov เพื่อทดสอบความปกติของ MYDATA ใน R นี่เป็นตัวอย่างของสิ่งที่ฉันทำ ks.test(MYDATA,"pnorm",mean(MYDATA),sd(MYDATA)) นี่คือผลลัพธ์ R ให้ฉัน: data: MYDATA D = 0.13527, p-value = 0.1721 alternative hypothesis: two-sided Warning message: In ks.test(MYDATA, "pnorm", mean(MYDATA), sd(MYDATA)) : ties should not be present for the Kolmogorov-Smirnov test ฉันคิดว่ามีปัญหา "ความสัมพันธ์" หมายถึงอะไรในคำเตือนนี้

2
หากฮิสโตแกรมของฉันแสดงเส้นโค้งรูประฆังฉันสามารถพูดได้ว่าข้อมูลของฉันได้รับการกระจายตามปกติ?
ฉันสร้างฮิสโตแกรมสำหรับอายุผู้ตอบและจัดการเพื่อให้ได้เส้นโค้งรูประฆังที่ดีมากจากการที่ฉันสรุปว่าการแจกแจงเป็นเรื่องปกติ จากนั้นฉันรันการทดสอบเชิงปกติใน SPSS โดยมีn = 169 การทดสอบp -value (Sig.) ของการทดสอบ Kolmogorov-Smirnov น้อยกว่า 0.05 และดังนั้นข้อมูลจึงละเมิดสมมติฐานของภาวะปกติ ทำไมการทดสอบแสดงว่าการกระจายอายุไม่ปกติ แต่ฮิสโตแกรมแสดงเส้นโค้งรูประฆังซึ่งจากความเข้าใจของฉันเป็นเรื่องปกติ ฉันควรทำตามผลลัพธ์ใด

2
ความสัมพันธ์ระหว่างตัวแปรสองขั้วและตัวแปรต่อเนื่อง
ฉันพยายามที่จะหาความสัมพันธ์ระหว่างคู่และตัวแปรต่อเนื่อง จากการทำงานภาคพื้นดินของฉันในเรื่องนี้ฉันพบว่าฉันต้องใช้การทดสอบแบบอิสระและเงื่อนไขที่จำเป็นสำหรับมันคือการกระจายตัวของตัวแปรจะต้องเป็นปกติ ฉันทำการทดสอบ Kolmogorov-Smirnov เพื่อทดสอบความปกติและพบว่าตัวแปรต่อเนื่องไม่ปกติและเอียง (ประมาณ 4,000 จุดข้อมูล) ฉันทำการทดสอบ Kolmogorov-Smirnov สำหรับตัวแปรทั้งหมด ฉันควรแบ่งพวกเขาออกเป็นกลุ่มและทำแบบทดสอบหรือไม่? กล่าวคือถ้าฉันมีrisk level( 0= ไม่เสี่ยง1= เสี่ยง) และระดับคอเลสเตอรอลฉันควร: แบ่งพวกมันออกเป็นสองกลุ่มอย่างเช่น Risk level =0 (Cholestrol level) -&gt; Apply KS Risk level =1 (Cholestrol level) -&gt; Apply KS พาพวกเขาไปด้วยกันและทำการทดสอบ? (ฉันใช้กับชุดข้อมูลทั้งหมดเท่านั้น) หลังจากนั้นฉันควรทำอย่างไรหากมันยังไม่ปกติ แก้ไข: สถานการณ์ข้างต้นเป็นเพียงคำอธิบายที่ฉันพยายามให้สำหรับปัญหาของฉัน ฉันมีชุดข้อมูลซึ่งมีตัวแปรมากกว่า 1,000 รายการและตัวอย่างประมาณ 4000 รายการ พวกมันมีทั้งต่อเนื่องหรือเด็ดขาดในธรรมชาติ งานของฉันคือการทำนายตัวแปรแบบแบ่งขั้วตามตัวแปรเหล่านี้ (อาจเกิดขึ้นกับแบบจำลองการถดถอยโลจิสติก) ดังนั้นฉันคิดว่าการตรวจสอบเบื้องต้นจะเกี่ยวข้องกับการค้นหาความสัมพันธ์ระหว่างโดมิโนและตัวแปรต่อเนื่อง ฉันพยายามที่จะดูว่าการกระจายตัวของตัวแปรเป็นอย่างไรและด้วยเหตุนี้จึงพยายามไปทดสอบ …

1
มีการทดสอบ Kolmogorov-Smirnov สองตัวแปรหลายตัวแปรหรือไม่
มีทางเลือกหลายตัวแปรในการทดสอบ Kolmogorov-Smirnov สองตัวอย่างหรือไม่ สิ่งที่ฉันหมายถึงคือการทดสอบที่สามารถใช้ตรวจสอบได้เมื่อใดก็ตามที่การกระจายหลายมิติสองมิติที่ต่างกัน

2
คุณสามารถคำนวณพลังของการทดสอบ Kolmogorov-Smirnov ใน R ได้หรือไม่?
เป็นไปได้ไหมที่จะทำการวิเคราะห์พลังงานสำหรับการทดสอบ Kolmogorov Smirnov แบบ 2 ด้านใน R? ฉันกำลังทดสอบว่าการแจกแจงเชิงประจักษ์สองแบบนั้นแตกต่างกันหรือไม่โดยใช้ ks.test () และต้องการเพิ่มการวิเคราะห์พลังงาน ฉันไม่พบการวิเคราะห์พลังงานในตัวสำหรับการทดสอบ KS ใน R. คำแนะนำใด ๆ แก้ไข : นี่คือการแจกแจงแบบสุ่มที่สร้างขึ้นโดยประมาณใกล้เคียงกับข้อมูลของฉัน (ด้วยขนาดตัวอย่างจริงและอัตราการสลายตัวโดยประมาณสำหรับการแจกแจงแบบเอ็กซ์โปเนนเชียล) set.seed(100) x &lt;- rexp(64, rate=0.34) y &lt;- rexp(54,rate=0.37) #K-S test: Do x and y come from same distribution? ks.test(x,y) ข้อมูลเหล่านี้เป็นการวัดขนาดร่างกายในสองกลุ่มที่แตกต่างกัน ฉันต้องการแสดงให้เห็นว่าทั้งสองกลุ่มมีการกระจายตัวเหมือนกันเป็นหลัก แต่ถูกถามโดยผู้ทำงานร่วมกันว่าฉันมีอำนาจที่จะพูดแบบนั้นตามขนาดตัวอย่างหรือไม่ ฉันสุ่มมาจากการแจกแจงเอ็กซ์โพเนนเชียลที่นี่ แต่สิ่งเหล่านี้ใกล้เคียงกับข้อมูลจริง จนถึงตอนนี้ฉันได้บอกว่าไม่มีความแตกต่างอย่างมีนัยสำคัญในการแจกแจงเหล่านี้ตามการทดสอบ KS แบบสองด้าน ฉันได้วางแผนการแจกแจงสองแบบด้วย ฉันจะแสดงให้เห็นได้อย่างไรว่าฉันมีอำนาจในการสร้างคำสั่งดังกล่าวโดยพิจารณาจากขนาดตัวอย่างและอัตราการสลายตัวของ …

1
เหตุใดจึงไม่สามารถสรุปการทดสอบ Kolmogorov-Smirnov เป็น 2 มิติหรือมากกว่าได้
คำถามบอกว่ามันทั้งหมด ฉันได้อ่านทั้งสองอย่างที่ไม่สามารถสรุป KS ให้มีขนาดเท่ากันหรือใหญ่กว่าสองเท่าได้และการใช้งานที่มีชื่อเสียงเช่นนั้นในNumerical Recipesนั้นผิดปกติ คุณช่วยอธิบายได้ว่าทำไมถึงเป็นเช่นนั้น?

2
หนังสือสำหรับสถิติที่ไม่ใช่พารามิเตอร์
สิ่งที่จะเป็นหนังสือที่ดีสำหรับสถิติที่ไม่ใช่พารามิเตอร์ ไม่เพียงแค่การแนะนำ แต่ระดับสูง นอกจากนี้ฉันกำลังมองหาสิ่งที่ฉันสามารถใช้สำหรับการเรียนรู้และไม่ได้สำหรับการอ้างอิง โดยเฉพาะฉันกำลังมองหาหนังสือที่มีพื้นฐานอยู่เบื้องหลังวิธีการที่ไม่ใช้พารามิเตอร์, การอนุมานที่ไม่ใช่พารามิเตอร์, วิธีการประเมิน parametrics ที่ไม่ใช่เช่นการทดสอบ KS, การทดสอบ , ฯลฯ , bootstrapping ....เสื้อtt

1
CDF สองตัวอย่างของและจากการทดสอบ Kolmogorov-Smirnov ด้านเดียวคืออะไร
ฉันพยายามที่จะเข้าใจวิธีการรับค่าสำหรับการทดสอบ Kolmogorov-Smirnov ด้านเดียวและฉันพยายามหา CDF สำหรับและในกรณีตัวอย่างสองตัวอย่าง ด้านล่างนี้ถูกอ้างถึงในบางแห่งเนื่องจาก CDF สำหรับในกรณีตัวอย่างเดียว:pppD+n1,n2Dn1,n2+D^{+}_{n_{1},n_{2}}D−n1,n2Dn1,n2−D^{-}_{n_{1},n_{2}}D+nDn+D^{+}_{n} p+n(x)=P(D+n≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jpn+(x)=P(Dn+≥x|H0)=x∑j=0⌊n(1−x)⌋(nj)(jn+x)j−1(1−x−jn)n−jp^{+}_{n}\left(x\right) = \text{P}\left(D^{+}_{n} \ge x | \text{H}_{0}\right) = x\sum_{j=0}^{\lfloor n\left(1-x\right)\rfloor}{ \binom{n}{j} \left(\frac{j}{n}+x\right)^{j-1}\left(1 - x - \frac{j}{n}\right)^{n-j}} นอกจากนี้ whuber sez มีสูตรที่แตกต่างกันเล็กน้อยของ CDF ตัวอย่างหนึ่งนี้ (ฉันแทนxxxสำหรับtttในเครื่องหมายคำพูดของเขาเพื่อความสอดคล้องกับสัญกรณ์ของฉันที่นี่): การใช้การแปลงค่าความน่าจะเป็นแบบครบวงจร, Donald Knuth ได้มาจากการแจกแจง (ร่วมกัน) บน p 57 และออกกำลังกาย 17 ของTAoCPเล่ม 2 ฉันพูด: (D+n≤xn−−√)=xnn∑c≤k≤x(nk)(k−x)k(x+n−k)n−k−1(Dn+≤xn)=xnn∑c≤k≤x(nk)(k−x)k(x+n−k)n−k−1\left(D^{+}_{n}\le \frac{x}{\sqrt{n}}\right)=\frac{x}{n^{n}}\sum_{c\le k\le x}\binom{n}{k}\left(k-x\right)^{k}\left(x+n-k\right)^{n-k-1} สิ่งนี้จะนำไปใช้กับสมมติฐานด้านเดียวในกรณีตัวอย่างหนึ่งตัวอย่างเช่น: H …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.