Mann-Whitney U-test: ช่วงความมั่นใจสำหรับขนาดของเอฟเฟกต์


13

ตามที่ Fritz, Morris และ Richler (2011; ดูด้านล่าง) สามารถคำนวณเป็นขนาดเอฟเฟกต์สำหรับ Mann-Whitney U-test โดยใช้สูตร r = zr นี้จะสะดวกให้ฉันเป็นฉันรายงานRยังในโอกาสอื่น ๆ ฉันต้องการรายงานช่วงความมั่นใจสำหรับrเพิ่มเติมจากการวัดขนาดเอฟเฟกต์

r=zN
rr

นี่คือคำถามของฉัน:

  • ฉันสามารถคำนวณช่วงความเชื่อมั่นของ r สำหรับเพียร์สันได้หรือไม่แม้ว่ามันจะใช้เป็นตัววัดขนาดของเอฟเฟกต์สำหรับการทดสอบแบบไม่พารามิเตอร์
  • ช่วงเวลาความเชื่อมั่นใดที่จะต้องมีการรายงานสำหรับการทดสอบแบบทางเดียวกับแบบสองด้าน

แก้ไขเกี่ยวกับคำถามที่สอง: "ต้องมีการรายงานช่วงความมั่นใจสำหรับการทดสอบแบบหางเดียวและแบบสองด้าน"

ฉันพบข้อมูลเพิ่มเติมที่ IMHO อาจตอบคำถามนี้ "ในขณะที่ขีดจำกัดความเชื่อมั่นแบบสองด้านก่อให้เกิดช่วงความมั่นใจคู่หูด้านเดียวของพวกเขาจะเรียกว่าขอบเขตความเชื่อมั่นที่ต่ำกว่าหรือสูงกว่า" ( http://en.wikipedia.org/wiki/Confidence_interval ) จากข้อมูลนี้ฉันสรุปได้ว่ามันไม่ใช่ประเด็นหลักว่าการทดสอบที่สำคัญ (เช่น -test) นั้นเป็นแบบหนึ่งหรือสองแบบ แต่ข้อมูลที่เราสนใจนั้นเกี่ยวกับ CI สำหรับขนาดผลกระทบ ข้อสรุปของฉัน (โปรดแก้ไขให้ฉันถ้าคุณไม่เห็นด้วย):t

  • CI สองด้านสนใจในขอบเขตบนและล่าง (เป็นผลให้เป็นไปได้ว่า CI สองด้านสร้าง 0 แม้ว่าการทดสอบนัยสำคัญด้านเดียวคือ p <.05 โดยเฉพาะอย่างยิ่งในกรณีที่มูลค่าใกล้เคียง 05. )
  • ด้านเดียว "CI" สนใจเฉพาะในขอบเขตบนหรือล่าง (เนื่องจากเหตุผลเชิงทฤษฎี); แม้กระนั้นนี่ไม่จำเป็นต้องเป็นคำถามหลักที่น่าสนใจหลังจากทดสอบสมมติฐานโดยตรง CI สองด้านเหมาะสมอย่างสมบูรณ์แบบหากโฟกัสอยู่ในช่วงที่เป็นไปได้ของขนาดเอฟเฟกต์ ขวา?

ดูข้อความด้านล่างจาก Fritz, Morris, & Richler (2011) ตามขนาดประเมินสำหรับการทดสอบ Mann-Whitney จากบทความที่ฉันอ้างถึงด้านบน

"การประมาณขนาดเอฟเฟ็กต์ส่วนใหญ่ที่เราได้อธิบายไว้ที่นี่ถือว่าข้อมูลมีการแจกแจงแบบปกติอย่างไรก็ตามข้อมูลบางอย่างไม่เป็นไปตามข้อกำหนดของการทดสอบแบบพาราเมตริกเช่นข้อมูลบนลำดับ แต่ไม่ใช่ช่วงสเกลสำหรับข้อมูลนักวิจัยดังกล่าว มักจะเปลี่ยนเป็นการทดสอบทางสถิติที่ไม่ใช่พารามิเตอร์เช่นการทดสอบ Mann – Whitney และ Wilcoxon ความสำคัญของการทดสอบเหล่านี้มักจะประเมินผ่านการประมาณค่าการแจกแจงของสถิติการทดสอบเพื่อการกระจายเมื่อขนาดตัวอย่างไม่เล็กเกินไปและสถิติ แพ็คเกจเช่น SPSS ที่เรียกใช้การทดสอบเหล่านี้รายงานค่าzที่เหมาะสมนอกเหนือจากค่าสำหรับUหรือT ; zzzUTzสามารถคำนวณได้ด้วยมือ (เช่น Siegel & Castellan, 1988) คุ้มค่าสามารถนำมาใช้ในการคำนวณขนาดของผลเช่นRเสนอโดยโคเฮ (1988); แนวทางของโคเฮนสำหรับ r คือเอฟเฟกต์ขนาดใหญ่คือ 0.5, เอฟเฟกต์ปานกลางคือ. 3 และเอฟเฟกต์ขนาดเล็กคือ. 1 (Coolican, 2009, p. 395) มันง่ายในการคำนวณr , r 2หรือη 2จากค่าzเหล่านี้เนื่องจาก r = zzrrr2η2z และ r2

r=zN
ประมาณขนาดผลกระทบเหล่านี้ยังคงเป็นอิสระจากขนาดตัวอย่างแม้จะมี N ในสูตร นี่เป็นเพราะ z ไวต่อขนาดตัวอย่าง; การหารด้วยฟังก์ชัน N จะลบผลกระทบของขนาดตัวอย่างออกจากการประมาณขนาดผลกระทบผลลัพธ์ "(หน้า 12)
r2orη2=z2N

กระดาษเป็นใช้ได้ฟรีที่นี่
asac

คำตอบ:


9

ทางเลือกหนึ่งของขนาดเอฟเฟกต์สำหรับการทดสอบ Mann-Whitney U คือขนาดเอฟเฟกต์ภาษาทั่วไป สำหรับ Mann-Whitney U นี่คือสัดส่วนของตัวอย่างคู่ที่สนับสนุนสมมติฐานที่ระบุไว้

ตัวเลือกที่สองคือความสัมพันธ์อันดับ; เนื่องจากความสัมพันธ์ของอันดับอยู่ในช่วงตั้งแต่ -1 ถึง +1 จึงมีคุณสมบัติที่คล้ายคลึงกับ Pearson r นอกจากนี้ด้วยสูตรความแตกต่างอย่างง่ายความสัมพันธ์ของอันดับคือความแตกต่างระหว่างขนาดของเอฟเฟกต์ภาษาทั่วไปและส่วนประกอบซึ่งเป็นข้อเท็จจริงที่ส่งเสริมการตีความ ตัวอย่างเช่นหากมี 100 คู่ตัวอย่างและถ้าคู่ตัวอย่าง 70 คู่สนับสนุนสมมติฐานขนาดของผลภาษาทั่วไปคือ 70% และสหสัมพันธ์อันดับคือ r = .70 = .30 = .40 การอภิปรายอย่างชัดเจนเกี่ยวกับขนาดผลกระทบทางภาษาทั่วไปและสูตรสี่สูตรเพื่อคำนวณสหสัมพันธ์อันดับได้รับจาก Kerby ในวารสาร Innovative Teaching: Kerby (2014) Innovative Teaching

ถึงแม้ว่ากระดาษจะไม่พูดถึงมันฉันค่อนข้างแน่ใจว่าซอมเมอร์ d และความสัมพันธ์อันดับของ Mann-Whitney นั้นเท่ากัน


1
คุณหมายถึง "ตัวอย่างเช่นหากมี 100 คู่ที่เป็นไปได้ " การทดสอบ Mann-Whitney U เป็นข้อมูลที่ไม่มีการจับคู่ดังนั้นการใช้ถ้อยคำไม่ชัดเจน - คุณอาจต้องการชี้แจงให้ผู้อ่านทราบว่าคู่ที่เป็นไปได้คืออะไร
gung - Reinstate Monica

1
ขอบคุณสำหรับความคิดเห็นและโอกาสที่จะชี้แจง ฉันอ้างถึงคู่ตัวอย่าง หากมีการสังเกต 10 ตัวอย่างในการทดลองและหากมีการสังเกต 10 ครั้งในตัวอย่างการควบคุมจะมีคู่ตัวอย่าง 10 * 10 = 100 จากข้อมูลของ Robert Grissom ขนาดของเอฟเฟกต์เป็นตัวประมาณค่าที่เป็นกลางของขนาดเอฟเฟกต์ของประชากร ดังนั้นหากความสัมพันธ์ของอันดับคือ r = .40 สำหรับตัวอย่างนี่เป็นตัวประมาณค่าแบบไม่เอนเอียงของขนาดผลกระทบของประชากร
DSK

ฉันสงสัยว่าเป็นสิ่งที่คุณหมายถึง @DSK ฉันคิดว่าคำอธิบายจะช่วยให้ผู้คน คุณอาจต้องการที่จะแก้ไขที่เป็นคำตอบของคุณ ยินดีต้อนรับสู่ประวัติย่อ
gung - Reinstate Monica

8

ลิงก์ของคุณทำให้ฉันมีโอกาสที่จะซื้อบทความ

cHmiscrcorr.censcDxyDxy=2×(c12)


ขอขอบคุณที่แจ้งเรื่องนี้ให้ฉันทราบ (ลิงก์) ตอนนี้ฉันได้แทรกข้อความในการทดสอบ Mann-Whitney ในคำถามของฉัน
สีเทา

ขอบคุณมากสำหรับคำตอบของคุณ. คุณอาจมีลิงค์ในมือเกี่ยวกับวิธีการตีความ c-index และ Somerset 'D หรือไม่? ฉันสนใจโดยเฉพาะอย่างยิ่งว่าหลังสามารถตีความได้เทียบเท่ากับ r ฉันมีสองตัวอย่างและในตัวอย่างที่สอง (ขนาดใหญ่กว่า N และการกระจายปกติ) ฉันรายงาน r ฉันคิดว่ามันจะทำให้การเปรียบเทียบผลลัพธ์ง่ายขึ้นหากการวัดที่ใช้มีความคล้ายคลึงกัน - แน่นอนที่สุดเท่าที่จะทำได้ นั่นเป็นเหตุผลที่ฉันสนใจสูตรที่กล่าวถึงโดย Fritz และคณะ (2011) ดังนั้น CI สำหรับ r ของพวกเขาจึงไม่สามารถคำนวณได้สำหรับ Pearson's r ฉันถือว่า? ขอบคุณอีกครั้ง!
สีเทา

zDxyYDc

ขอบคุณมากสำหรับคำตอบของคุณ ฉันค้นหาข้อมูลเพิ่มเติมเกี่ยวกับวิธีการตีความของ Somer แต่ฉันยังไม่ประสบความสำเร็จมากเกินไป Somer สามารถเข้าใจได้คล้ายกับสัมประสิทธิ์สหสัมพันธ์ของ Pearson หรือไม่เช่นการยกกำลังสองมันให้ค่าสัมประสิทธิ์การตัดสินใจไหม? ฉันมีความสุขมากที่พบการวัดขนาดเอฟเฟกต์ที่สามารถตีความได้คล้ายกับ r หากมีอยู่
สีเทา

ฉันพบข้อมูลเพิ่มเติมเกี่ยวกับสูตร r = Z / √ (N): Rosenthal (1991) เขียนว่า "เราสามารถประเมินขนาดเอฟเฟกต์ r ได้อย่างมีประโยชน์จากระดับ ap เพียงอย่างเดียวตราบใดที่เรารู้ขนาดของการศึกษา (N) เราแปลงค่า p ที่ได้รับเป็นค่าเบี่ยงเบนปกติเทียบเท่าโดยใช้ตารางค่า Z "
สีเทา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.