การแปลง normalizing อื่นใดที่ใช้กันทั่วไปนอกเหนือจากที่พบโดยทั่วไปเช่นสแควร์รูท, บันทึกเป็นต้น


10

ในการวิเคราะห์คะแนนการทดสอบ (เช่นในด้านการศึกษาหรือจิตวิทยา) เทคนิคการวิเคราะห์ทั่วไปมักจะสมมติว่ามีการแจกจ่ายข้อมูลตามปกติ อย่างไรก็ตามอาจบ่อยกว่าไม่ได้คะแนนมีแนวโน้มที่จะเบี่ยงเบนบางครั้งอย่างรุนแรงจากปกติ

ฉันคุ้นเคยกับการแปลง normalizing พื้นฐานบางอย่างเช่น: สแควร์รูท, ลอการิทึม, การแปลงส่วนกลับเพื่อลดความเบ้เป็นบวก, เวอร์ชันที่สะท้อนข้างต้นสำหรับการลดความเบ้เชิงลบ, กำลังสองสำหรับการกระจายเลป ฉันเคยได้ยินเรื่องการแปลงอาร์ซีนและการแปลงพลังงานแม้ว่าฉันจะไม่ค่อยมีความรู้เกี่ยวกับมัน

ดังนั้นฉันอยากรู้ว่านักวิเคราะห์ที่ใช้การแปลงแบบอื่นคืออะไร?

คำตอบ:


5

การแปลงBox-Coxมีหลายสิ่งที่คุณอ้างถึง ดูคำตอบนี้สำหรับรายละเอียด:

UPDATE: สไลด์เหล่านี้ให้ภาพรวมที่ดีของการแปลง Box-Cox


หากเราใช้ t-tools กับข้อมูลที่ถูกแปลง Box-Cox เราจะได้รับการอนุมานเกี่ยวกับความแตกต่างของข้อมูลที่ถูกแปลง เราจะตีความสิ่งเหล่านั้นในระดับการวัดดั้งเดิมได้อย่างไร (ค่าเฉลี่ยของค่าที่แปลงไม่ใช่ค่าเฉลี่ยที่แปลงแล้ว) ในคำอื่น ๆ (ถ้าฉันถูกต้อง) การแปลงผกผันของการประมาณค่าเฉลี่ยในระดับที่แปลงแล้วไม่ได้ให้ค่าประมาณของค่าเฉลี่ยในระดับเดิม
George Dontas

@ gd047 การทดสอบบางอย่างถือว่าปกติของการกระจายตัวของค่าเฉลี่ยไม่ใช่ข้อมูล การทดสอบ t มีแนวโน้มที่จะเป็นข้อมูลที่มีประสิทธิภาพ คุณถูกต้องแล้ว - ด้วยการทดสอบหลังการแปลงผลลัพธ์จะถูกรายงานหลังจากการแปลงผกผันและการตีความอาจเป็นปัญหาได้ มันลงมาถึงวิธีการที่ "ผิดปกติ" ข้อมูลของคุณคุณสามารถหนีไปได้โดยไม่ต้องเปลี่ยนหรือใช้พูดการแปลงบันทึกซึ่งง่ายต่อการตีความ มิฉะนั้นเป็นบริบทเกี่ยวกับการเปลี่ยนแปลงและโดเมนจริงและฉันไม่มีคำตอบที่ดีจริงๆ อาจจะคุ้มค่าที่ขอให้ดูว่าคนอื่นพูดอะไร
ARS

10

ขั้นตอนแรกที่ควรจะถามว่าทำไมตัวแปรของคุณมีการกระจายที่ไม่ปกติ สิ่งนี้สามารถส่องสว่าง ข้อค้นพบทั่วไปจากประสบการณ์ของฉัน:

  • การทดสอบความสามารถ (เช่นการสอบการทดสอบความฉลาดการทดสอบการรับเข้า) มีแนวโน้มที่จะเบ้ในเชิงลบเมื่อมีเอฟเฟกต์เพดานและเบ้บวกเมื่อมีเอฟเฟกต์พื้น ข้อค้นพบทั้งสองข้อเสนอแนะว่าระดับความยากของการทดสอบไม่ได้รับการปรับให้เหมาะสมกับตัวอย่างไม่ว่าจะง่ายหรือยากเกินไปที่จะแยกความสามารถอย่างเหมาะสมที่สุด มันก็หมายความว่าตัวแปรแฝงที่น่าสนใจยังคงสามารถกระจายได้ตามปกติ แต่โครงสร้างของการทดสอบนั้นทำให้เกิดการเอียงในตัวแปรที่วัดได้
  • การทดสอบความสามารถมักจะมีค่าผิดปกติในแง่ของผู้ทำคะแนนต่ำ ในระยะสั้นมีหลายวิธีในการทำแบบทดสอบ โดยเฉพาะอย่างยิ่งเรื่องนี้สามารถเห็นได้ในบางครั้งการสอบที่มีนักเรียนเพียงไม่กี่เปอร์เซ็นต์ที่มีการรวมกันของการขาดความถนัดและขาดความพยายามรวมกันเพื่อสร้างคะแนนการทดสอบที่ต่ำมาก นี่ก็หมายความว่าตัวแปรที่น่าสนใจที่แฝงอยู่อาจมีค่าผิดปกติเล็กน้อย
  • ในส่วนที่เกี่ยวข้องกับการทดสอบรายงานตนเอง (เช่นบุคลิกภาพการทดสอบทัศนคติ ฯลฯ ) มักเกิดขึ้นเมื่อตัวอย่างเอียงสูงในระดับ (เช่นการแจกแจงความพึงพอใจในชีวิตจะเบ้ในทางลบเพราะคนส่วนใหญ่พอใจ) หรือเมื่อขนาด ได้รับการปรับให้เหมาะสมสำหรับตัวอย่างที่แตกต่างจากการทดสอบที่กำลังนำไปใช้ (เช่นการใช้การวัดทางคลินิกของภาวะซึมเศร้ากับตัวอย่างที่ไม่ใช่ทางคลินิก)

ขั้นตอนแรกนี้อาจแนะนำให้ปรับเปลี่ยนการออกแบบการทดสอบ หากคุณตระหนักถึงปัญหาเหล่านี้ล่วงหน้าคุณสามารถออกแบบการทดสอบเพื่อหลีกเลี่ยงปัญหาได้หากคุณเห็นว่าเป็นปัญหา

ขั้นตอนที่สองคือการตัดสินใจว่าจะทำอย่างไรในสถานการณ์ที่คุณมีข้อมูลที่ไม่ปกติ การแปลงหมายเหตุเป็นเพียงหนึ่งกลยุทธ์ที่เป็นไปได้ ฉันขอย้ำคำแนะนำทั่วไปจากคำตอบก่อนหน้าเกี่ยวกับการไม่ปกติ :

  • ขั้นตอนมากมายที่ถือว่าเป็นเรื่องปกติของสารตกค้างนั้นมีความทนทานต่อการละเมิดกฎเกณฑ์ของสารตกค้าง
  • การบูตสแตรปเป็นกลยุทธ์ที่ดี
  • การเปลี่ยนแปลงเป็นอีกกลยุทธ์ที่ดี โปรดทราบว่าจากประสบการณ์ของฉันชนิดของความเบ้เล็กน้อยที่มักเกิดขึ้นกับความสามารถและการทดสอบทางจิตวิทยาด้วยตนเองสามารถรายงานได้อย่างง่ายดายโดยทั่วไปสามารถเปลี่ยนเป็นการแจกแจงแบบปกติโดยใช้ log, sqrt หรือการแปลงผกผัน

9

John Tukey กล่าวถึงการเปลี่ยนแปลงในหนังสือของเขาเกี่ยวกับ EDA อย่างเป็นระบบ นอกเหนือจากตระกูล Box-Cox (การแปลงพลังงานที่ปรับขนาดได้อย่างละเอียด) เขายังกำหนดตระกูลของการแปลงแบบ "พับ" สำหรับสัดส่วน (ส่วนใหญ่พลังของ x / (1-x)) และ "เริ่มต้น" นับ (เพิ่มออฟเซ็ตบวกกับข้อมูลที่นับ ก่อนที่จะเปลี่ยนพวกเขา) การแปลงแบบพับซึ่งส่วนใหญ่จะเป็นการสรุป logit มีประโยชน์อย่างยิ่งสำหรับคะแนนการทดสอบ

ในหลอดเลือดดำที่แตกต่างกันโดยสิ้นเชิง Johnson & Kotz ในหนังสือของพวกเขาเกี่ยวกับการแจกแจงเสนอการเปลี่ยนแปลงหลายอย่างเพื่อแปลงสถิติการทดสอบให้เป็นมาตรฐานปกติ (หรือการกระจายเป้าหมายอื่น ๆ ) เช่นการแปลงลูกบาศก์รูตสำหรับไคสแคว วัสดุนี้เป็นแหล่งความคิดที่ยอดเยี่ยมสำหรับการแปลงที่มีประโยชน์เมื่อคุณคาดว่าข้อมูลของคุณจะเป็นไปตามการกระจายเฉพาะ


2

ตัวเลือกที่ง่ายคือการใช้ผลรวมคะแนนแทนคะแนนด้วยตนเอง ผลรวมของการแจกแจงมีแนวโน้มเป็นปกติ ตัวอย่างเช่นในการศึกษาคุณสามารถเพิ่มคะแนนของนักเรียนผ่านชุดการทดสอบ

อีกทางเลือกหนึ่งของหลักสูตรคือการใช้เทคนิคที่ไม่ถือว่าเป็นเรื่องปกติซึ่งถูกประเมินและใช้ต่ำ


1
ฉันเชื่อว่าผลรวมต้องได้รับการปรับให้เป็นมาตรฐาน (เช่นใช้คะแนนเฉลี่ย) เพื่อการแจกแจงมักจะเป็นไปตามปกติ

1
ใช่ถูกต้องแล้ว ในตัวอย่างของฉันฉันคิดว่าชั้นเรียนจะมีจำนวนนักเรียนเท่ากันซึ่งไม่เหมือนจริง ขอบคุณ.
Carlos Accioly

1

สำหรับข้อมูลที่เบ้และหนักมากฉันใช้ (และพัฒนา) กรอบการกระจาย Lambert W x F Lambert W x F การแจกแจงแบบเบ้และหางเท่นั้นขึ้นอยู่กับการแปลงแบบไม่เชิงเส้นของตัวแปรสุ่มอินพุต (RV)เพื่อเอาท์พุทซึ่งคล้ายกับ X แต่เบ้และ / หรือ heavy tailed (ดูเอกสารสำหรับสูตรโดยละเอียด)Y L อีอาร์ทีW × FXFY LambertW×F

งานนี้โดยทั่วไปสำหรับ RV อย่างต่อเนื่องใด ๆ แต่ในทางปฏิบัติเรามีความสนใจส่วนใหญ่อยู่ในเกาส์2) สำหรับการแจกแจง Lambert Wx F แบบหนักเทลด์อินเวิร์สคือ bijective และสามารถประมาณจากข้อมูลโดยใช้ตัวประมาณที่คุณชื่นชอบสำหรับพารามิเตอร์ (MLE วิธีการของช่วงเวลา การวิเคราะห์แบบเบย์, ... ). สำหรับและ X เป็น Gaussian มันจะลดการกระจายของ Tukey เป็น hθ = ( μ x , σ x , δ , α ) α 1XN(μ,σ2)θ=(μx,σx,δ,α)α1

ตอนนี้เมื่อการแปลงข้อมูลกลายเป็นเรื่องที่น่าสนใจเมื่อการแปลงเปลี่ยนเป็น bijective (เกือบ bijective สำหรับกรณีที่เอียง) และสามารถรับได้อย่างชัดเจนโดยใช้ฟังก์ชันW ของ Lambert (ดังนั้นชื่อ Lambert W x F) ซึ่งหมายความว่าเราสามารถลบความเบ้จากข้อมูลและยังลบหางหนา (bijectively!)

คุณสามารถลองใช้แพ็คเกจ LambertW R พร้อมกับคู่มือที่แสดงตัวอย่างมากมายเกี่ยวกับวิธีใช้

สำหรับแอปพลิเคชันดูโพสต์เหล่านี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.