การรักษาค่าผิดปกติที่ผลิตโดย Kurtosis


10

ฉันสงสัยว่าใครสามารถช่วยฉันเกี่ยวกับข้อมูลเกี่ยวกับ Kurtosis (เช่นมีวิธีแปลงข้อมูลของคุณเพื่อลดหรือไม่)

ฉันมีชุดข้อมูลแบบสอบถามที่มีเคสและตัวแปรจำนวนมาก สำหรับตัวแปรบางตัวของฉันข้อมูลแสดงค่า kurtosis ที่ค่อนข้างสูง (เช่นการกระจายตัวของเลปโตคูเทอริก) ซึ่งมาจากข้อเท็จจริงที่ว่าผู้เข้าร่วมจำนวนมากให้คะแนนเดียวกันกับตัวแปร ฉันมีขนาดตัวอย่างขนาดใหญ่เป็นพิเศษดังนั้นตามทฤษฎีบทขีด จำกัด กลางการฝ่าฝืนกฎเกณฑ์ก็ควรจะดี

อย่างไรก็ตามปัญหาคือความจริงที่ว่าระดับสูงโดยเฉพาะอย่างยิ่งของ Kurtosis กำลังผลิตจำนวนของค่าผิดปกติที่ไม่เปลี่ยนแปลงในชุดข้อมูลของฉัน ดังนั้นแม้ว่าฉันจะแปลงข้อมูลหรือลบ / ปรับค่าผิดปกติระดับสูงของ kurtosis หมายความว่าคะแนนสูงสุดต่อไปจะกลายเป็นค่าผิดปกติโดยอัตโนมัติ ฉันมุ่งหวังที่จะใช้ (การวิเคราะห์ฟังก์ชั่นจำแนก) DFA นั้นมีความแข็งแกร่งในการออกจากภาวะปกติหากการละเมิดนั้นเกิดจากความเบ้และไม่ใช่ค่าผิดปกติ นอกจากนี้ DFA ยังได้รับการกล่าวถึงว่าได้รับอิทธิพลจากค่าผิดปกติในข้อมูล (Tabachnick & Fidel) โดยเฉพาะ

มีความคิดเห็นเกี่ยวกับวิธีแก้ไขปัญหานี้อย่างไร? (ความคิดเริ่มต้นของฉันคือวิธีการควบคุม Kurtosis แต่มันไม่ได้เป็นสิ่งที่ดีถ้าตัวอย่างส่วนใหญ่ของฉันให้คะแนนคล้ายกัน?)

คำตอบ:


8

วิธี "สามัญสำนึก" ที่ชัดเจนในการแก้ไขปัญหาของคุณคือ

  1. รับข้อสรุปโดยใช้ชุดข้อมูลแบบเต็ม คือผลลัพธ์ใดที่คุณจะประกาศว่าไม่สนใจการคำนวณระดับกลาง
  2. รับข้อสรุปโดยใช้ชุดข้อมูลโดยลบ "ค่าผิดปกติ" ออก คือผลลัพธ์ใดที่คุณจะประกาศว่าไม่สนใจการคำนวณระดับกลาง
  3. เปรียบเทียบขั้นตอนที่ 2 กับขั้นตอนที่ 1
  4. หากไม่มีความแตกต่างลืมคุณได้ว่ามีปัญหา ค่าผิดปกติไม่เกี่ยวข้องกับข้อสรุปของคุณ ค่าผิดปกติอาจมีผลต่อข้อสรุปอื่น ๆ ที่อาจถูกดึงออกมาโดยใช้ข้อมูลเหล่านี้ แต่สิ่งนี้ไม่เกี่ยวข้องกับงานของคุณ มันเป็นปัญหาของคนอื่น
  5. หากมีความแตกต่างคุณก็มีคำถามเรื่อง "ความไว้วางใจ" "ค่าผิดปกติ" เหล่านี้เป็นของจริงในแง่ที่ว่าพวกเขาเป็นตัวแทนของจริง ๆ เกี่ยวกับการวิเคราะห์ของคุณ? หรือ "ค่าผิดปกติ" ไม่ดีในการที่พวกเขามาจาก "แหล่งปนเปื้อน" บ้างหรือไม่?

ในสถานการณ์ที่ 5 คุณมักจะมีกรณีของ "นายแบบ" ที่คุณเคยอธิบายว่า "ประชากร" ไม่สมบูรณ์ - มีรายละเอียดที่ไม่ได้ระบุ แต่มีความสำคัญต่อข้อสรุป มีสองวิธีในการแก้ไขปัญหานี้ซึ่งสอดคล้องกับสถานการณ์สอง "ความไว้วางใจ":

  1. เพิ่มโครงสร้างเพิ่มเติมให้กับแบบจำลองของคุณเพื่ออธิบาย "ค่าผิดปกติ" ดังนั้นแทนที่จะพิจารณาdP(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. สร้าง "model-model" หนึ่งรายการสำหรับการสังเกต "ดี" และอีกหนึ่งสำหรับการสังเกต "เลว" ดังนั้นแทนที่จะเป็นคุณจะใช้ถ้าคุณมีความน่าจะเป็นที่จะได้รับ การสังเกต "ดี" ในตัวอย่างของคุณและGและBแสดงโมเดลสำหรับข้อมูล "ดี" และ "ไม่ดี"P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

ขั้นตอน "มาตรฐาน" ส่วนใหญ่สามารถแสดงให้เห็นได้ว่าเป็นการประมาณค่าของรุ่นเหล่านี้ สิ่งที่ชัดเจนที่สุดคือการพิจารณากรณีที่ 1 ซึ่งความแปรปรวนได้รับการสันนิษฐานว่าคงที่ตลอดการสังเกต ด้วยการผ่อนคลายสมมติฐานนี้เป็นการกระจายคุณจะได้การกระจายแบบผสม นี่คือการเชื่อมต่อระหว่างการแจกแจงแบบ "ปกติ" และ "t" ปกติมีความแปรปรวนคงที่ในขณะที่ "t" ผสมกับความแปรปรวนที่แตกต่างกันจำนวนของ "การผสม" ขึ้นอยู่กับองศาอิสระ DF สูงหมายถึงการผสมต่ำ (ค่าที่ไม่น่าจะเกิดขึ้น), DF ต่ำหมายถึงการผสมที่สูง (มีแนวโน้มที่จะมีค่าผิดพลาด) ในความเป็นจริงคุณสามารถใช้กรณีที่ 2 เป็นกรณีพิเศษของกรณีที่ 1 ซึ่งการสังเกต "ดี" เป็นเรื่องปกติและการสังเกต "เลว" คือ Cauchy (t ด้วย 1 DF)


คำตอบที่ยอดเยี่ยมคืออะไร @probabilityislogic
Peter Flom

เพียงบันทึกที่ชัดเจน: การจำแนกประเภทที่เหมาะสมที่สุดต้องการความรู้เกี่ยวกับการแจกแจงหลายตัวแปรที่แท้จริง หากคุณสามารถประมาณการกระจายตัวเหล่านี้ได้ดีฟังก์ชั่นการจัดหมวดหมู่ที่ได้จะเป็นผลลัพธ์ที่ดีที่สุด ค่าผิดปกติ (ตามที่ระบุโดย kurtosis) เป็นปัญหาอย่างแท้จริงเพราะไม่มีข้อมูลในพื้นที่ที่จะประเมินความหนาแน่น ด้วยข้อมูลหลายตัวแปรคำสาปของมิติยังก่อให้เกิดปัญหานี้
Peter Westfall
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.