ฉันสามารถทดสอบความถูกต้องของข้อมูลที่กำหนดไว้ก่อนหน้าได้หรือไม่


10

ปัญหา

ฉันกำลังเขียนฟังก์ชั่น R ที่ดำเนินการวิเคราะห์แบบเบย์เพื่อประเมินความหนาแน่นหลังที่ได้รับข้อมูลก่อนหน้านี้และข้อมูล ฉันต้องการให้ฟังก์ชันส่งคำเตือนหากผู้ใช้จำเป็นต้องพิจารณาใหม่ก่อน

ในคำถามนี้ฉันสนใจที่จะเรียนรู้วิธีการประเมินก่อน คำถามก่อนหน้านี้ครอบคลุมกลศาสตร์ของการระบุนักบวชที่รู้แจ้ง ( ที่นี่และที่นี่ )

กรณีต่อไปนี้อาจต้องการให้ประเมินก่อนหน้า:

  • ข้อมูลแสดงให้เห็นถึงกรณีที่รุนแรงที่ไม่ได้คิดเมื่อระบุก่อน
  • ข้อผิดพลาดในข้อมูล (เช่นถ้าข้อมูลอยู่ในหน่วยของกรัมเมื่อก่อนอยู่ในหน่วยกิโลกรัม)
  • ผิดก่อนถูกเลือกจากชุดของนักบวชที่มีอยู่เพราะข้อผิดพลาดในรหัส

ในกรณีแรกนักบวชมักจะยังคงแพร่กระจายเพียงพอที่ข้อมูลมักจะครอบงำพวกเขาเว้นแต่ค่าข้อมูลจะอยู่ในช่วงที่ไม่ได้รับการสนับสนุน (เช่น <0 สำหรับ logN หรือ Gamma) อีกกรณีหนึ่งคือข้อบกพร่องหรือข้อผิดพลาด

คำถาม

  1. มีปัญหาใด ๆ เกี่ยวกับความถูกต้องของการใช้ข้อมูลเพื่อประเมินก่อนหรือไม่?
  2. การทดสอบใดที่เหมาะสมที่สุดสำหรับปัญหานี้หรือไม่?

ตัวอย่าง

ต่อไปนี้เป็นชุดข้อมูลสองชุดที่จับคู่กันไม่ดีกับก่อนหน้านี้เนื่องจากมาจากกลุ่มประชากรที่มี (สีแดง) หรือN (8,0.5) (สีน้ำเงิน)logN(0,1)N(0,5)N(8,0.5)

ข้อมูลสีน้ำเงินอาจเป็นการรวมกันของข้อมูลก่อนหน้า + ที่ถูกต้องในขณะที่ข้อมูลสีแดงจะต้องมีการแจกแจงก่อนหน้าซึ่งได้รับการสนับสนุนสำหรับค่าลบ

ป้อนคำอธิบายรูปภาพที่นี่

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

คำตอบ:


4

คุณจะต้องชัดเจนว่าคุณหมายถึง "ก่อน" ตัวอย่างเช่นหากคุณสนใจในความเชื่อเดิมของฉันเกี่ยวกับอายุขัยในสหราชอาณาจักรนั่นคงไม่ผิด มันเป็นความเชื่อของฉัน! มันอาจไม่สอดคล้องกับข้อมูลที่สังเกต แต่นั่นเป็นอีกเรื่องที่สมบูรณ์

บริบทยังมีความสำคัญ ตัวอย่างเช่นสมมติว่าเราสนใจประชากรของบางสิ่ง ก่อนหน้าของฉันยืนยันว่าปริมาณนี้จะต้องไม่เป็นลบอย่างเคร่งครัด อย่างไรก็ตามข้อมูลได้รับการตรวจสอบพร้อมข้อผิดพลาดและเรามีการวัดเชิงลบ ในกรณีนี้ก่อนหน้านี้ไม่ถูกต้องเป็นเพียงกระบวนการก่อนหน้าสำหรับกระบวนการแฝง

เพื่อตอบคำถามของคุณ

  1. มีปัญหาใด ๆ เกี่ยวกับความถูกต้องของการใช้ข้อมูลเพื่อประเมินก่อนหรือไม่?

คนพิถีพิถันจะยืนยันว่าคุณไม่ควรใช้ข้อมูลสองครั้ง อย่างไรก็ตามบุคคลในทางปฏิบัติจะตอบโต้ว่าคุณไม่ได้คิดมากพอในตอนแรก

2 การทดสอบแบบใดที่เหมาะสมที่สุดสำหรับปัญหานี้หรือไม่?

มันขึ้นอยู่กับโมเดลที่พิจารณา ฉันคิดว่าพื้นฐานที่สุดคุณสามารถเปรียบเทียบช่วงก่อนหน้ากับช่วงข้อมูล


ขอบคุณสำหรับคำตอบของคุณโดยเฉพาะ # 1 จะเป็นประโยชน์ สำหรับการทดสอบฉันคิดอย่างนั้น แต่ช่วงของนักบวชส่วนใหญ่จะมีขอบเขตที่ดังนั้นฉันจึงคิดว่าอาจจะเปรียบเทียบขอบเขตของช่วงเวลาแบบควอไทล์เช่นส่งคำเตือนถ้า: ลำดับที่ 80 ของข้อมูล> ลำดับที่ 99 จากก่อนหน้านี้หรือถ้า: ข้อมูลใด ๆ ที่มากกว่าควอนไทล์ 100-10e-log (n) th) แม้ว่าฉันจะต้องเล่นกับตัวเลขเพื่อให้ฉันได้รับข้อผิดพลาดที่ถูกต้อง
David LeBauer

3

ที่นี่สองเซ็นต์ของฉัน:

  1. ฉันคิดว่าคุณควรจะกังวลก่อนพารามิเตอร์ที่เกี่ยวข้องกับอัตราส่วน

  2. คุณพูดคุยเกี่ยวกับข้อมูลก่อน แต่ฉันคิดว่าคุณควรเตือนผู้ใช้เกี่ยวกับสิ่งที่ไม่เหมาะสมซึ่งไม่ได้ให้ข้อมูลมาก่อน ฉันหมายถึงบางครั้งเป็นเรื่องปกติที่มีค่าเฉลี่ยเป็นศูนย์และความแปรปรวน 100 ครั้งนั้นค่อนข้างไม่เป็นธรรมและบางครั้งก็เป็นข้อมูลขึ้นอยู่กับระดับที่ใช้ ตัวอย่างเช่นหากคุณกำลังถอยค่าแรงในระดับความสูง (เซนติเมตร) สูงกว่าที่ระบุไว้ข้างต้นนั้นเป็นข้อมูลที่ค่อนข้างชัดเจน อย่างไรก็ตามหากคุณลงทะเบียนค่าแรงกับความสูง (เมตร) การแจ้งข้างต้นนั้นไม่ใช่ข้อมูลนั้น

  3. หากคุณใช้ก่อนหน้าซึ่งเป็นผลมาจากการวิเคราะห์ก่อนหน้านี้คือก่อนหน้าใหม่จริง ๆ แล้วเป็นหลังเก่าของการวิเคราะห์ก่อนหน้านี้แล้วสิ่งต่าง ๆ จะแตกต่างกัน ฉันสมมติว่านี่เป็นกรณีบันทึก


คุณช่วยอธิบายประเด็นที่ 1 ได้ไหม Re: จุดที่ 2 ตามที่กล่าวไว้ใน OP ฉันไม่สนใจคำถามนี้เกี่ยวกับวิธีตั้งค่าก่อนหน้า จุดที่ 3: นักบวชที่ได้รับข้อมูลจำนวนมากมาจากการวิเคราะห์ข้อมูลที่มีอยู่ (การกระจายที่เหมาะสมไปยังข้อมูล) ในขณะที่คนอื่น ๆ อยู่บนพื้นฐานของความรู้จากผู้เชี่ยวชาญ
David LeBauer

สมมติว่าคุณกำลังปรับโมเดลให้เหมาะสม: y ~ a + b * x / z หากไม่มีข้อ จำกัด เกี่ยวกับค่าของ Z (หากพวกเขาสามารถเป็นบวกหรือลบ) กว่ามันยากที่จะรู้ว่าสิ่งที่คาดหวังเกี่ยวกับสัญญาณจาก b ยิ่งกว่านั้นถ้า Z สามารถอยู่ใกล้ศูนย์ได้มากกว่า b อาจต่ำหรือใหญ่เกินไป สิ่งนี้สามารถทำให้คุณไม่มีเหตุผลมาก่อน ดูรายการนี้ในบล็อกของ Gelman: stat.columbia.edu/~cook/movabletype/archives/2011/06/…
Manoel Galdino

# 3: ดังที่ควรระวังเกี่ยวกับการใช้ข้อมูลสองครั้ง บน thin เป็นโมเดลลำดับชั้นและอีกอันหนึ่งคือการเลือกรุ่นก่อนซึ่งสอดคล้องกับความเป็นไปได้ ในภายหลังฉันจะเกี่ยวข้องกับการวิเคราะห์ดังกล่าว ฉันเห็นตัวเลือกก่อนหน้ามากกว่าเป็นเครื่องมือทำให้เป็นมาตรฐาน
Manoel Galdino
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.