ข้อมูลที่ถูกตรวจสอบอย่างถูกต้องคืออะไร?


14

ฉันได้อ่านคำอธิบายที่แตกต่างของข้อมูลเซ็นเซอร์:

A) ตามที่อธิบายไว้ในหัวข้อนี้ข้อมูลที่ไม่มีเงื่อนไขด้านล่างหรือสูงกว่าเกณฑ์ที่กำหนดจะถูกเซ็นเซอร์ ข้อมูลที่ไม่มีเงื่อนไขหมายถึงข้อมูลสูงกว่าหรือต่ำกว่าเกณฑ์ที่กำหนด แต่เราไม่ทราบค่าที่แน่นอน ข้อมูลจะถูกทำเครื่องหมายที่ค่าต่ำสุดหรือสูงกว่าเกณฑ์ในตัวแบบการถดถอย มันตรงกับคำอธิบายในงานนำเสนอนี้ซึ่งฉันพบว่าชัดเจนมาก (สไลด์ที่ 2 ในหน้าแรก) กล่าวอีกนัยหนึ่งว่าYถูก จำกัด ด้วยค่าต่ำสุดค่าสูงสุดหรือทั้งคู่เพราะเราไม่ทราบค่าจริงนอกช่วงนั้น

B) เพื่อนบอกผมว่าเราสามารถใช้รูปแบบข้อมูลเซ็นเซอร์บางส่วนที่ไม่รู้จัก Yสังเกตให้เรามีอย่างน้อยข้อมูลบางอย่างเกี่ยวกับการ จำกัด ไม่รู้จักYiผลลัพธ์ ตัวอย่างเช่นเราต้องการประเมินราคาสุดท้ายสำหรับการประมูลแบบเงียบและแบบเปิดโดยพิจารณาจากเกณฑ์เชิงคุณภาพ (ประเภทของสินค้า, ประเทศ, ความมั่งคั่งของผู้เสนอราคาเป็นต้น) ในขณะที่การประมูลแบบเปิดเราทราบราคาสุดท้ายทั้งหมดYiสำหรับการประมูลแบบเงียบเรารู้เพียงแค่การประมูลครั้งแรก (พูด $ 1,000) แต่ไม่ใช่ราคาสุดท้าย ฉันบอกว่าในกรณีนี้ข้อมูลถูกเซ็นเซอร์จากด้านบนและควรใช้โมเดลการถดถอยแบบเซ็นเซอร์

C) ในที่สุดก็มีความหมายที่กำหนดโดยWikipediaที่Yหายไปโดยสิ้นเชิง แต่มีตัวทำนาย ฉันไม่แน่ใจว่าตัวอย่างนี้แตกต่างจากข้อมูลที่ถูกตัดทอนอย่างไร

ดังนั้นข้อมูลที่ถูกเซ็นเซอร์คืออะไร?


6
บทความวิกิพีเดียที่เกี่ยวข้องมากขึ้นที่en.wikipedia.org/wiki/Censoring_%28statistics%29 แม้ว่าจะไม่ครอบคลุม แต่อย่างน้อยก็อธิบายการเซ็นเซอร์ประเภท I และ Type II และรับทราบการเซ็นเซอร์ช่วงเวลาพร้อมกับการเซ็นเซอร์ด้านซ้ายและขวา
whuber

คำตอบ:


8

พิจารณาข้อมูลต่อไปนี้เกี่ยวกับผลลัพธ์และ covariate x :yx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

สำหรับผู้ใช้ 1 เรามีข้อมูลที่สมบูรณ์ สำหรับคนอื่น ๆ เรามีข้อมูลที่ไม่สมบูรณ์ ผู้ใช้ 2, 3 และ 4 ถูกเซ็นเซอร์ทั้งหมด: ผลลัพธ์ที่สอดคล้องกับค่าที่ทราบของ covariate จะไม่ถูกตรวจพบหรือไม่ได้รับการสังเกตอย่างแน่นอน (ซ้าย - ขวา - และตรวจสอบช่วงเวลา) บางครั้งสิ่งนี้เป็นสิ่งที่ต้องคำนึงถึงเรื่องความเป็นส่วนตัวในการออกแบบแบบสำรวจ ในเวลาอื่นมันเกิดขึ้นด้วยเหตุผลอื่น ตัวอย่างเช่นเราไม่ได้สังเกตค่าแรงต่ำกว่าค่าแรงขั้นต่ำหรือความต้องการตั๋วคอนเสิร์ตที่สูงกว่าความจุที่เกิดขึ้นจริง

ผู้ใช้ 5 ถูกตัดทอน: ผลลัพธ์และ covariate หายไป สิ่งนี้มักจะเกิดขึ้นเพราะเรารวบรวมข้อมูลเฉพาะคนที่ทำอะไรบางอย่าง ตัวอย่างเช่นเราสำรวจเฉพาะคนที่ซื้อของบางอย่าง ( ) ดังนั้นเราจึงยกเว้นผู้ที่มีy = 0พร้อมกับx s ของพวกเขา เราอาจไม่มีแถวสำหรับข้อมูลผู้ใช้ประเภทนี้ถึงแม้ว่าเรารู้ว่ามีอยู่เพราะเรารู้กฎที่ใช้ในการสร้างตัวอย่างของเรา อีกตัวอย่างหนึ่งคือการตัดโดยไม่ตั้งใจ : เราจะสังเกตเฉพาะข้อเสนอค่าจ้างสำหรับผู้ที่อยู่ในกำลังงานเนื่องจากเราคิดว่าข้อเสนอค่าจ้างเป็นค่าจ้างเมื่อคุณทำงาน การตัดปลายนั้นไม่สำคัญเนื่องจากไม่ได้ขึ้นอยู่กับyy>0y=0xyแต่ในตัวแปรอื่น

กล่าวโดยย่อการตัดจะแสดงถึงการสูญเสียข้อมูลที่มากกว่าการเซ็นเซอร์ (คะแนน A & B) "ความหาย" ทั้งสองประเภทนี้เป็นระบบ

การทำงานกับข้อมูลประเภทนี้มักเกี่ยวข้องกับการตั้งสมมติฐานการกระจายที่ดีเกี่ยวกับข้อผิดพลาดและการแก้ไขโอกาสในการพิจารณาสิ่งนี้ วิธีกึ่งพาราเมตริกที่ยืดหยุ่นมากขึ้นก็เป็นไปได้เช่นกัน นี่คือนัยในจุด B ของคุณ


2
สองคำตอบนี้ทำให้ฉันสับสน ก่อนอื่นค่าที่หายไปล้วนไม่จำเป็นต้องสะท้อนถึงการตัดออก ประการที่สองลักษณะของการเซ็นเซอร์ ("สุ่ม" กับ "ข้อมูล") มักมีความสำคัญเท่ากับความจริงของการเซ็นเซอร์แสดงว่ามีการเซ็นเซอร์มากกว่าการบันทึกข้อมูลที่มีค่าช่วงเวลาเท่านั้น
whuber

นี่เป็นตัวอย่างที่ดีมาก หมายความว่า "การ จำกัด การเซ็นเซอร์" ที่แตกต่างกันสามารถใช้กับแต่ละหรือไม่ เราจะกำหนดรูปแบบในกรณีนี้ได้อย่างไร นี้จะตรวจสอบคำสั่งเพื่อนของฉันใน B) y
Robert Kubrick

1
หากคุณยินดีที่จะรับข้อผิดพลาดแบบ homoskedastic แบบกระจายความน่าจะเป็นสามารถเขียนได้เช่นนี้และคุณสามารถใช้ MLE กับเกณฑ์การตรวจสอบเฉพาะการสังเกตการณ์
Dimitriy V. Masterov

3
@ Peter ไม่ได้เซ็นเซอร์ (ขวา)? การตัดจะเกิดขึ้นเมื่อคนเหล่านั้นถูกแยกออกจากและไม่ถูกนับในตัวอย่างเลย ดูen.wikipedia.org/wiki/Truncation_(statistics)
whuber

1
@Peter คุณสร้างความสับสนอะไร "แล้วเราจะรู้ว่าค่าดัชนีมวลกายของบุคคลนั้นมีมากกว่า 30": คุณจะอ้างถึงคนที่ไม่ได้อยู่ในตัวอย่างของคุณได้อย่างไร ("ไม่นับ") การสังเกตแบบฟอร์ม "BMI> 30" เป็นการเซ็นเซอร์ในขณะที่การยกเว้นที่สมบูรณ์ของการสังเกตดังกล่าวทั้งหมดจากการวิเคราะห์ของคุณแม้ว่าพวกเขาอาจมีอยู่ในประชากรก็จะถูกตัดทอน ในกรณีหลังทั้งหมดที่คุณสามารถพูดได้คือ "คนที่มีค่าดัชนีมวลกายสูงกว่า 30 ได้รับการยกเว้นจากกลุ่มตัวอย่าง"
whuber

9

ฉันจะเสนอ "ตัวอย่างข้อมูลจะถูกตรวจสอบหากมีการสังเกตการณ์เกิดขึ้นหรือประกอบไปด้วยค่าที่มากที่สุดของตัวอย่าง แต่คุณค่าที่แท้จริงของพวกมันอยู่นอกช่วงตัวอย่างที่สังเกต" แต่นี่เป็นสิ่งที่หลอกลวงอย่างตรงไปตรงมา

ดังนั้นก่อนอื่นเรามาคุยกันว่าเราจะสรุปได้อย่างไรว่าชุดข้อมูลนั้นถูกเซ็นเซอร์ซึ่งจะนำเราไปสู่การอภิปรายกรณีที่นำเสนอในคำถาม

สมมติว่าเราจะได้รับชุดข้อมูลต่อไปนี้จากที่ไม่ต่อเนื่องตัวแปรสุ่มซึ่งสิ่งเดียวที่เรารู้ก็คือว่ามันไม่ใช่เชิงลบ:X

{0,1,1,2,2,2,2,2,2,2}

เราสามารถพูดได้หรือไม่ว่าชุดข้อมูลนั้นถูกเซ็นเซอร์? เรามีสิทธิ์ที่จะคิดว่ามันอาจจะเป็น แต่ก็ไม่จำเป็นว่า:

1) อาจจะมีช่วง{ 0 , 1 , 2 }และกระจาย{ 0.1 , 0.1 , 0.8 } หากเป็นกรณีนี้ปรากฏว่าไม่มีการเซ็นเซอร์ที่นี่เพียงตัวอย่าง "ที่คาดการณ์ไว้" จากตัวแปรสุ่มที่มีการสนับสนุนที่มีขอบเขตและการกระจายที่ไม่สมดุล X{0,1,2}{0.1,0.1,0.8}

2) แต่มันอาจจะเป็นกรณีที่มีช่วง{ 0 , 1 , . . , 9 }กับการกระจายความน่าจะเป็นเครื่องแบบ{ 0.1 , 0.1 , . .0 .1 }ซึ่งในกรณีนี้ตัวอย่างข้อมูลของเราจะถูกเซ็นเซอร์มากที่สุด X{0,1,...,9}{0.1,0.1,...0.1}

เราจะบอกได้อย่างไร เราไม่สามารถยกเว้นว่าเรามีความรู้หรือข้อมูลก่อนหน้านี้ซึ่งจะช่วยให้เราสามารถโต้แย้งในกรณีหนึ่งหรืออีกกรณีหนึ่ง คำถามสามข้อที่นำเสนอในคำถามแสดงถึงความรู้ก่อนหน้านี้ถึงผลของการเซ็นเซอร์หรือไม่? มาดูกัน:

กรณี A)อธิบายสถานการณ์ที่การสังเกตการณ์บางอย่างเรามีเพียงข้อมูลเชิงคุณภาพเช่น "ใหญ่มาก", "เล็กมาก" ฯลฯ ซึ่งทำให้เราสามารถกำหนดค่าการสังเกตให้มากที่สุด โปรดทราบว่าเพียงแค่ไม่ได้รู้ว่ามูลค่าที่เกิดขึ้นจริงนั้นไม่ได้เป็นเพียงการกำหนดค่าที่สูงที่สุด ดังนั้นเราต้องมีข้อมูลบางอย่างเกี่ยวกับผลกระทบที่เกิดขึ้นจากการสังเกตเหล่านี้ค่าของมันนั้นสูงกว่าหรือต่ำกว่าค่าที่สังเกตได้ทั้งหมด ในกรณีนี้ช่วงที่แท้จริงของตัวแปรสุ่มไม่เป็นที่รู้จัก แต่ข้อมูลเชิงคุณภาพของเราอนุญาตให้เราสร้างตัวอย่างที่ถูกเซ็นเซอร์ (เป็นการอภิปรายอีกครั้งว่าทำไมเราไม่เพียงแค่วางข้อสังเกตที่เราไม่ได้มีมูลค่าที่เกิดขึ้นจริง )

กรณี B)คือไม่ได้กรณีที่มีการตัดทอนถ้าผมเข้าใจอย่างถูกต้อง แต่เป็นกรณีตัวอย่างที่ปนเปื้อน: เบื้องต้นข้อมูลของเราบอกเราว่าค่าสูงสุดของตัวแปรสุ่มไม่เกิน (พูดเนื่องจากกฎหมายทางกายภาพหรือ กฎหมายสังคม - ใช้นี่คือข้อมูลคะแนนจากระบบการให้เกรดที่ใช้เฉพาะค่า1 , 2 , 3 ) แต่เราได้สังเกตเห็นยังมูลค่า4และความคุ้มค่า5 สิ่งนี้จะเป็นอย่างไร ความผิดพลาดในการบันทึกข้อมูล แต่ในกรณีเช่นนี้เราไม่ทราบแน่ชัดว่า4และ5ควรเป็น3ทั้งหมด31,2,345453(ที่จริงแล้วเมื่อดูที่แป้นพิมพ์ด้านข้างของคอมพิวเตอร์มีแนวโน้มว่าของนั้นคือ1และ5ของคือ2 !) โดย "การแก้ไข" ไม่ว่าจะด้วยวิธีใดก็ตามเราจะไม่ทำให้เป็นเซ็นเซอร์เนื่องจากตัวแปรสุ่มไม่ควรอยู่ในช่วงที่บันทึกไว้ตั้งแต่แรก (ดังนั้นจึงไม่มีความน่าจะเป็นจริงที่กำหนดให้กับค่า4และ5 ) 415245

กรณี C)หมายถึงตัวอย่างร่วมซึ่งเรามีตัวแปรตามและตัวทำนาย ที่นี่เราอาจมีตัวอย่างที่ค่าของตัวแปรตามมีความเข้มข้นที่หนึ่งหรือทั้งสองขั้วเนื่องจากโครงสร้างของปรากฏการณ์ภายใต้การศึกษา: ในตัวอย่างปกติ "ชั่วโมงทำงาน" คนว่างงานไม่ทำงาน แต่พวกเขาจะมี ทำงานแล้ว (คิดอย่างรอบคอบ: กรณีนี้จริง ๆ แล้วอยู่ภายใต้ "คำจำกัดความ" เชิงพรรณนาในตอนต้นของคำตอบนี้หรือไม่) ดังนั้นรวมไว้ในการถดถอยด้วยชั่วโมงที่บันทึก "ศูนย์" สร้างอคติ สำหรับจำนวนที่มากสุด ๆ จำนวนชั่วโมงทำงานที่มากที่สุดอาจเป็นที่ถกเถียงกันเพื่อให้สามารถเข้าถึงได้พูด16/ วันและอาจมีพนักงานที่เต็มใจทำงานหลายอย่างเพื่อรับเงิน แต่กรอบกฎหมายไม่อนุญาตดังนั้นเราจึงไม่ปฏิบัติตาม "ชั่วโมงทำงาน" ดังกล่าว ที่นี่เราพยายามที่จะประเมิน " ฟังก์ชั่นการจัดหาแรงงานที่ตั้งใจ " - และมันเกี่ยวกับตัวแปรนี้ที่ตัวอย่างมีลักษณะเป็นเซ็นเซอร์
แต่ถ้าเราประกาศว่าสิ่งที่เราต้องการจะทำคือการประเมิน "ฟังก์ชั่นการจัดหาแรงงานเนื่องจากปรากฏการณ์การว่างงานและกรอบกฎหมาย" ตัวอย่างจะไม่ถูกตรวจสอบเนื่องจากมันจะสะท้อนถึงผลกระทบของทั้งสองด้านสิ่งที่เราต้องการ มันจะทำ

ดังนั้นเราจะเห็นว่าลักษณะของตัวอย่างข้อมูลที่เป็นเซ็นเซอร์
) ที่ได้มาจากสถานการณ์ที่แตกต่างกันและ
ข) ต้องดูแลบาง
-let เพียงอย่างเดียวจริงที่ว่ามันสามารถจะสับสนกับกรณีของการตัด


6
นี่ดูเหมือนจะเป็นมุมมองทางเศรษฐมิติ โปรดทราบว่ามันเป็นเรื่องธรรมดาในการวิจัยทางชีวการแพทย์ที่จะมีระยะเวลา (อาจอยู่รอดอย่างแท้จริง) เป็นการตอบสนองและให้ผู้ป่วยตรวจสอบโดยที่ไม่เคยมีประสบการณ์เหตุการณ์เมื่อสิ้นสุดระยะเวลาการสังเกต แต่ยังมีผู้ป่วยที่หลุดออกไปหรือหายไปเพื่อติดตามในช่วงระยะเวลาการสังเกต (บางทีพวกเขาย้ายออกไปและการติดต่อหายไป) เราสามารถรู้ว่าเวลาการอยู่รอดคือ> การติดต่อครั้งสุดท้าย แต่อาจสั้นกว่าเมื่อสิ้นสุดระยะเวลาการสังเกต
gung - Reinstate Monica

กรณี B ไม่ใช่ข้อมูลผิดหรือปนเปื้อน สมมติว่าเราต้องการประเมินราคาสุดท้ายของการประมูลแบบเงียบและแบบเปิดโดยพิจารณาจากเกณฑ์เชิงคุณภาพ (ประเภทของสินค้า, ประเทศ, ความมั่งคั่งของผู้เสนอราคา, ... ) สำหรับการประมูลแบบเงียบเรารู้เพียงการเสนอราคาครั้งแรก (พูด $ 1,000) แต่ไม่ใช่ราคาสุดท้าย ฉันถูกบอกว่าเราสามารถใช้ข้อมูลการประมูลอย่างเงียบ ๆ โดยใช้การสร้างแบบจำลองการเซ็นเซอร์บางรูปแบบ
Robert Kubrick

1
@ gung นี่เป็นวิธีการทางเศรษฐศาสตร์อย่างแน่นอนเพราะใครเป็นคนเขียนคำตอบ!
Alecos Papadopoulos

1
@RobertKunrick สิ่งที่คุณอธิบายไม่ตรงกับกรณี B วิธีที่อธิบายถึงกรณี B เราสังเกตช่วงของค่าต่าง ๆ และจากนั้นเราจะได้รับการบอกว่าค่าที่สังเกตได้บางอย่างนั้นเป็นไปไม่ได้ ตรงกับตัวอย่างการประมูลอย่างไร
Alecos Papadopoulos

โปรดอย่าคิดว่าเป็นคำวิจารณ์ @AlecosPapadopoulos ฉันไม่คิดว่ามีอะไรผิดปกติ ฉันแค่ต้องการชี้ให้เห็นว่ามีการใช้คำที่แตกต่างกันในด้านต่าง ๆ และนี่ไม่ใช่การประชุมคือสถิติ / ชีวประวัติ
gung - Reinstate Monica

2

สำหรับผมการตัดทอนหมายความว่าเราจะสังเกตเห็นบางส่วนของข้อมูลเกี่ยวกับการสังเกตฉัน สิ่งที่ผมหมายถึงนี้ก็คือว่าแทนที่จะสังเกตZ ฉัน = Z ฉันเราสังเกตZ ฉันฉันที่ฉันเป็นสำนึกของฉันซึ่งเป็นอนุภาคบางสุ่มของพื้นที่ตัวอย่าง เราอาจจะคิดว่าครั้งแรกที่เราเลือกพาร์ติชันฉันของพื้นที่ตัวอย่างZแล้วZ ฉันถูกสร้างขึ้นและเรารายงานฉันฉันดังกล่าวว่าZiZi=ziZiaiaiAiAiZZiAiAiZiAiI(ZiA)AAiZiAiZi

[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×Y where Y is the sample space of Y and say Zi is missing if ai=Z. When one says "Zi is censored", if they are following my definition, what they usually mean is "Zi is censored, but is not missing".


1

It's important to distinguish censored versus truncated as well as missing data.

Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.

Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.

Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.


1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Reinstate Monica

1
... Your cell count data are indeed censored according to many people's understanding of the term, which is not restricted to time-to-event measurements, because you know everything about each subject except how far below 300 his cell count is; "truncation" here (alternatively "Winsorization") describes the method of analysis, viz the treatment of values below 300 as if they were equal to 300.
Scortchi - Reinstate Monica

A clear reference on the survival analysis concept of censoring: itl.nist.gov/div898/handbook/apr/section1/apr131.htm.
Eric O Lebigot

-1
  1. Censored: This is a term used to indicate that the period of observation was cut off before the event of interest occurred. So ''censored data'' indicate that the period of a particular event as not or never occurred

3
Welcome to the site. If this is copied from some source, please cite the source.
gung - Reinstate Monica

3
Censoring applies to much more than time-dependent observations. For instance, chemical concentrations measurements that are below the limit of detection are censored, too.
whuber

@whuber: May I offer a friendly amendment to that observation. The chemical concentrations that fall below the limit of detection are indeed censored, but since they cannot possibly be negative, analyses should consider them as truncated at zero. My own understanding of the truncation-censoring distinction is that truncation applies to the range of parameters that are possible for the underlying distribution.
DWin

@DWin Thank you for that thoughtful clarification. I can only agree with the first point. In the great majority of datasets I have analyzed, though, it was necessary to re-express concentrations as logarithms--and there the distinction disappears. In other datasets where background has been subtracted (such as radiological measurements), there is no definite left endpoint, either. Your second point strikes me as unusual: I have never seen "truncation" used to refer to creating a subset of a distribution family.
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.