ฉันจะเสนอ "ตัวอย่างข้อมูลจะถูกตรวจสอบหากมีการสังเกตการณ์เกิดขึ้นหรือประกอบไปด้วยค่าที่มากที่สุดของตัวอย่าง แต่คุณค่าที่แท้จริงของพวกมันอยู่นอกช่วงตัวอย่างที่สังเกต" แต่นี่เป็นสิ่งที่หลอกลวงอย่างตรงไปตรงมา
ดังนั้นก่อนอื่นเรามาคุยกันว่าเราจะสรุปได้อย่างไรว่าชุดข้อมูลนั้นถูกเซ็นเซอร์ซึ่งจะนำเราไปสู่การอภิปรายกรณีที่นำเสนอในคำถาม
สมมติว่าเราจะได้รับชุดข้อมูลต่อไปนี้จากที่ไม่ต่อเนื่องตัวแปรสุ่มซึ่งสิ่งเดียวที่เรารู้ก็คือว่ามันไม่ใช่เชิงลบ:X
{0,1,1,2,2,2,2,2,2,2}
เราสามารถพูดได้หรือไม่ว่าชุดข้อมูลนั้นถูกเซ็นเซอร์? เรามีสิทธิ์ที่จะคิดว่ามันอาจจะเป็น แต่ก็ไม่จำเป็นว่า:
1) อาจจะมีช่วง{ 0 , 1 , 2 }และกระจาย{ 0.1 , 0.1 , 0.8 } หากเป็นกรณีนี้ปรากฏว่าไม่มีการเซ็นเซอร์ที่นี่เพียงตัวอย่าง "ที่คาดการณ์ไว้" จากตัวแปรสุ่มที่มีการสนับสนุนที่มีขอบเขตและการกระจายที่ไม่สมดุล X{0,1,2}{0.1,0.1,0.8}
2) แต่มันอาจจะเป็นกรณีที่มีช่วง{ 0 , 1 , . . , 9 }กับการกระจายความน่าจะเป็นเครื่องแบบ{ 0.1 , 0.1 , . .0 .1 }ซึ่งในกรณีนี้ตัวอย่างข้อมูลของเราจะถูกเซ็นเซอร์มากที่สุด X{0,1,...,9}{0.1,0.1,...0.1}
เราจะบอกได้อย่างไร เราไม่สามารถยกเว้นว่าเรามีความรู้หรือข้อมูลก่อนหน้านี้ซึ่งจะช่วยให้เราสามารถโต้แย้งในกรณีหนึ่งหรืออีกกรณีหนึ่ง คำถามสามข้อที่นำเสนอในคำถามแสดงถึงความรู้ก่อนหน้านี้ถึงผลของการเซ็นเซอร์หรือไม่? มาดูกัน:
กรณี A)อธิบายสถานการณ์ที่การสังเกตการณ์บางอย่างเรามีเพียงข้อมูลเชิงคุณภาพเช่น "ใหญ่มาก", "เล็กมาก" ฯลฯ ซึ่งทำให้เราสามารถกำหนดค่าการสังเกตให้มากที่สุด โปรดทราบว่าเพียงแค่ไม่ได้รู้ว่ามูลค่าที่เกิดขึ้นจริงนั้นไม่ได้เป็นเพียงการกำหนดค่าที่สูงที่สุด ดังนั้นเราต้องมีข้อมูลบางอย่างเกี่ยวกับผลกระทบที่เกิดขึ้นจากการสังเกตเหล่านี้ค่าของมันนั้นสูงกว่าหรือต่ำกว่าค่าที่สังเกตได้ทั้งหมด ในกรณีนี้ช่วงที่แท้จริงของตัวแปรสุ่มไม่เป็นที่รู้จัก แต่ข้อมูลเชิงคุณภาพของเราอนุญาตให้เราสร้างตัวอย่างที่ถูกเซ็นเซอร์ (เป็นการอภิปรายอีกครั้งว่าทำไมเราไม่เพียงแค่วางข้อสังเกตที่เราไม่ได้มีมูลค่าที่เกิดขึ้นจริง )
กรณี B)คือไม่ได้กรณีที่มีการตัดทอนถ้าผมเข้าใจอย่างถูกต้อง แต่เป็นกรณีตัวอย่างที่ปนเปื้อน: เบื้องต้นข้อมูลของเราบอกเราว่าค่าสูงสุดของตัวแปรสุ่มไม่เกิน (พูดเนื่องจากกฎหมายทางกายภาพหรือ กฎหมายสังคม - ใช้นี่คือข้อมูลคะแนนจากระบบการให้เกรดที่ใช้เฉพาะค่า1 , 2 , 3 ) แต่เราได้สังเกตเห็นยังมูลค่า4และความคุ้มค่า5 สิ่งนี้จะเป็นอย่างไร ความผิดพลาดในการบันทึกข้อมูล แต่ในกรณีเช่นนี้เราไม่ทราบแน่ชัดว่า4และ5ควรเป็น3ทั้งหมด31,2,345453(ที่จริงแล้วเมื่อดูที่แป้นพิมพ์ด้านข้างของคอมพิวเตอร์มีแนวโน้มว่าของนั้นคือ1และ5ของคือ2 !) โดย "การแก้ไข" ไม่ว่าจะด้วยวิธีใดก็ตามเราจะไม่ทำให้เป็นเซ็นเซอร์เนื่องจากตัวแปรสุ่มไม่ควรอยู่ในช่วงที่บันทึกไว้ตั้งแต่แรก (ดังนั้นจึงไม่มีความน่าจะเป็นจริงที่กำหนดให้กับค่า4และ5 ) 415245
กรณี C)หมายถึงตัวอย่างร่วมซึ่งเรามีตัวแปรตามและตัวทำนาย ที่นี่เราอาจมีตัวอย่างที่ค่าของตัวแปรตามมีความเข้มข้นที่หนึ่งหรือทั้งสองขั้วเนื่องจากโครงสร้างของปรากฏการณ์ภายใต้การศึกษา: ในตัวอย่างปกติ "ชั่วโมงทำงาน" คนว่างงานไม่ทำงาน แต่พวกเขาจะมี ทำงานแล้ว (คิดอย่างรอบคอบ: กรณีนี้จริง ๆ แล้วอยู่ภายใต้ "คำจำกัดความ" เชิงพรรณนาในตอนต้นของคำตอบนี้หรือไม่) ดังนั้นรวมไว้ในการถดถอยด้วยชั่วโมงที่บันทึก "ศูนย์" สร้างอคติ สำหรับจำนวนที่มากสุด ๆ จำนวนชั่วโมงทำงานที่มากที่สุดอาจเป็นที่ถกเถียงกันเพื่อให้สามารถเข้าถึงได้พูด16/ วันและอาจมีพนักงานที่เต็มใจทำงานหลายอย่างเพื่อรับเงิน แต่กรอบกฎหมายไม่อนุญาตดังนั้นเราจึงไม่ปฏิบัติตาม "ชั่วโมงทำงาน" ดังกล่าว ที่นี่เราพยายามที่จะประเมิน " ฟังก์ชั่นการจัดหาแรงงานที่ตั้งใจ " - และมันเกี่ยวกับตัวแปรนี้ที่ตัวอย่างมีลักษณะเป็นเซ็นเซอร์
แต่ถ้าเราประกาศว่าสิ่งที่เราต้องการจะทำคือการประเมิน "ฟังก์ชั่นการจัดหาแรงงานเนื่องจากปรากฏการณ์การว่างงานและกรอบกฎหมาย" ตัวอย่างจะไม่ถูกตรวจสอบเนื่องจากมันจะสะท้อนถึงผลกระทบของทั้งสองด้านสิ่งที่เราต้องการ มันจะทำ
ดังนั้นเราจะเห็นว่าลักษณะของตัวอย่างข้อมูลที่เป็นเซ็นเซอร์
) ที่ได้มาจากสถานการณ์ที่แตกต่างกันและ
ข) ต้องดูแลบาง
-let เพียงอย่างเดียวจริงที่ว่ามันสามารถจะสับสนกับกรณีของการตัด