“ การสังเกตอย่างอิสระ” หมายความว่าอะไร


28

ฉันพยายามที่จะเข้าใจว่าสมมติฐานของการสังเกตอิสระหมายถึง คำจำกัดความบางประการคือ:

  1. "สองเหตุการณ์ไม่ขึ้นต่อกันหาก " ( พจนานุกรมศัพท์ทางสถิติ )P(ab)=P(a)P(b)
  2. "การเกิดเหตุการณ์หนึ่งจะไม่เปลี่ยนความน่าจะเป็นสำหรับเหตุการณ์อื่น" ( Wikipedia )
  3. "การสุ่มตัวอย่างจากการสังเกตหนึ่งครั้งไม่ส่งผลต่อการเลือกการสังเกตครั้งที่สอง" ( David M. Lane )

ตัวอย่างของการสังเกตที่ขึ้นอยู่กับที่มักได้รับคือนักเรียนซ้อนกันภายในครูดังต่อไปนี้ สมมติว่าครูมีอิทธิพลต่อนักเรียน แต่นักเรียนไม่ได้มีอิทธิพลซึ่งกันและกัน

ดังนั้นคำจำกัดความเหล่านี้ละเมิดข้อมูลเหล่านี้อย่างไร การสุ่มตัวอย่าง [เกรด = 7] สำหรับ [นักเรียน = 1] ไม่ส่งผลกระทบต่อการแจกแจงความน่าจะเป็นสำหรับเกรดที่จะถูกสุ่มตัวอย่างต่อไป (หรือเป็นอย่างนั้นและถ้าเป็นเช่นนั้นการสังเกต 1 จะทำนายอะไรเกี่ยวกับการสังเกตครั้งต่อไป)

ทำไมการสังเกตจึงเป็นอิสระถ้าฉันวัดได้ gender แทนที่จะเป็น teacher_id? พวกเขาไม่ส่งผลกระทบต่อการสังเกตในลักษณะเดียวกันหรือไม่

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

4
หนึ่งอาจแนะนำว่าการกระจายของคะแนนสำหรับครู 1 มีค่า "หมายถึง" ต่ำกว่าสำหรับครู 2 และดังนั้นนักเรียนของครู 1 ทุกคนมักจะมีคะแนนต่ำกว่าโดยเฉลี่ยกว่านักเรียนของครู 2 กล่าวอีกนัยหนึ่ง การกระจายตัวของนักเรียน / ผลการเรียนสำหรับครูสองคนนั้นอาจเป็นการแจกแจงที่แตกต่างกัน นั่นจะเพียงพอที่จะทำให้การสังเกตขึ้นอยู่กับ
Reinstate Monica - G. Simpson

1
@GavinSimpson: ฉันกำลังคิดเกี่ยวกับเหตุผลที่แน่นอนนี้ แต่สิ่งที่ถ้าฉันแทนที่teacherโดยgender? เพศสภาพมีอยู่ในข้อมูลสังคมศาสตร์ส่วนใหญ่และสัมพันธ์กับเกือบทุกอย่างในระดับหนึ่ง
RubenGeert

1
ต้องขึ้นอยู่กับการตอบสนองอย่างแน่นอน หากเราดูเกรดของนักเรียนในสาขาวิทยาศาสตร์ในสหราชอาณาจักรอาจจะมีผลกระทบกับการแจกแจงความสำเร็จที่แตกต่างกันสำหรับสองเพศโดยเฉลี่ยมากกว่าประชากรที่คุณกำลังศึกษาอยู่ อย่างไรก็ตามทั้งหมดนี้เป็นเพียงเรื่อง (ในแบบจำลองทางสถิติ) สำหรับส่วนที่เหลือหรือวางแตกต่างกันสำหรับการตอบสนองตามเงื่อนไขในรูปแบบการติดตั้ง กล่าวอีกนัยหนึ่งถ้าการสังเกตไม่เป็นอิสระนั่นก็โอเคตราบใดที่แบบจำลองนี้มีความเป็นอิสระ
Reinstate Monica - G. Simpson

4
คุณไม่สามารถใช้ (1) หรือ (2) เป็นคำจำกัดความของ (สถิติ) ความเป็นอิสระเนื่องจากความเป็นอิสระสามารถกำหนดได้โดยไม่ต้องอ้างอิงถึงเวรกรรม ทั้งสามใบเสนอราคามีความพยายามเพียงเพื่อให้ทางการตัวอย่างที่ใช้งานง่าย (3) อาจเป็นคำจำกัดความหากคุณเข้าถึงคำจำกัดความเชิงปริมาณอย่างเข้มงวดดังนั้นจึงเป็นความคิดที่ดีที่จะอ้างถึงคำจำกัดความที่แท้จริงเช่นที่ปรากฏภายใต้หัวข้อ "คำจำกัดความ" ในบทความ Wikipedia ที่คุณอ้างอิง
whuber

1
ไม่คุณสามารถทำให้ส่วนที่เหลือเป็นอิสระ (หรืออย่างน้อยก็ลดการพึ่งพาจนถึงระดับที่ส่วนที่เหลือจะปรากฏขึ้นอย่างอิสระ) สิ่งนี้มาจากสมมุติฐานของตัวแบบเชิงเส้น โดยที่เป็นเมทริกซ์สหสัมพันธ์ ข้อสันนิษฐานทั่วไปคือเป็นเมทริกซ์เอกลักษณ์ดังนั้นแนวทแยงมุมจึงเป็นศูนย์และด้วยเหตุนี้การสันนิษฐานของความเป็นอิสระจึงอยู่ในส่วนที่เหลือ ใส่อีกวิธีหนึ่งนี่คือคำแถลงเกี่ยวกับเงื่อนไขของโมเดลที่ติดตั้ง εN(0,σ2Λ)ΛΛY
Reinstate Monica - G. Simpson

คำตอบ:


11

ในทฤษฎีความน่าจะเป็นอิสระทางสถิติ (ซึ่งไม่ได้เป็นเช่นเดียวกับความเป็นอิสระสาเหตุ) ถูกกำหนดให้เป็นสถานที่ให้บริการ (3) ของคุณ แต่ (1) ดังต่อไปนี้เป็นผล\เหตุการณ์และรับการกล่าวถึงว่ามีความเป็นอิสระทางสถิติถ้าหาก:A BAB

P(AB)=P(A)P(B).

ถ้าดังนั้นถ้าเป็นเช่นนั้น:P(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

ซึ่งหมายความว่าความเป็นอิสระทางสถิติหมายถึงการเกิดเหตุการณ์หนึ่งไม่ส่งผลกระทบต่อความน่าจะเป็นของเหตุการณ์อื่น อีกวิธีในการพูดแบบนี้คือการเกิดเหตุการณ์หนึ่งไม่ควรเปลี่ยนความเชื่อของคุณเกี่ยวกับเหตุการณ์อื่น แนวคิดเกี่ยวกับความเป็นอิสระทางสถิติโดยทั่วไปจะถูกขยายจากเหตุการณ์ไปสู่ตัวแปรสุ่มในลักษณะที่อนุญาตให้ใช้คำสั่งแบบอะนาล็อกเพื่อสร้างตัวแปรสุ่มรวมถึงตัวแปรสุ่มแบบต่อเนื่อง การรักษาความเป็นอิสระสำหรับตัวแปรสุ่มโดยทั่วไปเกี่ยวข้องกับคำจำกัดความเดียวกันกับฟังก์ชั่นการกระจาย


มันเป็นสิ่งสำคัญที่จะต้องเข้าใจว่าความเป็นอิสระเป็นทรัพย์สินที่แข็งแกร่งมาก - หากเหตุการณ์มีความเป็นอิสระทางสถิติแล้ว (โดยคำจำกัดความ) เราไม่สามารถเรียนรู้เกี่ยวกับสิ่งหนึ่งจากการสังเกตอื่น ๆ ด้วยเหตุนี้แบบจำลองทางสถิติโดยทั่วไปจะเกี่ยวข้องกับสมมติฐานของความเป็นอิสระตามเงื่อนไขเนื่องจากมีการแจกแจงหรือพารามิเตอร์พื้นฐานบางอย่าง กรอบแนวคิดที่แน่นอนนั้นขึ้นอยู่กับว่าใครใช้วิธีเบย์หรือวิธีดั้งเดิม อดีตเกี่ยวข้องกับการพึ่งพาอาศัยกันอย่างชัดเจนระหว่างค่าที่สังเกตได้ในขณะที่หลังเกี่ยวข้องกับรูปแบบของการพึ่งพา (โดยนัยและซับซ้อน) การทำความเข้าใจปัญหานี้อย่างถูกต้องจำเป็นต้องมีความเข้าใจเล็กน้อยเกี่ยวกับสถิติแบบดั้งเดิมและแบบเบย์

แบบจำลองทางสถิติมักจะบอกว่าพวกเขาใช้สมมุติฐานว่าลำดับของตัวแปรสุ่มนั้น "เป็นอิสระและกระจายตัวเหมือนกัน (IID)" ตัวอย่างเช่นคุณอาจมีลำดับที่สังเกตได้ซึ่งหมายความว่าแต่ละตัวแปรสุ่มที่สังเกตได้จะกระจายด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานX1,X2,X3,...IID N(μ,σ2)Xiμσ. ตัวแปรสุ่มแต่ละตัวในลำดับนั้นเป็น "อิสระ" ของตัวแปรอื่น ๆ ในแง่ที่ว่าผลลัพธ์จะไม่เปลี่ยนการแจกแจงที่ระบุไว้ของค่าอื่น ๆ ในโมเดลชนิดนี้เราใช้ค่าที่สังเกตได้ของลำดับเพื่อประมาณค่าพารามิเตอร์ในโมเดลและจากนั้นเราสามารถทำนายค่าที่ไม่ได้ตรวจสอบของลำดับ สิ่งนี้จำเป็นต้องเกี่ยวข้องกับการใช้ค่าที่สังเกตได้เพื่อเรียนรู้เกี่ยวกับผู้อื่น

สถิติแบบเบย์:ทุกอย่างเป็นแนวคิดง่าย ๆ สมมติว่ามีเงื่อนไข IID เนื่องจากพารามิเตอร์และและถือว่าพารามิเตอร์ที่ไม่รู้จักเหล่านั้นเป็นตัวแปรสุ่ม เมื่อพิจารณาถึงการกระจายก่อนหน้านี้ที่ไม่เสื่อมสำหรับพารามิเตอร์เหล่านี้ค่าในลำดับที่สังเกตได้จะขึ้นอยู่กับ (โดยไม่มีเงื่อนไข) โดยทั่วไปมีความสัมพันธ์เชิงบวก ดังนั้นจึงเหมาะสมอย่างยิ่งที่เราจะใช้ผลลัพธ์ที่สังเกตได้เพื่อทำนายผลลัพธ์ที่ไม่ได้สังเกตในภายหลัง - พวกมันมีความเป็นอิสระตามเงื่อนไข แต่ขึ้นอยู่กับเงื่อนไขโดยไม่มีเงื่อนไขX1,X2,X3,...μσ

สถิติคลาสสิก:นี่ค่อนข้างซับซ้อนและบอบบาง สมมติว่าเป็น IID ที่กำหนดพารามิเตอร์และแต่ให้ถือว่าพารามิเตอร์เหล่านั้นเป็น "ค่าคงที่ไม่ทราบค่า" เนื่องจากพารามิเตอร์ถูกใช้เป็นค่าคงที่จึงไม่มีความแตกต่างที่ชัดเจนระหว่างความเป็นอิสระแบบมีเงื่อนไขและไม่มีเงื่อนไขในกรณีนี้ อย่างไรก็ตามเรายังคงใช้ค่าที่สังเกตได้เพื่อประมาณค่าพารามิเตอร์และทำการคาดการณ์ค่าที่ไม่ได้ตรวจสอบ ดังนั้นเราจึงใช้ผลลัพธ์ที่สังเกตได้เพื่อคาดการณ์ผลลัพธ์ที่ไม่ได้สังเกตในภายหลังแม้ว่าพวกเขาจะมองว่า "อิสระ" ของกันและกัน ความไม่ลงรอยกันที่เห็นได้ชัดนี้ถูกกล่าวถึงในรายละเอียดในO'Neill, B. (2009) การแลกเปลี่ยน, สหสัมพันธ์และผลของ Bayes X1,X2,X3,...μσรีวิวนานาชาติสถิติ 77 (2) , PP 241 -. 250


การประยุกต์ใช้ข้อมูลนี้เพื่อเกรดนักเรียนของคุณคุณอาจจะมีอะไรบางอย่างรูปแบบเช่นนี้โดยสมมติว่าgradeเป็นอิสระตามเงื่อนไขteacher_idที่กำหนด คุณจะใช้ข้อมูลเพื่อทำการอนุมานเกี่ยวกับการแจกแจงการให้เกรดสำหรับครูแต่ละคน (ซึ่งจะไม่ถือว่าเป็นเหมือนกัน) และสิ่งนี้จะช่วยให้คุณคาดการณ์เกี่ยวกับสิ่งที่ไม่รู้จักgradeของนักเรียนคนอื่น เนื่องจากgradeมีการใช้ตัวแปรในการอนุมานมันจะส่งผลต่อการทำนายของคุณเกี่ยวกับgradeตัวแปรที่ไม่รู้จักสำหรับนักเรียนคนอื่น การแทนที่teacher_idด้วยgenderจะไม่เปลี่ยนแปลงสิ่งนี้ gradeในทั้งสองกรณีที่คุณมีตัวแปรที่คุณอาจใช้เป็นปัจจัยบ่งชี้ของ

ถ้าคุณใช้วิธีแบบเบย์คุณจะมีข้อสันนิษฐานที่ชัดเจนเกี่ยวกับความเป็นอิสระแบบมีเงื่อนไขและการแจกแจงก่อนหน้าสำหรับการแจกแจงคะแนนของครูและสิ่งนี้นำไปสู่การพึ่งพาคะแนนแบบไม่มีเงื่อนไข หากคุณใช้สถิติแบบคลาสสิกคุณจะมีสมมติฐานของความเป็นอิสระ (ขึ้นอยู่กับพารามิเตอร์ที่เป็น "ค่าคงที่ไม่ทราบ") และคุณจะใช้วิธีการทำนายทางสถิติแบบคลาสสิกที่อนุญาตให้คุณใช้เกรดหนึ่งเพื่อทำนายเกรดอื่น


มีการนำเสนอพื้นฐานของทฤษฎีความน่าจะเป็นที่กำหนดความเป็นอิสระผ่านแถลงการณ์ความน่าจะเป็นแบบมีเงื่อนไขแล้วจึงให้คำแถลงความน่าจะเป็นร่วมเป็นผล นี่เป็นเรื่องธรรมดาน้อย


6
ความเป็นอิสระทางสถิติเป็นสิ่งที่คุณอธิบายในส่วนแรกของคำตอบของคุณ แต่ประโยคของคุณ "... ถ้าเหตุการณ์มีความเป็นอิสระทางสถิติแล้ว (ตามคำจำกัดความ) เราไม่สามารถเรียนรู้เกี่ยวกับสิ่งหนึ่งจากการสังเกตอื่น ๆ " เป็นโจ๋งครึ่มผิด โลกเต็มไปด้วยอิสระทางสถิติ แต่มีเหตุการณ์ที่คล้ายกันและตัวแปรสุ่ม
Alecos Papadopoulos

1
"การเรียนรู้" จะไม่หมายถึงการเปลี่ยนความเชื่อของเราเกี่ยวกับสิ่งที่อยู่บนพื้นฐานของการสังเกตของผู้อื่น? ถ้าเป็นเช่นนั้นไม่ได้เป็นอิสระ (นิยาม) ห้ามสิ่งนี้หรือไม่
Reinstate Monica

6
ฉันจะแสดงความคิดเห็นคล้ายกับของ @Alcos ความประทับใจโดยรวมที่คุณได้รับคือคุณกำลังยืนยันว่าการสังเกตถึงการรับรู้ตัวแปรสุ่มตัวหนึ่งจะไม่บอกอะไรเราเกี่ยวกับการแจกแจงดังนั้นคุณจึงไม่สามารถทำนายอะไรเกี่ยวกับการทำให้เป็นอิสระแบบที่สอง หากเป็นกรณีนี้ทฤษฎีการสุ่มตัวอย่างและการประมาณค่าส่วนใหญ่จะเป็นไปไม่ได้ที่จะพัฒนา แต่คุณถูกต้องในแง่ที่ว่าถ้าเรารู้Fและสังเกตการสำนึกหนึ่งนั่นทำให้เราไม่มีข้อมูลเพิ่มเติมเกี่ยวกับการทำให้เป็นอิสระอื่นใด FF
whuber

4
ผมคิดว่าปัญหาที่นี่คือรูปแบบ IID มาตรฐานที่มีการกระจายเป็นโดยปริยายโดยใช้สมมติฐานของเงื่อนไขอิสระได้รับความรู้เกี่ยวกับเรนไฮน์ เงื่อนไขเกี่ยวกับความรู้เกี่ยวกับFการสังเกตมีความเป็นอิสระ แต่ไม่มีเงื่อนไขที่คุณมีสถานการณ์ที่การสังเกตแต่ละครั้งให้ข้อมูลเกี่ยวกับFซึ่งจะส่งผลต่อความเชื่อของคุณเกี่ยวกับการสังเกตอื่น ๆ FFFF
Reinstate Monica

2
ปัญหาในเรื่องนี้ก็คือสถิติดั้งเดิมปฏิบัติต่อการแจกแจงและพารามิเตอร์พื้นฐานเป็น "ค่าคงที่ที่ไม่รู้จัก" และดังนั้นจึงไม่ได้แยกความแตกต่างที่ชัดเจนระหว่างความเป็นอิสระแบบมีเงื่อนไขหรือไม่มีเงื่อนไขในกรณีนี้ ในสถิติของเบย์มันง่ายมาก
Reinstate Monica

4

ให้โดยk -มิติเวกเตอร์สุ่มคือคอลเลกชันคงตำแหน่งของตัวแปรสุ่ม (ฟังก์ชั่นที่สามารถวัดได้จริง)x=(X1,...,Xj,...,Xk)k

พิจารณาเวกเตอร์ดังกล่าวจำนวนมากบอกว่าและดัชนีเวกเตอร์เหล่านี้โดยฉัน= 1 , . . , nดังนั้นพูดni=1,...,n

และถือว่าเป็นคอลเลกชันที่เรียกว่า "ตัวอย่าง"S=( x 1 ,..., xฉัน ,.., x n ) จากนั้นเราก็โทรหากันk-

xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k มิติเวกเตอร์เป็น "การสังเกต" (แม้ว่าจริง ๆ แล้วมันจะกลายเป็นหนึ่งเดียวเมื่อเราวัดและบันทึกการรับรู้ของตัวแปรสุ่มที่เกี่ยวข้อง)

ก่อนอื่นเรามาพิจารณากรณีที่มีฟังก์ชั่นความน่าจะเป็นแบบมวล (PMF) หรือฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) และฟังก์ชั่นร่วมดังกล่าว แสดงว่าโดย PMF ร่วมหรือ PDF ร่วมกันของแต่ละเวกเตอร์สุ่มและ F ( x 1 , . . . , xฉัน , . . . , x n ) PMF ร่วมกันหรือร่วมกันในรูปแบบ PDF ของเวกเตอร์เหล่านี้ร่วมกัน fi(xi),i=1,...,nf(x1,...,xi,...,xn)

จากนั้นตัวอย่างจะถูกเรียกว่า "ตัวอย่างอิสระ" หากมีความเท่าเทียมกันทางคณิตศาสตร์ต่อไปนี้:S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

ที่ เป็นโดเมนร่วมกันสร้างขึ้นโดยnเวกเตอร์สุ่ม / ข้อสังเกตDSn

ซึ่งหมายความว่า "การสังเกต" คือ "อิสระร่วมกัน", (ในแง่สถิติหรือ "อิสระในความน่าจะเป็น" ตามที่เคยเป็นคำพูดเก่าที่ยังคงเห็นในวันนี้บางครั้ง) นิสัยคือเรียกพวกเขาว่า "การสังเกตอย่างอิสระ"

โปรดทราบว่าคุณสมบัติความเป็นอิสระทางสถิติที่นี่อยู่เหนือดัชนีคือระหว่างการสังเกต มันไม่เกี่ยวข้องกับความสัมพันธ์ของความน่าจะเป็น / สถิติระหว่างตัวแปรสุ่มในแต่ละการสังเกต (ในกรณีทั่วไปเราปฏิบัติต่อที่นี่โดยที่การสังเกตแต่ละครั้งนั้นมีหลายมิติ)i

โปรดทราบว่าในกรณีที่เรามีตัวแปรสุ่มแบบต่อเนื่องโดยไม่มีความหนาแน่นสามารถแสดงข้างต้นในรูปของฟังก์ชันการแจกแจง

นี่คือสิ่งที่ "สังเกตอิสระ" หมายถึง มันเป็นคุณสมบัติที่กำหนดไว้อย่างแม่นยำแสดงในแง่คณิตศาสตร์ เรามาดูกันว่ามันมีความหมายอย่างไร

ผลกระทบบางประการของการสังเกตการณ์โดยอิสระ

A.หากการสังเกตสองครั้งเป็นส่วนหนึ่งของกลุ่มการสังเกตการณ์อิสระร่วมกันพวกเขาก็จะเป็น "อิสระคู่ที่ชาญฉลาด" (สถิติ)

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

นี่ก็หมายความว่า PMF / PDFs แบบมีเงื่อนไขนั้นเท่ากับ "ส่วนเพิ่ม"

f(xixm)=fi(xi)im,i,m=1,...,n

สิ่งนี้ทำให้เกิดข้อโต้แย้งเงื่อนไขหรือเงื่อนไขหลายอย่าง

(xผม,x|xม.)=(xผม,x),(xผม|xม.,x)=ผม(xผม)

ฯลฯ ตราบใดที่ดัชนีทางด้านซ้ายแตกต่างจากดัชนีทางด้านขวาของเส้นแนวตั้ง

นี่ก็หมายความว่าถ้าเราสังเกตการสังเกตจริง ๆ หนึ่งความน่าจะเป็นที่บ่งบอกลักษณะการสังเกตอื่น ๆ ของตัวอย่างจะไม่เปลี่ยนแปลง ดังนั้นสำหรับการคาดการณ์ตัวอย่างอิสระไม่ใช่เพื่อนที่ดีที่สุดของเรา เราต้องการที่จะพึ่งพาเพื่อให้การสังเกตแต่ละครั้งสามารถช่วยเราพูดอะไรบางอย่างเกี่ยวกับการสังเกตอื่น ๆ

B.ในทางกลับกันตัวอย่างอิสระมีเนื้อหาข้อมูลสูงสุด ทุกการสังเกตมีความเป็นอิสระนำข้อมูลที่ไม่สามารถอนุมานได้ทั้งหมดหรือบางส่วนโดยการสังเกตอื่น ๆ ในตัวอย่าง ดังนั้นผลรวมทั้งหมดจึงสูงสุดเมื่อเปรียบเทียบกับตัวอย่างที่เปรียบเทียบได้ซึ่งมีการพึ่งพาทางสถิติระหว่างการสังเกต แต่ข้อมูลนี้มีประโยชน์อย่างไรหากไม่สามารถช่วยเราปรับปรุงการทำนายของเราได้

นี่ก็คือข้อมูลทางอ้อมเกี่ยวกับความน่าจะเป็นที่จะบอกลักษณะของตัวแปรสุ่มในตัวอย่าง ยิ่งการสังเกตเหล่านี้มีลักษณะทั่วไป (การกระจายความน่าจะเป็นทั่วไปในกรณีของเรา) ยิ่งเราอยู่ในตำแหน่งที่ดีกว่าที่จะเปิดเผยพวกเขาหากตัวอย่างของเราเป็นอิสระ

กล่าวอีกนัยหนึ่งหากตัวอย่างมีความเป็นอิสระและ "กระจายแบบเหมือนกัน" หมายถึง

ผม(xผม)=ม.(xม.)=(x),ผมม.

มันเป็นตัวอย่างที่ดีที่สุดเพื่อให้ได้ข้อมูลเกี่ยวกับการไม่เพียง แต่การกระจายความน่าจะเป็นร่วมกันทั่วไปแต่ยังสำหรับการกระจายร่อแร่ของตัวแปรสุ่มที่ประกอบด้วยการสังเกตแต่ละพูดJ ( x J ฉัน ) (x)J(xJผม)

f(xixm)=fi(xi)xi fi

ดังนั้นในเรื่องการประเมิน (ซึ่งบางครั้งใช้เป็นคำที่จับได้ทั้งหมด แต่ที่นี่มันควรจะแตกต่างจากแนวคิดของการทำนาย ) ตัวอย่างอิสระคือ "เพื่อนที่ดีที่สุด" ของเราถ้ามันถูกรวมเข้ากับ "คุณสมบัติ

C.นอกจากนี้ยังเป็นไปตามตัวอย่างอิสระของการสังเกตซึ่งแต่ละตัวมีลักษณะการกระจายความน่าจะเป็นที่แตกต่างกันโดยสิ้นเชิงโดยไม่มีลักษณะทั่วไปใด ๆ ทั้งสิ้นการรวบรวมข้อมูลที่ไร้ค่าเท่าที่จะทำได้ (แน่นอนว่าข้อมูลทุกชิ้นในตัวมันเองคือ สมควรปัญหาที่นี่คือที่นำมารวมกันเหล่านี้ไม่สามารถรวมกันเพื่อนำเสนอสิ่งที่มีประโยชน์) ลองนึกภาพตัวอย่างที่มีข้อสังเกตสามอย่าง: ผลไม้หนึ่งชนิดที่บรรจุ (ลักษณะเชิงปริมาณ) จากอเมริกาใต้อีกชิ้นหนึ่งบรรจุภูเขาจากยุโรปและอีกหนึ่งชิ้นบรรจุเสื้อผ้าจากเอเชีย ข้อมูลที่น่าสนใจน่าสนใจแบ่งออกเป็นสามส่วนด้วยกัน แต่ตัวอย่างไม่สามารถทำสิ่งใดในเชิงสถิติที่มีประโยชน์สำหรับเรา

ในอีกทางหนึ่งเงื่อนไขที่จำเป็นและเพียงพอสำหรับตัวอย่างอิสระที่จะเป็นประโยชน์คือการสังเกตมีลักษณะทางสถิติบางอย่างที่เหมือนกัน นี่คือสาเหตุที่ในสถิติคำว่า "ตัวอย่าง" ไม่ได้มีความหมายเหมือนกันกับ "การรวบรวมข้อมูล" โดยทั่วไป แต่เป็นการ "รวบรวมข้อมูลเกี่ยวกับเอนทิตีที่มีลักษณะทั่วไปบางอย่าง"

ประยุกต์ใช้กับตัวอย่างข้อมูลของ OP

การตอบสนองต่อการร้องขอจาก user @gung เรามาดูตัวอย่างของ OP ด้วยเหตุผลข้างต้น เราคิดอย่างสมเหตุสมผลว่าเราอยู่ในโรงเรียนที่มีครูมากกว่าสองคนและนักเรียนมากกว่าหกคน ดังนั้น a) เราสุ่มตัวอย่างทั้งนักเรียนและครูและ b) เรารวมไว้ในข้อมูลของเราตั้งเกรดที่สอดคล้องกับการรวมกันของนักเรียนครู

GPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

PiGi
T1,T2

s1,s2,s3T1s4,s5,s6T2

โปรดสังเกตความแตกต่างระหว่าง "ตัวแปรสุ่มแบบเดียวกัน" และ "ตัวแปรสุ่มสองตัวแปรที่มีการแจกแจงที่เหมือนกัน" อย่างระมัดระวัง

s1,s2,s3T1s4,s5,s6T2

สมมติว่าตอนนี้เราแยกตัวแปร "ครู" แบบสุ่มออกจากตัวอย่างของเราแล้ว ตัวอย่าง (นักเรียนเกรด) ของการสังเกตหกครั้งเป็นตัวอย่างอิสระหรือไม่ ที่นี่สมมติฐานที่เราจะทำเกี่ยวกับความสัมพันธ์เชิงโครงสร้างระหว่างครูนักเรียนและผลการเรียนเป็นอย่างไร

T1T2G1,G2,G3T1

แต่บอกว่าครูเหมือนกันในแง่นั้น จากนั้นภายใต้สมมติฐานที่ระบุไว้ "ครูมีอิทธิพลต่อนักเรียน" เรามีอีกครั้งว่าการสังเกตสามครั้งแรกขึ้นอยู่กับแต่ละอื่น ๆ เพราะครูมีอิทธิพลต่อนักเรียนที่มีอิทธิพลต่อคะแนนและเรามาถึงผลลัพธ์เดียวกันแม้ว่าในกรณีนี้ทางอ้อม อีกสาม) ดังนั้นอีกตัวอย่างไม่เป็นอิสระ

กรณีของเพศ

GeM,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

หมายเหตุอย่างรอบคอบว่าสิ่งที่เรารวมอยู่ในคำอธิบายของกลุ่มตัวอย่างที่เป็นเรื่องที่เกี่ยวกับเพศที่เป็นไม่ได้ค่าที่แท้จริงว่าจะใช้เวลาสำหรับนักเรียนแต่ละแต่ตัวแปรสุ่ม "เพศ" มองกลับไปที่จุดเริ่มต้นของคำตอบนี้นานมาก: ตัวอย่างที่ไม่ได้กำหนดไว้เป็นคอลเลกชันของตัวเลข (หรือคงที่ค่าตัวเลขหรือไม่ทั่วไป) แต่เป็นคอลเลกชันของตัวแปรสุ่ม (เช่นฟังก์ชั่น)

Gei1Ge1P2,P3,...ถ้าอย่างนั้นมันก็เป็นอีกแหล่งที่น่าเชื่อถือระหว่างการสังเกตการณ์ ในที่สุดเพศของนักเรียนมีอิทธิพลโดยตรงต่อคะแนนของนักเรียนอื่นหรือไม่? หากเรายืนยันว่าไม่เป็นเช่นนั้นเราจะได้รับตัวอย่างที่เป็นอิสระ (มีเงื่อนไขสำหรับนักเรียนทุกคนที่มีครูคนเดียวกัน)


ฉันไม่เห็นด้วยในประเด็นของคุณ B สำหรับวัตถุประสงค์บางอย่างเช่นการประมาณค่าเฉลี่ยความสัมพันธ์เชิงลบจะดีกว่าความเป็นอิสระ
kjetil b halvorsen

@kjetil ดีกว่าในแง่ใด
Alecos Papadopoulos

มันจะช่วยถ้าคุณสามารถเชื่อมต่อนี้เป็นรูปธรรมกับคำถามของ OP ในข้อความ ด้วยวิธีนี้เราจะเข้าใจได้อย่างไรว่าการสังเกตที่ระบุไว้ไม่เป็นอิสระ? และการออกจากครูแตกต่างจากการออกจากเซ็กส์อย่างไร
gung - Reinstate Monica

@ gung ฉันรวมความประณีตตามแนวที่คุณแนะนำ
Alecos Papadopoulos

ดีกว่าในแง่ของการลดความแปรปรวน
kjetil b halvorsen

2

คำนิยามของความเป็นอิสระทางสถิติที่คุณให้ในโพสต์ของคุณทั้งหมดที่ถูกต้องเป็นหลัก แต่พวกเขาไม่ได้รับหัวใจของความเป็นอิสระของสมมติฐานในแบบจำลองทางสถิติ เพื่อให้เข้าใจถึงสิ่งที่เราหมายถึงโดยการสันนิษฐานของการสังเกตอิสระในแบบจำลองทางสถิติมันจะเป็นประโยชน์ในการทบทวนสิ่งที่แบบจำลองทางสถิติอยู่ในระดับแนวคิด

แบบจำลองทางสถิติเป็นการประมาณ "ลูกเต๋าธรรมชาติ"

ลองใช้ตัวอย่างที่คุ้นเคย: เรารวบรวมตัวอย่างแบบสุ่มของมนุษย์ที่เป็นผู้ใหญ่ (จากประชากรที่กำหนดไว้อย่างดี - กล่าวว่ามนุษย์ผู้ใหญ่ทั้งหมดบนโลก) และเราวัดความสูงของพวกเขา เราต้องการที่จะประเมินความสูงเฉลี่ยของประชากรผู้ใหญ่ ในการทำเช่นนี้เราสร้างแบบจำลองทางสถิติอย่างง่ายโดยสมมติว่าความสูงของผู้คนเกิดขึ้นจากการแจกแจงแบบปกติ

แบบจำลองของเราจะดีถ้าการแจกแจงแบบปกติให้การประมาณที่ดีกับความสูงตามธรรมชาติที่ "เลือก" สำหรับผู้คน นั่นคือถ้าเราจำลองข้อมูลภายใต้โมเดลปกติชุดข้อมูลที่ได้จะมีลักษณะคล้ายกัน (ในแง่สถิติ) สิ่งที่เราสังเกตในธรรมชาติหรือไม่ ในบริบทของแบบจำลองของเราเครื่องกำเนิดเลขสุ่มของเราให้การจำลองที่ดีเกี่ยวกับกระบวนการสุ่มที่ซับซ้อนซึ่งธรรมชาติใช้เพื่อกำหนดความสูงของผู้ใหญ่มนุษย์ที่เลือกแบบสุ่ม ("ลูกเต๋าแห่งธรรมชาติ") หรือไม่?

สมมติฐานความเป็นอิสระในบริบทการสร้างแบบจำลองอย่างง่าย

เมื่อเราคิดว่าเราสามารถประมาณ "ลูกเต๋าธรรมชาติ" โดยการสุ่มตัวเลขจากการแจกแจงแบบปกติเราไม่ได้หมายความว่าเราจะวาดตัวเลขเดียวจากการแจกแจงปกติแล้วกำหนดความสูงนั้นให้กับทุกคน เราหมายถึงว่าเราจะวาดตัวเลขให้ทุกคนจากการแจกแจงแบบปกติเหมือนกัน นี่คือสมมติฐานที่เป็นอิสระของเรา

ลองนึกภาพตอนนี้ว่าตัวอย่างผู้ใหญ่ของเราไม่ใช่ตัวอย่างแบบสุ่ม แต่มาจากครอบครัวจำนวนหนึ่ง ความสูงนั้นเกิดขึ้นในบางครอบครัว เราได้พูดไปแล้วว่าเรายินดีที่จะสมมติว่าความสูงของผู้ใหญ่ทุกคนมาจากการแจกแจงแบบปกติ แต่การสุ่มตัวอย่างจากการแจกแจงแบบปกติจะไม่ให้ชุดข้อมูลที่ดูเหมือนกับตัวอย่างของเรา (ตัวอย่างของเราจะแสดงคะแนน "กลุ่ม" สั้น ๆ บางส่วนสูงอื่น ๆ - แต่ละกลุ่มเป็นครอบครัว) ความสูงของผู้คนในตัวอย่างของเราไม่ได้เป็นอิสระดึงออกมาจากการกระจายปกติโดยรวม

สมมติฐานความเป็นอิสระในบริบทการสร้างแบบจำลองที่ซับซ้อนมากขึ้น

แต่จะไม่สูญหายทั้งหมด! เราอาจสามารถเขียนแบบจำลองที่ดีกว่าสำหรับตัวอย่างของเรา - แบบที่รักษาความเป็นอิสระของความสูง ตัวอย่างเช่นเราสามารถเขียนแบบจำลองเชิงเส้นที่ความสูงเกิดขึ้นจากการแจกแจงแบบปกติด้วยค่าเฉลี่ยที่ขึ้นอยู่กับสิ่งที่ครอบครัวเป็นเจ้าของ ในบริบทนี้การแจกแจงแบบปกติอธิบายการเปลี่ยนแปลงที่เหลือหลังจากเราอธิบายถึงอิทธิพลของครอบครัว และตัวอย่างอิสระจากการแจกแจงแบบปกติอาจเป็นแบบจำลองที่ดีสำหรับความแปรปรวนที่เหลือนี้

โดยรวมแล้วที่นี่สิ่งที่เราทำคือการเขียนแบบจำลองที่ซับซ้อนมากขึ้นว่าเราคาดหวังว่าลูกเต๋าในธรรมชาติจะประพฤติตนอย่างไรในบริบทของการศึกษาของเรา โดยการเขียนแบบจำลองที่ดีเราอาจจะยังคงมีเหตุผลในการสมมติว่าส่วนที่สุ่มของแบบจำลอง (เช่นการเปลี่ยนแปลงแบบสุ่มรอบค่าเฉลี่ยครอบครัว) จะถูกสุ่มตัวอย่างอย่างอิสระสำหรับสมาชิกแต่ละคนของประชากร

สมมติฐานความเป็นอิสระ (มีเงื่อนไข) ในบริบทการสร้างแบบจำลองทั่วไป

โดยทั่วไปแบบจำลองทางสถิติทำงานโดยสมมติว่าข้อมูลเกิดขึ้นจากการแจกแจงความน่าจะเป็นบางอย่าง พารามิเตอร์ของการแจกแจงนั้น (เช่นค่าเฉลี่ยของการแจกแจงแบบปกติในตัวอย่างด้านบน) อาจขึ้นอยู่กับcovariates (เช่นตระกูลในตัวอย่างด้านบน) แต่แน่นอนว่ารูปแบบที่ไม่มีที่สิ้นสุดเป็นไปได้ การแจกแจงอาจไม่ปกติพารามิเตอร์ที่ขึ้นอยู่กับโควาเรียตอาจไม่ใช่ค่าเฉลี่ยรูปแบบของการพึ่งพาอาศัยอาจไม่เป็นเชิงเส้นเป็นต้นทุกรุ่นเหล่านี้ขึ้นอยู่กับการสันนิษฐานว่าพวกมันให้การประมาณที่ดีพอกับวิธีของลูกเต๋าตามธรรมชาติ ประพฤติ (อีกครั้งข้อมูลที่จำลองภายใต้ตัวแบบจะมีลักษณะทางสถิติคล้ายกับข้อมูลจริงที่ได้จากธรรมชาติ)

เมื่อเราจำลองข้อมูลภายใต้ตัวแบบขั้นตอนสุดท้ายจะเป็นการสุ่มตัวเลขตามการแจกแจงความน่าจะเป็นแบบจำลอง นี่คือการจับรางวัลที่เราคิดว่าเป็นอิสระจากกัน ข้อมูลจริงที่เราออกไปอาจดูไม่อิสระเนื่องจาก covariates หรือคุณสมบัติอื่น ๆ ของแบบจำลองอาจบอกให้เราใช้การแจกแจงความน่าจะเป็นที่แตกต่างกันสำหรับการจับที่แตกต่างกัน (หรือชุดของการจับรางวัล) แต่ข้อมูลทั้งหมดนี้จะต้องสร้างไว้ในตัวของมันเอง เราไม่ได้รับอนุญาตให้การสุ่มจับหมายเลขสุดท้ายขึ้นอยู่กับค่าที่เราดึงสำหรับจุดข้อมูลอื่น ดังนั้นเหตุการณ์ที่ต้องเป็นอิสระจึงเป็น "ลูกเต๋าแห่งธรรมชาติ" ในบริบทของแบบจำลองของเรา

มันจะมีประโยชน์ในการอ้างถึงสถานการณ์นี้ว่าเป็นอิสระตามเงื่อนไขซึ่งหมายความว่าจุดข้อมูลที่เป็นอิสระจากกันได้รับ (เช่นเงื่อนไขใน) covariates ในตัวอย่างความสูงของเราเราถือว่าความสูงของฉันและความสูงของพี่ชายของฉันกับครอบครัวของฉันเป็นอิสระจากกันและยังเป็นอิสระจากความสูงของคุณและความสูงของน้องสาวของคุณที่มีต่อครอบครัวของคุณ. เมื่อเรารู้ว่าครอบครัวของใครบางคนเรารู้ว่าการแจกแจงแบบปกติใดที่จะดึงจากเพื่อจำลองความสูงของพวกเขาและการจับรางวัลสำหรับบุคคลต่าง ๆ มีความเป็นอิสระโดยไม่คำนึงถึงครอบครัวของพวกเขา (แม้ว่าเราจะเลือกการกระจายแบบปกติ เป็นไปได้ว่าแม้หลังจากจัดการกับโครงสร้างครอบครัวของข้อมูลของเราเรายังคงไม่บรรลุความเป็นอิสระตามเงื่อนไขที่ดี (อาจเป็นสิ่งสำคัญในการสร้างแบบจำลองเพศเช่น)

ท้ายที่สุดไม่ว่ามันจะสมเหตุสมผลหรือไม่ที่จะยอมรับความเป็นอิสระของการสังเกตการณ์แบบมีเงื่อนไขคือการตัดสินใจที่จะต้องดำเนินการในบริบทของแบบจำลองเฉพาะ นี่คือสาเหตุที่ตัวอย่างเช่นในการถดถอยเชิงเส้นเราไม่ตรวจสอบว่าข้อมูลมาจากการแจกแจงแบบปกติ แต่เราตรวจสอบว่าส่วนที่เหลือมาจากการแจกแจงแบบปกติ (และจากการแจกแจงแบบปกติเดียวกันในช่วงเต็มของ ข้อมูล). การถดถอยเชิงเส้นสมมติว่าหลังจากการบัญชีสำหรับอิทธิพลของ covariates (เส้นการถดถอย) ข้อมูลจะถูกสุ่มตัวอย่างอย่างอิสระจากการแจกแจงแบบปกติตามคำจำกัดความที่เข้มงวดของความเป็นอิสระในโพสต์ดั้งเดิม

ในบริบทของตัวอย่างของคุณ

"ครู" ในข้อมูลของคุณอาจเป็น "ครอบครัว" ในตัวอย่างความสูง

หมุนรอบสุดท้ายเมื่อมัน

แบบจำลองที่คุ้นเคยจำนวนมากสมมติว่ามีสารตกค้างเกิดขึ้นจากการแจกแจงแบบปกติ ลองนึกภาพฉันให้ข้อมูลบางอย่างที่ชัดเจนว่าไม่ปกติ บางทีพวกเขากำลังเบ้อย่างแรงหรือบางทีพวกเขาก็ bimodal และฉันบอกคุณว่า "ข้อมูลเหล่านี้มาจากการแจกแจงแบบปกติ"

"ไม่มีทาง" คุณพูดว่า "เห็นได้ชัดว่าคนเหล่านั้นไม่ปกติ!"

"ใครพูดอะไรเกี่ยวกับข้อมูลที่เป็นปกติ" ฉันพูด. "ฉันแค่บอกว่าพวกเขามาจากการกระจายปกติ"

"หนึ่งเดียว!" คุณพูด. "เรารู้ว่าฮิสโตแกรมของตัวอย่างที่มีขนาดใหญ่พอสมควรจากการแจกแจงแบบปกติจะมีลักษณะปกติประมาณ!"

"แต่" ฉันพูด "ฉันไม่เคยพูดว่าข้อมูลถูกสุ่มตัวอย่างอย่างอิสระจากการแจกแจงแบบปกติ DO มาจากการแจกแจงแบบปกติ แต่มันไม่ได้เป็นอิสระเสมอ"

สมมติฐานของความเป็นอิสระ (มีเงื่อนไข) ในการสร้างแบบจำลองทางสถิติอยู่ที่นั่นเพื่อป้องกันไม่ให้สมาร์ท alecks เช่นฉันจากการละเว้นการกระจายของที่เหลือและการใช้รูปแบบที่ไม่ถูกต้อง

สองบันทึกสุดท้าย

1) คำว่า "ลูกเต๋าแห่งธรรมชาติ" ไม่ใช่ของฉันในตอนแรก แต่แม้จะมีการปรึกษากับผู้อ้างอิงสองสามคนฉันก็ไม่สามารถเข้าใจได้ว่าฉันได้มาจากที่ใดในบริบทนี้

2) แบบจำลองทางสถิติบางอย่าง (เช่นตัวแบบอัตโตเรียร์แบบก้าวหน้า) ไม่ต้องการความเป็นอิสระในการสังเกตด้วยวิธีนี้ โดยเฉพาะอย่างยิ่งพวกเขาอนุญาตให้มีการกระจายตัวตัวอย่างสำหรับการสังเกตที่กำหนดไม่เพียง แต่จะแปรผันคงที่ แต่ยังรวมถึงข้อมูลที่มาก่อนหน้าด้วย


ขอบคุณสำหรับสิ่งนี้. ฉันชอบที่มันถูกทำให้เข้าถึงได้ง่ายมาก คุณพูดถึงประเด็นที่ว่าครูเล่นเรื่องนี้ได้อย่างไรคุณสามารถขยายการอภิปรายเพื่อแก้ไขแนวคิดเรื่องเพศในฐานะเพื่อนร่วมชาติได้หรือไม่?
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.