ทำความเข้าใจกับทฤษฎีการแยก d ในเครือข่าย Bayesian ที่เป็นสาเหตุ


15

ฉันกำลังพยายามทำความเข้าใจกับตรรกะการแบ่งแยกในเครือข่าย Causal Bayesian ฉันรู้ว่าอัลกอริทึมทำงานอย่างไร แต่ฉันไม่เข้าใจว่าทำไม "การไหลของข้อมูล" ทำงานตามที่ระบุไว้ในอัลกอริทึม

ป้อนคำอธิบายรูปภาพที่นี่

ตัวอย่างเช่นในกราฟด้านบนสมมติว่าเราได้รับ X เท่านั้นและไม่พบตัวแปรอื่น จากนั้นตามกฎของการแยก d การไหลของข้อมูลจาก X ถึง D:

  1. X อิทธิพลซึ่งเป็นX) ไม่เป็นไรเนื่องจาก A เป็นสาเหตุของ X และหากเราทราบเกี่ยวกับผลกระทบ X สิ่งนี้จะส่งผลต่อความเชื่อของเราเกี่ยวกับสาเหตุ A. ข้อมูลไหลP(A)P(A|X)

  2. X มีอิทธิพลต่อ B ซึ่งเป็นX) ไม่เป็นไรเนื่องจากความรู้ของเราเกี่ยวกับ X เปลี่ยนแปลงไป A การเปลี่ยนแปลงที่ A สามารถส่งผลต่อความเชื่อของเราเกี่ยวกับสาเหตุ B เช่นกันP(B)P(B|X)

  3. X มีอิทธิพลต่อ C ซึ่งเป็นX) ไม่เป็นไรเพราะเรารู้ว่า B นั้นลำเอียงโดยความรู้ของเราเกี่ยวกับผลกระทบทางอ้อม X และเนื่องจาก B ถูกทำให้ลำเอียงโดย X สิ่งนี้จะมีผลต่อ B ของผลกระทบทางตรงและทางอ้อมทั้งหมดของ B C เป็นผลโดยตรงของ B และได้รับอิทธิพลจากความรู้ของเราเกี่ยวกับ XP(C)P(C|X)

ถึงตอนนี้ทุกอย่างก็โอเคสำหรับฉันตั้งแต่การไหลของข้อมูลเกิดขึ้นตามความสัมพันธ์ที่เป็นเหตุและผล แต่ฉันไม่ได้รับพฤติกรรมพิเศษที่เรียกว่า "โครงสร้าง V" หรือ "Colliders" ในรูปแบบนี้ ตามทฤษฎี d-Separation B และ D เป็นสาเหตุทั่วไปของ C ในกราฟข้างต้นและมันบอกว่าถ้าเราไม่ได้สังเกต C หรือลูกหลานของมันข้อมูลการไหลจาก X จะถูกบล็อกที่ C ดี, OK แต่คำถามของฉันคือทำไม

จากสามขั้นตอนข้างต้นเริ่มต้นจาก X เราเห็นว่า C ได้รับอิทธิพลจากความรู้ของเราเกี่ยวกับ X และการไหลของข้อมูลที่เกิดขึ้นตามความสัมพันธ์ระหว่างสาเหตุและผลกระทบ ทฤษฎีการแยกตัวบอกว่าเราไม่สามารถไปจาก C ถึง D เนื่องจาก C ไม่ได้ถูกสังเกต แต่ฉันคิดว่าเนื่องจากเรารู้ว่า C นั้นเอนเอียงและ D เป็นสาเหตุของ C ดังนั้น D ควรได้รับผลกระทบเช่นกันในขณะที่ทฤษฎีบอกว่าตรงกันข้าม ฉันขาดอะไรบางอย่างในรูปแบบความคิดของฉันอย่างชัดเจน แต่มองไม่เห็นว่ามันคืออะไร

ดังนั้นฉันต้องการคำอธิบายว่าทำไมการไหลของข้อมูลที่ถูกบล็อกที่ C หากไม่ได้สังเกต C


มันจะไม่ไหลจาก X ถึง D หากสังเกตเฉพาะ X คุณระบุไว้ใต้ภาพ (แม้ว่าคุณจะอธิบายได้ถูกต้องลงไปอีก)
ziggystar

ฉันรู้สิ่งนี้อยู่แล้วว่าการไหลของข้อมูลถูกบล็อกที่ C ซึ่งเรามี "โครงสร้าง V" สิ่งที่ฉันอยากรู้ก็คือทำไม เหตุใดโครงสร้าง V จึงบล็อกการไหลของข้อมูลเมื่อเราไม่ได้สังเกต C จากมุมมองความสัมพันธ์ที่ก่อให้เกิดผลกระทบ
Ufuk Can Bicici

คำตอบ:


6

ไม่ใช่เรื่องง่ายที่คุณไม่สามารถให้เหตุผลจากสาเหตุถึงผลที่ไม่ได้สังเกตการณ์ไปยังสาเหตุอื่นได้หรือไม่? หากฝน (B) และสปริงเกอร์ (D) เป็นสาเหตุของพื้นเปียก (C) คุณสามารถโต้แย้งได้ว่าการเห็นฝนหมายความว่าพื้นดินอาจเปียกและยังคงให้เหตุผลว่าสปริงเกอร์ต้องอยู่ตั้งแต่พื้นดิน เปียกหรือไม่! ไม่แน่นอน คุณแย้งว่าพื้นดินเปียกเพราะฝน - คุณไม่สามารถหาสาเหตุเพิ่มเติมได้!

หากคุณสังเกตพื้นเปียกแน่นอนว่าสถานการณ์เปลี่ยนแปลง ตอนนี้คุณอาจสามารถเหตุผลจากสาเหตุหนึ่งไปอีกสาเหตุได้ตามที่ Frank อธิบาย


4

ลองลืมเกี่ยวกับ X สักครู่แล้วพิจารณาเพียง collider ของ B, C และ D เหตุผลที่โครงสร้าง v สามารถบล็อกเส้นทางระหว่าง B และ D คือโดยทั่วไปถ้าคุณมีตัวแปรสุ่มอิสระสองตัว (B และ D) ที่ส่งผลต่อผลลัพธ์เดียวกัน (C) จากนั้นการรู้ผลลัพธ์สามารถช่วยให้คุณสามารถสรุปข้อสรุปเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรสุ่มซึ่งทำให้สามารถรับข้อมูลได้

P(B|D)P(B)P(D|B)P(D)) ดังนั้นการรู้ว่าสนามหญ้าเปียกจะปลดล็อคเส้นทางและทำให้ B และ D ขึ้นอยู่กับ

เพื่อให้เข้าใจสิ่งนี้ดีขึ้นอาจเป็นประโยชน์หากคุณได้ดูที่Berkson Paradoxซึ่งอธิบายสถานการณ์เดียวกัน


1) ฉันมีความยากลำบากในการทำความเข้าใจเพื่อดูว่าสาเหตุที่เป็นอิสระคืออะไรก่อนที่จะกำหนดอะไรเกี่ยวกับการแยก D ผู้เขียนหลายคนกำหนดการแยก D โดยใช้ความสัมพันธ์ที่เป็นเหตุเป็นผลที่ใช้งานง่าย ฉันพยายามสร้างระบบการให้เหตุผลตามสิ่งที่ฉันกำลังอ่านจากแหล่งข้อมูลที่แตกต่างกันและอิงตามสัญชาติญาณของฉันเพื่อที่ฉันจะได้ตกลงกับทฤษฎีบทนี้ มันเป็นเหมือนดังต่อไปนี้: "หากไม่มีตัวแปรสังเกตได้นอกจาก X ความรู้เกี่ยวกับ X สามารถมีอิทธิพลต่อผลกระทบของ X (ลูกหลานทั้งหมด) สาเหตุของ X โดยตรงหรือโดยอ้อม (บรรพบุรุษ) และผลกระทบอื่น ๆ ของสาเหตุ X"
Ufuk Can Bicici

2) ฉันแสดงให้เห็นถึงความคิดเช่นนี้: A) X สามารถมีอิทธิพลต่อผลกระทบโดยตรงและโดยอ้อมเนื่องจากค่า X ที่แตกต่างกันจะสร้างสาเหตุที่แตกต่างกัน B) X สามารถมีอิทธิพลต่อสาเหตุทางตรงและทางอ้อมเนื่องจากถ้าเราสังเกตเห็นผลกระทบเราสามารถได้รับข้อมูลใหม่เกี่ยวกับสาเหตุในแนวทางการวินิจฉัย C) X มีอิทธิพลต่อผลกระทบอื่น ๆ (ไม่รวมตัวมันเอง) ของสาเหตุทั้งทางตรงและทางอ้อมเนื่องจากความรู้เกี่ยวกับ X เปลี่ยนความเชื่อของเราเกี่ยวกับสาเหตุเหล่านี้ซึ่งจะส่งผลกระทบต่อผลกระทบทั้งหมด ฉันพยายามตีความเครือข่าย Causal Bayesian ดังกล่าวด้วยรูปแบบนี้ ถูกต้องหรือไม่ที่จะเริ่มต้นด้วย?
Ufuk Can Bicici

3) มันเหมือนกับว่าฉันกำลังพยายามที่จะสร้างรูปแบบ "การไหลของข้อมูล" ที่ใช้งานง่ายเพื่อทำความเข้าใจพฤติกรรมการพึ่งพาอิสระของตัวแปร ด้วยรูปแบบนี้ฉันไม่สามารถเห็นสาเหตุที่เป็นอิสระและนี่คือสิ่งที่ฉันติดอยู่ เห็นได้ชัดว่าฉันพลาดบางสิ่งบางอย่างหรือฉันอาจผิดโดยสิ้นเชิงกับรูปแบบความคิดนี้
Ufuk Can Bicici

ฉันคิดว่าคำตอบดั้งเดิมของฉันทำให้เข้าใจผิดเล็กน้อยเพราะฉันอ้างถึง B และ D ว่า 'สาเหตุ' (แก้ไขแล้ว) การไหลของข้อมูลเป็นแนวคิดที่เชื่อมโยงกับการสังเกตไม่ใช่การแทรกแซงเชิงสาเหตุ อย่างที่คุณทราบตัวแปรสุ่มสองตัวนั้นแยกจากกันถ้าการสังเกตนั้นจะไม่มีข้อมูลเกี่ยวกับตัวที่สอง ข้อความของคุณดูเหมือนจะทำให้การสังเกตและการอนุมานชัดเจนขึ้น การสังเกต X ช่วยให้เราสามารถปรับการอนุมานของผู้ปกครอง (คำสั่ง A) และสาเหตุโดยตรง แต่ถ้าโครงสร้าง v บล็อกเส้นทางนั้นเราจะไม่สามารถปรับการอนุมานสำหรับสาเหตุทางอ้อมด้วยเหตุผลที่อธิบายไว้ข้างต้น
FrankD

1

ถึงตอนนี้ทุกอย่างก็โอเคสำหรับฉันเนื่องจากการไหลของข้อมูลเกิดขึ้นตามความสัมพันธ์ที่เป็นเหตุและผล แต่ฉันไม่ได้รับพฤติกรรมพิเศษที่เรียกว่า "โครงสร้าง V" หรือ "Colliders" ในรูปแบบนี้

จากนั้นน็อตแข็งที่จะแตกที่นี่คือโครงสร้างวี ฉันต้องการแสดงให้เห็นถึงความแตกต่างระหว่างความน่าจะเป็นของตัวแปร S ที่มีต่อการสังเกตผลกระทบและอิทธิพลของการสังเกตตัวแปร D อีกตัวหนึ่งซึ่งไม่ขึ้นอยู่กับ S ในสถานการณ์เดียวกันโดยใช้ตัวอย่างที่สมมติขึ้น

สมมุติว่ามีใครกำลังเรียนอยู่พูดพีชคณิตเชิงเส้น ถ้าเขาสามารถผ่านมันขึ้นอยู่กับความยากลำบากในการสอบเป็นหลัก เราจะแสดงเหตุการณ์ที่ผ่านหลักสูตรโดย P ผ่านเป็น 1 และ 0 อย่างอื่น และความยากลำบากในการสอบเป็น D, ยากเท่ากับ 1 และง่ายที่สุดเท่าที่ 0 และบางสิ่งที่ไร้สาระอาจมีอิทธิพลต่อการแสดงหรือผลลัพธ์ของเขาสมมติว่าภาวะเอกฐานเกิดขึ้นและเขาจะถูกล้างสมองโดยเครื่องแล้วตัดสินใจว่าจะไม่ ทำข้อสอบ. เราแสดงว่าเหตุการณ์โดย S และความน่าจะเป็นคือ 0.0001 ดูเหมือนว่าเป็นไปไม่ได้ แต่ตามคำนิยามโอกาสของมันไม่ควรจะเป็นศูนย์

ดังนั้นเราจึงมีกราฟของรูปแบบโครงสร้างวีในขณะนี้:

 D   S
  | |
 \| |/ 
   P  

P(¬P|S)=0.999999P(P|S)=0.000001

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

P(S|P)P(S|P,D)

1) ถ้าเราไม่รู้ผลลัพธ์เราสามารถคำนวณความน่าจะเป็นของภาวะเอกฐานที่เกิดขึ้นเนื่องจากหลักสูตรนั้นง่าย

P(S|¬D)=P(S,P|¬D)+P(S,¬P|¬D)=P(S=1,P=1,D=0)P(D=0)+P(S=1,P=0,D=0)P(D=0)=P(S=1)P(D=0|S=1)P(P=1|D=0,S=1)P(D=0)+P(S=1)P(D=0|S=1)P(P=0|D=0,S=1)P(D=0)=P(S=1)P(D=0|S=1)P(D=0)=P(S=1)P(D=0)P(D=0)=P(S=1)=0.0001

ดังที่คุณเห็นด้านบนที่ไม่สำคัญว่าการสอบผ่านหรือไม่ เกิดอะไรขึ้นตามที่ควรจะเป็น มันอาจถูกมองว่าเป็นความน่าจะเป็นที่มากกว่าพี

และเรายังสามารถหาความน่าจะเป็นที่ภาวะเอกฐานเกิดขึ้นเนื่องจากนักเรียนไม่ผ่านการสอบ:

P(S,|¬P)=P(S,¬P)P(¬P)=P(S,¬p,D)+P(S,¬P,¬D)P(¬P)=P(¬P|S,D)P(S)P(D)+P(¬P|S,¬D)P(S)P(¬D)S,DP(¬P|S,D)P(S)P(D)=0.0001818

การรู้ว่าผู้ชายคนนั้นไม่ผ่านการสอบเราสามารถเดาได้ว่าเขาอาจถูกล้างสมองด้วยเครื่องจักรคือ 0.0001818 ซึ่งใหญ่กว่าเมื่อเราไม่รู้

P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998

ดูเถิดและเห็นว่าการเปลี่ยนแปลงนั้นยิ่งใหญ่กว่าที่เราเพิ่งรู้ว่าเขาไม่ได้ทำการสอบ ถ้าอย่างนั้นเรามาดูกันว่าP(S|P)P(S|P,D) เราสามารถอนุมานได้ว่า SD|Pผม(P(P,S,D)) ซึ่งหมายความว่า D สามารถมีอิทธิพลต่อ S ผ่านทาง P

ขอให้รายละเอียดนี้มาจาก hlep

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.