แบบจำลองเชิงสถิติหรืออัลกอริทึมใดที่สามารถใช้เพื่อแก้ปัญหา John Snow Cholera


23

ฉันสนใจที่จะเรียนรู้วิธีพัฒนาจุดศูนย์กลางทางภูมิศาสตร์ของจุดศูนย์กลางบางจุดบนพื้นฐานของข้อมูลจากการระบาดของจอห์นสโนว์อหิวาตกโรค การสร้างแบบจำลองทางสถิติใดที่สามารถใช้ในการแก้ปัญหาดังกล่าวโดยไม่ต้องทราบล่วงหน้าว่ามีหลุมอยู่ที่ใด

ตามปัญหาทั่วไปคุณจะมีเวลาสถานที่ตั้งของจุดที่รู้จักและเส้นทางเดินของผู้สังเกตการณ์ วิธีที่ฉันกำลังมองหาจะใช้สามสิ่งนี้เพื่อประเมินจุดศูนย์กลางของ "การระบาด"


2
โมเดล Kriging ใช้สำหรับการทำนายทางภูมิศาสตร์ นั่นอาจเป็นจุดเริ่มต้น หากต้องการรวมข้อมูลเวลาคุณจะต้องดำเนินการต่อไปอีกขั้นและใช้โมเดล spatio-temporal (ฉันไม่ได้ใช้สิ่งเหล่านี้)
Great38

4
@ Great Kriging ยากที่จะใช้ที่นี่: มันไม่ได้มีไว้สำหรับการประเมิน extrema และมันไม่เหมาะกับรูปทรงเรขาคณิตของเวลาเดินไปตามถนนที่มีความเกี่ยวข้องและไม่เหมาะสำหรับการควบคุมสภาพแวดล้อมที่สำคัญเช่นความหนาแน่นของประชากรหรือ จำนวนคนงานในอาคาร
whuber

แพคเกจ R นี่อาจเป็นที่สนใจgithub.com/lindbrook/cholera
David C. Norris

คำตอบ:


25

ไม่ใช่เพื่อให้คำตอบที่สมบูรณ์หรือมีอำนาจ แต่เพียงเพื่อกระตุ้นความคิดฉันจะรายงานเกี่ยวกับการวิเคราะห์อย่างรวดเร็วที่ฉันทำสำหรับการฝึกในห้องแล็บในหลักสูตรสถิติเชิงพื้นที่ที่ฉันสอนเมื่อสิบปีก่อน จุดประสงค์คือเพื่อดูว่าการบัญชีที่ถูกต้องของเส้นทางการเดินทางที่น่าจะเป็นอย่างไร (โดยการเดินเท้า) เมื่อเทียบกับการใช้ระยะทางแบบยุคลิดจะมีวิธีการสำรวจที่ค่อนข้างง่าย: การประมาณความหนาแน่นของเคอร์เนล จุดสูงสุด (หรือจุดสูงสุด) ของความหนาแน่นจะสัมพันธ์กับปั๊มที่ด้ามจับหิมะถูกนำออกไปที่ไหน?

ด้วยการใช้ภาพแรสเตอร์ที่มีความละเอียดสูง (2946 แถวโดย 3160 คอลัมน์) ของแผนที่ของ Snow (ระบุตำแหน่งทางภูมิศาสตร์อย่างเหมาะสม) ฉันทำการแปลงโลงศพสีดำเล็ก ๆ น้อย ๆ หลายร้อยภาพบนแผนที่ (หา 558 จากที่ 309 ที่อยู่) ขอบถนนที่ตรงกับที่อยู่และสรุปตามที่อยู่เป็นจำนวนที่แต่ละสถานที่

แผนที่จุดของข้อมูลอินพุต

หลังจากการประมวลผลภาพบางอย่างเพื่อระบุถนนและตรอกซอกซอยฉันได้ทำการแพร่แบบเกาส์เซียนแบบง่าย ๆ จำกัด เฉพาะพื้นที่เหล่านั้น (โดยใช้วิธีการโฟกัสซ้ำใน GIS) นี่คือ KDE

ผลที่ได้พูดออกมาเพื่อตัวเอง - มันแทบจะไม่ต้องการแม้แต่ตำนานที่จะอธิบาย (แผนที่แสดงปั๊มอื่น ๆ อีกมากมาย แต่ทั้งหมดอยู่นอกมุมมองนี้ซึ่งมุ่งเน้นไปที่พื้นที่ที่มีความหนาแน่นสูงสุด)

แผนที่ของ Snow แสดงความหนาแน่นด้วยสี


ว้าว. ดังนั้นเพื่อสรุป; 1. ทำให้เส้นทางการเดินทางเป็นแบบเชิงเส้น 2. ทำการปรับให้เรียบในหนึ่งมิติ 3. ขยายการปรับให้เรียบในสองมิติ 4. เฉลี่ย kde ข้ามเส้นทางการเดินทาง?
cylondude

1
การปรับให้เรียบนั้นทำได้ในแบบ 2D แต่ จำกัด เฉพาะภูมิภาคที่แสดงด้วยสี มีวิธีอื่นที่จะทำเช่นเดียวกันกับคำอธิบายของคุณ อย่างไรก็ตามไม่จำเป็นต้องเฉลี่ยมากกว่า "การเดินทางเส้นทาง" (ไม่ว่าจะเป็นอะไรก็ตาม) แผนที่นี้มีความน่าสนใจเนื่องจากเป็นส่วนหนึ่งของคุณสมบัติของรูปทรงเรขาคณิตทั้งสองมิติ
whuber

สำหรับแต่ละจุด A บนถนนให้นับจำนวนก้าวไปยังจุด B แต่ละจุดในตำแหน่งที่อยู่ เสียบจำนวนขั้นตอนนั้นลงในความหนาแน่นแบบเกาส์เซียนและคูณมูลค่านั้นด้วยจำนวนผู้เสียชีวิตที่ B เพิ่มผลิตภัณฑ์ทั้งหมด (เช่นเหนือจุดที่อยู่ B ทั้งหมด) เพื่อรับความหนาแน่นของเคอร์เนลที่จุด A ทำทุกจุด A บนถนน. นั่นคือความหนาแน่นที่เราเห็นในแต่ละจุดบนแผนที่ ใช่?
Hatshepsut

2
B

2
@ หมวกไม่ใช่กรณีที่เกาส์เซียนมีส่วนสำคัญเมื่อถูก จำกัด อยู่บนถนนและทางเดิน! มันจะถูกตัดทอนและจะต้องมีการปรับสภาพใหม่
whuber

19

ใน [1, §3.2] David Freedmanเสนอคำตอบที่เป็นลบกับคำถามของคุณ นั่นคือไม่มีแบบจำลองทางสถิติหรืออัลกอริทึม (เพียง) สามารถแก้ปัญหาของจอห์นสโนว์ได้ ปัญหาของหิมะก็คือการพัฒนาข้อโต้แย้งที่สำคัญสนับสนุนทฤษฎีของเขาว่าอหิวาตกโรคเป็นโรคติดเชื้อที่เกิดจากน้ำโดยต่อต้านทฤษฎีการเกิดฝ้าในวันนี้ (บทที่ 3 ใน [1] ชื่อ“ แบบจำลองเชิงสถิติและรองเท้าหนัง” ยังมีอยู่ในแบบฟอร์มที่เผยแพร่ก่อนหน้านี้ [2] ที่นี่ )

ในหน้าสั้น ๆ เหล่านี้ [1, pp.47–53] ซึ่งส่วนใหญ่เป็นการอ้างอิงจาก John Snow เอง Freedman ให้เหตุผลว่า "สิ่งที่หิมะได้ทำจริงในปี ค.ศ. 1853-54 นั้นน่าสนใจยิ่งกว่านิทานในวงกว้าง ปั๊มถนน]. " เท่าที่หลักฐานทางสถิติ marshalling (รอบปฐมทัศน์อื่น ๆ เช่นการระบุกรณีดัชนี ฯลฯ มีการหารือนอกเหนือ) หิมะใช้ประโยชน์จากการเปลี่ยนแปลงตามธรรมชาติเพื่อให้เกิดการทดลองเสมือนจริงที่น่าทึ่ง

ปรากฎว่าในช่วงเวลาก่อนหน้านี้มีการแข่งขันที่รุนแรงระหว่าง บริษัท น้ำประปาในลอนดอนและสิ่งนี้ส่งผลให้เกิดการผสมน้ำประปาในพื้นที่ (ในคำพูดของหิมะ) "ที่ใกล้ชิดที่สุด"

ท่อของแต่ละ บริษัท จะลงไปตามถนนทุกสายและเข้าไปในสนามและตรอกซอกซอยเกือบทั้งหมด บ้านสองสามหลังถูกจัดหาโดย บริษัท หนึ่งแห่งและอีกสองแห่งตามการตัดสินใจของเจ้าของหรือผู้ครอบครองในเวลานั้นเมื่อ บริษัท น้ำกำลังแข่งขันอย่างแข็งขัน

...

เนื่องจากไม่มีความแตกต่างใด ๆ ในบ้านหรือผู้คนที่ได้รับการจัดหาของ บริษัท น้ำทั้งสองหรือในสภาพทางกายภาพใด ๆ ที่พวกเขาถูกล้อมรอบเป็นที่ชัดเจนว่าการทดลองไม่ได้ถูกคิดค้นขึ้นซึ่งจะทดสอบอย่างละเอียดมากขึ้น ผลกระทบของการประปาในความคืบหน้าของอหิวาตกโรคมากกว่านี้สถานการณ์ที่วางไว้พร้อมทำก่อนที่ผู้สังเกตการณ์

—John Snow

อีกนิดที่สำคัญอย่างยิ่งของการเปลี่ยนแปลงทางธรรมชาติ 'จอห์นหิมะใช้ประโยชน์ในเรื่องนี้กึ่งทดลองว่า บริษัท น้ำหนึ่งมีปริมาณน้ำในแม่น้ำเทมส์ปลายน้ำของการปล่อยน้ำเสียในขณะที่คนอื่น ๆ มีไม่กี่ปีก่อนที่จะย้ายการบริโภคของต้นน้ำ ฉันจะให้คุณเดาว่าอันไหนมาจากตารางข้อมูลของ John Snow!

                     | จำนวน | อหิวาตกโรค ตายต่อ
บริษัท | บ้าน | ความตาย 10,000 บ้าน
-------------------------------------------------- --------
Southwark & ​​Vauxhall | 40,046 | 1263 | 315
แลมเบ ธ 26,107 | 98 | 37
ส่วนที่เหลือของลอนดอน 256,423 | 1422 | 59

ในฐานะที่เป็นอิสระบันทึกอย่างไม่เต็มใจ

ในฐานะที่เป็นส่วนหนึ่งของเทคโนโลยีทางสถิติ [ตารางข้างต้น] นั้นไม่น่าทึ่ง แต่เรื่องราวที่เล่านั้นเป็นเรื่องที่โน้มน้าวใจมาก พลังของการโต้แย้งเป็นผลมาจากความชัดเจนของการให้เหตุผลก่อนหน้าการรวบรวมหลักฐานที่แตกต่างกันจำนวนมากและปริมาณของรองเท้าหนังหิมะก็เต็มใจที่จะใช้เพื่อรับข้อมูล [1, p.51]

อีกจุดหนึ่งของความแปรปรวนทางธรรมชาติที่ถูกเอาเปรียบโดยหิมะเกิดขึ้นในมิติเวลา : การเคลื่อนย้ายปริมาณน้ำที่กล่าวมาข้างต้นเกิดขึ้นระหว่างการระบาดสองครั้งทำให้หิมะสามารถเปรียบเทียบน้ำของ บริษัท เดียวกันกับที่มีและไม่มีน้ำเสียเพิ่ม (ต้องขอบคุณ Philip B. Stark ผู้เขียนหนึ่ง [1] สำหรับข้อมูลนี้ผ่าน Twitterดูการบรรยายออนไลน์ของเขา)


เรื่องนี้ยังให้การศึกษาที่ให้คำแนะนำในทางตรงกันข้ามระหว่างนิรนัยและการเหนี่ยวนำตามที่กล่าวไว้ในคำตอบนี้

  1. ฟรีแมน D, ถ่านหิน D, Sekhon JS, Stark PB แบบจำลองทางสถิติและการอนุมานเชิงสาเหตุ: บทสนทนากับสังคมศาสตร์ เคมบริดจ์; นิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์; 2010

  2. อิสระ DA โมเดลเชิงสถิติและเครื่องหนังรองเท้า สังคมวิทยาวิธี 1991; 21: 291-313 ดอย: 10.2307 / 270939 ข้อความเต็ม


1
+1 สำหรับการชี้ให้เห็นว่าเพียงการระบุจุดศูนย์กลางจะไม่เพียงพอที่จะแก้ปัญหา "ปัญหาของ John Snow" ตามที่ระบุไว้ ทฤษฎี Miasma เป็นหนึ่งในทฤษฎีที่แพร่หลายในขณะที่เดวิดชี้ให้เห็น การปลอมตัวทฤษฎี miasma จะต้องแสดงให้เห็นว่าอัตราทางภูมิศาสตร์ไม่ได้เพิ่มขึ้นด้วยความใกล้ชิดกับแม่น้ำ วิธีการที่ทันสมัยในการแก้ไขปัญหานี้อาจมีการใช้การดึงดูด
AdamO

ขอบคุณ @AdamO; แต่ฉันสงสัยว่าKrigingจะรองรับการผสมเชิงพื้นที่ "ใกล้ชิด" ในกรณีนี้ได้อย่างไรซึ่งเกือบดูเหมือนจะดูถูกต่อความต่อเนื่องที่จำเป็นสำหรับการใช้เทคนิคการแก้ไข (เช่นฉันเข้าใจว่า Kriging เป็น)
David C. Norris

บางทีฉันอาจเข้าใจผิดคำพูดของหิมะ: ข้อสันนิษฐานของฉันคือ "การผสมอย่างใกล้ชิด [แหล่งที่มาของเครื่องสูบน้ำ"] เรียกว่าการออกแบบบล็อกที่เกือบจะสมบูรณ์แบบโดยแบ่งออกเป็นระยะทางจากแม่น้ำ เครื่องสูบน้ำของซัพพลายเออร์ A, B, C ... เกี่ยวข้องกับทฤษฎีที่ว่าน้ำที่ปนเปื้อนเป็นสาเหตุของอหิวาตกโรค Kriging จะปฏิเสธสมมติฐานของ miasma โดยแสดงให้เห็นว่าความใกล้ชิดกับแม่น้ำไม่เกี่ยวข้องกับอุบัติการณ์ของอหิวาตกโรคที่เพิ่มขึ้น สิ่งนี้ได้รับการสนับสนุนจากคนที่รดน้ำที่ปั๊ม: miasma ไม่ได้เดินทางผ่านท่อ
AdamO

2
@AdamO ที่จริงแล้ว William Farr ได้ศึกษาอัตราการตายสำหรับอหิวาตกโรค (จากปี 1849) และเปรียบเทียบกับระดับความสูงเหนือแม่น้ำเทมส์ การติดต่อกันระหว่างตัวแปรเหล่านั้นน่าประทับใจและเกือบจะสมบูรณ์แบบตามการคาดการณ์จากทฤษฎี miasma ดู Langmuir AD การตรวจสอบแบคทีเรีย 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ) บทความนี้ตั้งข้อสังเกตว่าแม้ในช่วงเวลาแห่งการเสียชีวิตของดร. สโนว์ในปี 1858 ทฤษฎีของเขาก็คือ
whuber

1
ขอบคุณมากสำหรับการอ้างอิงเหล่านั้น @whuber โดยวิธีการดูแลจัดการผมทราบบทความ Langmuir คือการเข้าถึงเปิด
David C. Norris
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.