ฉันจะจำลอง microdata การสำรวจสำมะโนประชากรสำหรับพื้นที่ขนาดเล็กโดยใช้ตัวอย่าง microdata 1% ที่สถิติขนาดใหญ่และมวลรวมในระดับพื้นที่ขนาดเล็กได้อย่างไร


9

ฉันต้องการทำการวิเคราะห์หลายตัวแปรในระดับบุคคลในระดับเล็ก ๆ ของการรวมกลุ่มทางภูมิศาสตร์ (เขตการเก็บรวบรวมสำมะโนประชากรของออสเตรเลีย) เห็นได้ชัดว่าการสำรวจสำมะโนประชากรไม่สามารถหาได้จากการรวมตัวเพียงเล็กน้อยด้วยเหตุผลความเป็นส่วนตัวดังนั้นฉันจึงตรวจสอบทางเลือกอื่น ๆ ตัวแปรที่น่าสนใจเกือบทั้งหมดจัดอยู่ในหมวดหมู่ ฉันมีสองชุดข้อมูลที่การกำจัดของฉัน:

  • ตัวอย่างการสำรวจสำมะโนประชากร 1% นั้นมีอยู่ในระดับที่สูงกว่าของการรวมตัวเชิงพื้นที่ (พื้นที่ที่มีประชากรประมาณ 190,000 คนและการแยกเชิงพื้นที่ขนาดใหญ่ของประชากร

  • ตารางความถี่สำหรับตัวแปรที่ฉันสนใจในระดับพื้นที่เล็ก ๆ (500 พื้นที่เล็ก ๆ หมายถึงป๊อป = 385, sd = 319, มัธยฐาน = 355)

ฉันจะใช้ชุดข้อมูลทั้งสองนี้เพื่อจำลองการกระจายของประชากรในระดับพื้นที่ขนาดเล็กที่ใกล้เคียงกับประชากรจริงของพื้นที่ขนาดเล็กที่สุดได้อย่างไร

ฉันขอขอบคุณที่อาจมีวิธีการประจำในการทำเช่นนี้; ถ้าเป็นเช่นนั้นตัวชี้ไปยังตำราหรือบทความในวารสารที่เกี่ยวข้องจะได้รับการชื่นชมอย่างมากมาย


อาจเกี่ยวข้อง (ฉันมีปัญหาที่คล้ายกัน): stats.stackexchange.com/questions/14399/..การสุ่มตัวอย่างกิ๊บส์อาจเป็นสิ่งที่ต้องการที่นี่
mzuba

คุณอาจต้องการถามคำถามของคุณในรายชื่อผู้รับจดหมาย SRMSNET ของ American Statistics Association หากคุณอยู่ในออสเตรเลียฉันจะติดต่อ Ray Chambers - ฉันคิดว่าไม่มีใครรู้ SAE ดีกว่าเขาในซีกโลกใต้ :)
StasK

ปัญหานี้เกี่ยวข้องอย่างใกล้ชิดกับ "การทำแผนที่ dasymetric"
whuber

1
ฉันเห็นด้วยกับ @whuber และการทำแผนที่แบบ dasymetric อาจเป็นที่สนใจที่จะระบุว่าเนื้อหาเป็นเช่นเดียวกัน น่าเสียดายที่ส่วนใหญ่แยกจากวรรณกรรมการอนุมานทางนิเวศวิทยาที่ฉันอ้างถึงในคำตอบของฉัน (ฉันไม่ต้องการที่จะเพิ่มจำนวนวรรณกรรมมากขึ้นอีก!) คุณคิดว่า fmark คืออะไร?
Andy W

1
เทคนิคการทำแผนที่แบบ dasymetric บางส่วนได้เริ่มใช้ข้อมูลเสริมเพื่อพยายามแก้ไขข้อมูลในพื้นที่ขนาดเล็ก เป้าหมายของการอนุมานเชิงนิเวศน์และการทำแผนที่ dasymetric นั้นแตกต่างกันบ้าง (ค่อนข้างคล้ายกับความแตกต่างระหว่างการทำนาย / การพยากรณ์และการอนุมาน) ฉันจะเขียนโพสต์อื่นในแหล่งข้อมูลเหล่านั้นที่ฉันได้รวบรวมไว้ซึ่งฉันคิดว่าน่าจะเป็นที่สนใจเช่นกัน น่าเสียดายที่ฉันไม่สามารถให้คำแนะนำที่เป็นประโยชน์ได้มากไปกว่าการอ้างอิงวรรณกรรมจำนวนมาก มันเป็นหัวข้อร่วมสมัยที่ได้รับความนิยมและหวังว่าคุณจะสามารถมีส่วนร่วมได้!
Andy W

คำตอบ:


5

การทำแผนที่แบบ Dasymetric เน้นไปที่การประมาณค่าประชากรในพื้นที่ขนาดเล็กกว่าที่มีอยู่ในข้อมูลที่เผยแพร่ในปัจจุบัน (ดูคำถามนี้สำหรับโฮสต์ของการอ้างอิงที่มีประโยชน์ในหัวข้อ) บ่อยครั้งสิ่งนี้ทำโดยการระบุพื้นที่ (ตามลักษณะของที่ดิน) ซึ่งเห็นได้ชัดว่าไม่มีประชากรอยู่และจากนั้นทำการประเมินความหนาแน่นของประชากรอีกครั้ง (ommitting พื้นที่เหล่านั้น) ตัวอย่างอาจเป็นไปได้หากมีแหล่งน้ำในเมืองอีกแห่งหนึ่งอาจเป็นได้หากคุณระบุผืนที่ดินอุตสาหกรรมที่ไม่สามารถมีประชากรอาศัยอยู่ได้ แนวทางล่าสุดในการทำแผนที่ dasymetric รวมข้อมูลเสริมอื่น ๆ ในกรอบความน่าจะเป็นเพื่อจัดสรรการประมาณประชากร (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011)

ตอนนี้มันง่ายที่จะเห็นความสัมพันธ์กับคำถามของคุณในมือ คุณต้องการประมาณการประชากรของพื้นที่เล็ก ๆ แต่ก็ควรมีความชัดเจนว่ามันอาจจะขาดเป้าหมายของคุณ คุณไม่เพียงต้องการข้อมูลประชากรเท่านั้น แต่ยังมีคุณลักษณะของประชากรเหล่านั้นด้วย หนึ่งในเงื่อนไขที่ใช้อธิบายสถานการณ์นี้คือการเปลี่ยนแปลงของปัญหาการสนับสนุน (Cressie, 1996; Gotway & Young, 2002) การยืมจากวรรณคดีเชิงภูมิศาสตร์ที่เราพยายามทำนายลักษณะบางอย่างในพื้นที่กว้างจากตัวอย่างจุดงานล่าสุดได้พยายามที่จะทำการสอดแทรกข้อมูลที่เป็นข้อมูลไปยังโซนเป้าหมายที่แตกต่างกัน งานส่วนใหญ่ของPierre Goovaertsมุ่งเน้นไปที่วิธีการแบบพื้นที่ต่อจุดเช่นบทความล่าสุดในวารสารการวิเคราะห์ทางภูมิศาสตร์ มีตัวอย่างหลายวิธีที่ใช้เนื้อหาวิชาที่แตกต่างกัน (Haining et al., 2010) และหนึ่งในแอพพลิเคชั่นที่ฉันโปรดปรานในบทความนี้ (Young et al., 2009)

สิ่งที่ฉันอ้างถึงไม่ควรถูกมองว่าเป็นยาครอบจักรวาลสำหรับปัญหาแม้ว่า ในที่สุดหลายประเด็นเดียวกันกับการอนุมานทางนิเวศวิทยาและอคติรวมรวมนำไปใช้กับเป้าหมายของการแก้ไข areal เช่นกัน ความสัมพันธ์ระหว่างข้อมูลระดับจุลภาคนั้นหายไปในกระบวนการรวมและเทคนิคการแก้ไขเช่นนั้นจะไม่สามารถกู้คืนได้ กระบวนการที่ข้อมูลถูกสอดแทรกเชิงประจักษ์ (ผ่านการประมาณค่าความแปรปรวนของข้อมูลระดับรวม) มักจะเต็มไปด้วยขั้นตอนการเฉพาะกิจซึ่งควรทำให้กระบวนการเป็นที่น่าสงสัย (Goovaerts, 2008)

น่าเสียดายที่ฉันโพสต์สิ่งนี้ในคำตอบที่แยกต่างหากเนื่องจากวรรณคดีการอนุมานเชิงนิเวศน์และวรรณกรรมเกี่ยวกับการทำแผนที่ dasymetric และ kriging แบบจุดต่อจุดนั้นไม่ทับซ้อนกัน แม้ว่าวรรณกรรมในการอนุมานทางนิเวศวิทยามีความหมายหลายอย่างสำหรับเทคนิคเหล่านี้ ไม่เพียง แต่เทคนิคการแก้ไขจะขึ้นอยู่กับการรวมตัวของอคติ แต่เทคนิค dasymetric ที่ชาญฉลาด (ซึ่งใช้ข้อมูลรวมเพื่อให้พอดีกับแบบจำลองเพื่อทำนายพื้นที่ขนาดเล็ก) น่าจะมีอคติต่อการรวมตัว ความรู้เกี่ยวกับสถานการณ์ที่เกิดความลำเอียงในการรวมตัวควรได้รับความกระจ่างเกี่ยวกับสถานการณ์ที่การแก้ไขแบบมหันต์และการทำแผนที่แบบ dasymetric จะล้มเหลวเป็นส่วนใหญ่


อ้างอิง


ขอบคุณสำหรับจุดเริ่มต้นที่มีประโยชน์ในวรรณคดีร่วมสมัย - ฉันไม่ได้ตระหนักถึงวิธีการ dasymetric ที่ทำมากกว่าความหนาแน่นของประชากรที่มีน้ำหนักมากดังนั้นฉันจะพิจารณาเรื่องนี้อย่างกระตือรือร้น
fmark

5

ผลงานของ Gary King โดยเฉพาะในหนังสือของเขา "วิธีแก้ปัญหาการอนุมานเชิงนิเวศวิทยา" (มีอยู่สองบทแรกที่นี่ ) น่าสนใจ (รวมถึงซอฟต์แวร์ที่ใช้ประกอบการอนุมานเชิงนิเวศ) คิงแสดงในหนังสือของเขาว่าการประมาณการของโมเดลการถดถอยโดยใช้ข้อมูลรวมสามารถปรับปรุงได้อย่างไรโดยการตรวจสอบขอบเขตที่เป็นไปได้ของการจัดกลุ่มระดับล่างที่มีพื้นฐานมาจากข้อมูลรวมที่มีอยู่ ความจริงที่ว่าข้อมูลของคุณส่วนใหญ่เป็นหมวดหมู่การจัดกลุ่มทำให้คล้อยตามเทคนิคนี้ (แม้ว่าจะไม่ถูกหลอกก็ไม่ได้เป็นวิธีแก้ปัญหารถโดยสารมากเท่าที่คุณอาจคาดหวังให้ชื่อ!) งานปัจจุบันมากขึ้นมีอยู่ แต่หนังสือของ King เป็น IMO ที่ดีที่สุดในการเริ่มต้น

ความเป็นไปได้อีกอย่างก็คือเพื่อแสดงขอบเขตที่เป็นไปได้ของข้อมูลเอง (ในแผนที่หรือกราฟ) ตัวอย่างเช่นคุณอาจมีการรายงานการกระจายเพศในระดับรวม (พูดว่ามีผู้ชาย 5,000 คนและผู้หญิง 5,000 คน) และคุณรู้ว่าระดับรวมนี้ครอบคลุม 2 พื้นที่เล็ก ๆ ที่แตกต่างกันของประชากร 9,000 และ 1,000 คน จากนั้นคุณสามารถแสดงสิ่งนี้เป็นตารางฉุกเฉินของแบบฟอร์ม

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

แม้ว่าคุณจะไม่มีข้อมูลในเซลล์สำหรับการรวมในระดับที่ต่ำกว่าจากผลรวมส่วนล่างเราสามารถสร้างค่าต่ำสุดหรือสูงสุดที่เป็นไปได้สำหรับแต่ละเซลล์ ดังนั้นในตัวอย่างนี้Men X Unit1เซลล์สามารถรับค่าได้ระหว่าง 4,000 และ 5,000 เท่านั้น (ทุกครั้งที่การกระจายส่วนเพิ่มนั้นไม่สม่ำเสมอยิ่งช่วงเวลาของค่าที่เป็นไปได้ที่เซลล์จะใช้มีขนาดเล็กลง) เห็นได้ชัดว่าการ จำกัด ขอบเขตของตารางนั้นยากกว่าที่ฉันคาดไว้ ( Dobra & Fienberg, 2000 ) แต่ดูเหมือนว่ามีฟังก์ชั่นการใช้งานอยู่ในeiPackห้องสมุดใน R ( Lau et al., 2007, p. 43 )

การวิเคราะห์หลายตัวแปรพร้อมข้อมูลระดับรวมนั้นเป็นเรื่องยากเนื่องจากอคติการรวมเกิดขึ้นอย่างหลีกเลี่ยงไม่ได้กับข้อมูลประเภทนี้ (โดยสังเขปฉันจะอธิบายอคติรวมเนื่องจากกระบวนการสร้างข้อมูลระดับบุคคลที่แตกต่างกันจำนวนมากอาจส่งผลให้เกิดความสัมพันธ์ระดับรวม) บทความในการ ทบทวนทางสังคมวิทยาของอเมริกาในปี 1970 มีการอ้างอิงที่ชื่นชอบสำหรับหัวข้อ (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974) ถึงแม้ว่าแหล่งที่ยอมรับในหัวข้ออาจจะ (Fotheringham และ Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . ฉันคิดว่าการเป็นตัวแทนขอบเขตที่เป็นไปได้ของข้อมูลที่อาจนำมาใช้อาจเป็นสิ่งล่อลวงแม้ว่าคุณจะถูกขัดขวางโดยข้อ จำกัด ของข้อมูลรวมสำหรับการดำเนินการวิเคราะห์หลายตัวแปร มันไม่ได้หยุดยั้งไม่ให้ใครทำในสังคมศาสตร์ แต่อย่างใด (ดีขึ้นหรือแย่ลง!)

โปรดทราบ (ตามที่ชาร์ลีกล่าวไว้ในความคิดเห็น) ว่า "การแก้ปัญหา" ของกษัตริย์ได้รับจำนวนเงินที่ถูกต้องของการอักเสบ (Anselin & Cho, 2002; Freedman et al., 1998) แม้ว่า critisicms เหล่านี้จะไม่พูดเกี่ยวกับคณิตศาสตร์ของวิธีการของ King แต่ก็เกี่ยวกับสถานการณ์ที่วิธีการของ King ยังคงล้มเหลวในการบัญชีสำหรับอคติรวม (และฉันเห็นด้วยกับ Freedman และ Anselin ในสถานการณ์ที่ข้อมูลสำหรับ สังคมศาสตร์ยังคงสงสัยว่าเป็นเรื่องธรรมดามากกว่าที่เป็นไปตามสมมติฐานของกษัตริย์) นี่คือเหตุผลส่วนหนึ่งที่ฉันขอแนะนำให้ตรวจสอบขอบเขต (ไม่มีอะไรผิดปกติกับสิ่งนั้น) แต่การอ้างถึงความสัมพันธ์ในระดับบุคคลจากข้อมูลดังกล่าวนั้นทำให้เกิดความเชื่อมั่นที่ไม่ยุติธรรมในสถานการณ์ส่วนใหญ่ในที่สุด


อ้างอิง


โปรดทราบว่าคนอื่น ๆ มีความสำคัญอย่างยิ่งต่อแนวทางการแก้ไขปัญหาความผิดพลาดทางนิเวศวิทยาของกษัตริย์ เดวิดฟรีแมนเป็นตัวอย่างที่น่าสังเกต นี่คือคำตอบที่ Freedman และผู้เขียนร่วมของเขามอบให้กับหนังสือของ King ที่อ้างถึงข้างต้น: citeseerx.ist.psu.edu/viewdoc/ ......แน่นอน King มีคำตอบและ Freedman et al มีการตอบสนองต่อการตอบสนองต่อการตอบสนอง ... ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าคุณกำลังพยายามทำอะไรและมีข้อมูลอะไรบ้าง แต่โดยทั่วไปฉันมักสงสัยเกี่ยวกับการวิเคราะห์เชิงอนุมานเชิงนิเวศ
Charlie

ใช่ @ Charlie ฉันเห็นด้วย (และโดยเฉพาะอย่างยิ่งฉันเพลิดเพลินไปกับการฟรีดแมนในเรื่องทั่วไป) นั่นเป็นเหตุผลส่วนหนึ่งที่ฉันชี้ไปที่วรรณกรรมทั่วไปเรื่องอคติการรวมตัวที่ท้ายบทความของฉัน ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดยคำสั่ง "ฉันไม่สามารถเข้าใจสิ่งที่คุณกำลังพยายามที่จะทำและสิ่งที่ข้อมูลที่คุณมี แต่โดยทั่วไปฉันสงสัยมากของการวิเคราะห์การอนุมานประเภทนิเวศวิทยา" คือสิ่งนี้ใน เกี่ยวกับพระมหากษัตริย์และเป็นอิสระทั้งบ่นเกี่ยวกับการไม่เปิดเผยข้อมูล?
Andy W

@Andy เทคนิคนี้เหมือนกับนักเศรษฐศาสตร์ที่รู้ว่าเป็นการระบุบางส่วนหรือไม่( springer.com/statistics/statistical+theory+and+methods/book/… )?
StasK

@ Andy, No, ขอโทษสำหรับความกำกวม จริง ๆ แล้วฉันพูดกับ OP หากเขามีตารางความถี่ในพื้นที่เล็ก ๆ และต้องการรับสถิติในระดับพื้นที่เล็ก ๆ สิ่งที่ขาดหายไปคืออะไร ฉันเดาว่าเขาต้องมีระยะขอบ แต่ไม่ใช่เนื้อหาของเซลล์ตามที่คุณแนะนำในโพสต์ของคุณ
Charlie

@StasK ฉันไม่รู้ ฉันจะตรวจสอบเพื่อดูว่า King ทำการอ้างอิงใด ๆ กับ Manski ในสัปดาห์นี้เมื่อฉันมีสิทธิ์เข้าถึงหนังสือหรือไม่ มีความเป็นไปได้ที่จะทับซ้อนกันบางอย่างจากการอนุมานทางนิเวศวิทยาในบทคัดย่อ แหล่งที่มา (ฟรี) ที่มีศักยภาพในการสำรวจความสัมพันธ์ระหว่างทั้งสองอาจเป็นผู้อ่าน King แก้ไขใน "วิธีการใหม่ในการอนุมานเชิงนิเวศน์" ( โพสต์อย่างครบถ้วนในเว็บไซต์ของเขา)
Andy W

2

ฉันไม่แน่ใจว่ามีคำตอบที่ชัดเจนในวรรณคดีสำหรับเรื่องนี้เนื่องจากการค้นหาของ Googleให้การอ้างอิงที่ใช้งานได้สามประการในการประมาณพื้นที่ขนาดเล็กหลายตัวแปร Pfeffermann (2002)กล่าวถึงตัวแปรตอบกลับแบบไม่ต่อเนื่องในส่วนที่ 4 ของบทความ แต่สิ่งเหล่านี้จะเป็นแบบจำลองที่ไม่แปรเปลี่ยน แน่นอนว่าด้วยวิธีการแบบเบย์แบบลำดับชั้น ( Rao 2003, Ch. 10 ) คุณสามารถทำสิ่งมหัศจรรย์ได้ แต่ถ้าในท้ายที่สุดคุณพบว่าตัวเองเป็นเพียงการเลียนแบบนักบวชของคุณ (เพราะคุณมีข้อมูลน้อยมาก) นี่จะแย่มาก ผลลัพธ์ของการฝึกจำลองสถานการณ์ของคุณ นอกจากนี้ Rao จะจัดการกับตัวแปรต่อเนื่องเท่านั้น

ฉันเดาว่าความท้าทายที่ยิ่งใหญ่ที่สุดคือการสลายตัวของเมทริกซ์ความแปรปรวนร่วมเป็นองค์ประกอบระหว่างและภายในพื้นที่ขนาดเล็ก ด้วยตัวอย่าง 1% คุณจะมีการสังเกตเพียง 3 ครั้งจาก SAE ของคุณดังนั้นจึงอาจเป็นเรื่องยากที่จะได้รับการประมาณค่าที่มั่นคงขององค์ประกอบภายใน

ถ้าฉันอยู่ในรองเท้าของคุณฉันจะลองใช้แบบจำลองหลายตัวแปรของ Pfeffermann ด้วยการสุ่มหลายตัวแปรในพื้นที่เล็ก ๆ คุณอาจท้ายด้วยรูปแบบเบย์แบบลำดับชั้นสำหรับสิ่งนี้หากไม่มีงานออกแบบ

อัพเดท (เพื่อตอบความเห็นของแอนดี้ต่อคำตอบนี้): วิธีบูตสแตรปสำหรับการประมาณพื้นที่ขนาดเล็ก ( Lahiri 2003 ) สร้างประชากรที่น่าเชื่อถือจากการศึกษาเป็นพิเศษ ในขณะที่จุดเน้นของการฝึกบู๊ตสแตรปคือการประมาณความแปรปรวนของการประมาณพื้นที่ขนาดเล็กขั้นตอนควรเป็นที่สนใจและเกี่ยวข้องกับปัญหาที่โพสต์


ฉันจะไม่ประเมินสถานะของวรรณกรรมจากการค้นหาโดย Google ฉันไม่แน่ใจว่าการประมาณพื้นที่ขนาดเล็กเป็นสิ่งที่ผู้เขียนจะมองหาในตัวอย่างนี้ เท่าที่ฉันเข้าใจวรรณกรรมนั้นมุ่งเน้นไปที่การทำนายลักษณะในพื้นที่เล็ก ๆ ( Kriegler & Berk, 2010 ) หรือการประมาณค่าพารามิเตอร์ในแบบจำลองหลายระดับตามจำนวนตัวอย่างน้อยต่อหน่วยรวม
Andy W

ฉันไม่แน่ใจว่าการประมาณพื้นที่ขนาดเล็กเป็นสิ่งที่ฉันต้องการทำ ตามที่ฉันเข้าใจแล้วการประมาณการพื้นที่ขนาดเล็กพยายามที่จะไปจากตัวอย่างเล็ก ๆ น้อย ๆ ในพื้นที่ขนาดเล็กเพื่อรวมสถิติสรุป ฉันกำลังค้นหาสิ่งที่ตรงกันข้าม (เพื่อไปจากการกระจายตัวของประชากรในพื้นที่ขนาดใหญ่และสถิติสรุปรวมของพื้นที่ขนาดเล็กไปยังประชากรในพื้นที่จำลองขนาดเล็ก) Lahiri 2003 ดูเหมือนว่าเป็นจุดเริ่มต้นที่ดีที่นี่
fmark
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.