ข้อมูลความหลากหลายของการสำรวจชุมชนอเมริกันใหม่จะมีผลต่อระยะขอบของข้อผิดพลาดอย่างไร


10

ความเป็นมา: ปัจจุบันองค์กรของฉันเปรียบเทียบสถิติความหลากหลายของพนักงาน (เช่น% คนที่มีความพิการผู้หญิง% ทหารผ่านศึก%) กับความพร้อมของกำลังแรงงานทั้งหมดสำหรับกลุ่มเหล่านั้นจากการสำรวจชุมชนอเมริกัน (โครงการสำรวจโดยสำนักสำรวจสำมะโนประชากรของสหรัฐ) นี่คือมาตรฐานที่ไม่ถูกต้องเนื่องจากเรามีงานที่เฉพาะเจาะจงมากซึ่งมีข้อมูลประชากรแตกต่างจากกำลังแรงงานโดยรวม พูดเช่นว่าองค์กรของฉันส่วนใหญ่เป็นวิศวกร วิศวกรรมเป็นเพียงผู้หญิงประมาณ 20% ในรัฐของฉัน หากเราเปรียบเทียบตัวเองกับเกณฑ์มาตรฐานแรงงานโดยรวมซึ่งมีลักษณะเหมือนผู้หญิง 50% ก็ส่งผลให้เกิดความตื่นตระหนกว่า“ เรามีผู้หญิงเพียง 20% นี่เป็นหายนะ! เมื่อจริง 20% คือสิ่งที่เราควรคาดหวังเพราะนั่นคือลักษณะของแรงงาน

เป้าหมายของฉัน: สิ่งที่ฉันต้องการจะทำคือใช้ข้อมูลอาชีพการสำรวจชุมชนชาวอเมริกัน (ตามหมวดหมู่ความหลากหลาย) และปรับน้ำหนักใหม่ตามองค์ประกอบของงานในธุรกิจของฉัน นี่คือชุดข้อมูลตัวอย่างสำหรับคนงานสังคมและบริการชุมชน ฉันต้องการเพิ่มรหัสงานเหล่านี้ไว้ด้วยกัน (เพราะทางม้าลายของเราคือกลุ่มงานไม่ใช่รหัสงานเฉพาะ) จากนั้นฉันต้องการให้น้ำหนักเกณฑ์มาตรฐานนั้นตามจำนวนคนที่เรามีในหมวดนั้น (เช่น 3,000 Social and พนักงานบริการชุมชน) จากนั้นฉันต้องการทำเช่นเดียวกันกับกลุ่มงานอื่น ๆ ทั้งหมดเพิ่มหมายเลขเหล่านั้นเข้าด้วยกันและหารด้วยจำนวนพนักงานทั้งหมดของเรา สิ่งนี้จะทำให้ฉันมีมาตรการวัดความหลากหลายใหม่อีกครั้ง (เช่นจาก 6% คนที่มีความพิการถึง 2% คนที่มีความพิการ)

คำถามของฉัน: ฉันจะปรับระยะขอบของข้อผิดพลาดให้สอดคล้องกับเกณฑ์มาตรฐานสุดท้ายได้อย่างไร ฉันไม่มีชุดข้อมูลสำมะโนดิบ (ชัดเจน) แต่คุณสามารถดูระยะขอบของข้อผิดพลาดสำหรับแต่ละหมายเลขในลิงก์ที่ฉันให้ไว้โดยการสลับฟิลด์ "ประมาณ" เป็น "ระยะขอบของข้อผิดพลาด" ที่ด้านบนของตาราง เพื่อนร่วมงานคนอื่นของฉันที่ทำงานกับข้อมูลนี้ตั้งใจที่จะเพิกเฉยต่อข้อผิดพลาด แต่ฉันกังวลว่าเรากำลังสร้างมาตรฐานที่ไม่มีความหมายทางสถิติสำหรับตัวเราเอง ข้อมูลนี้ยังคงใช้งานได้หลังจากการจัดการที่อธิบายไว้ข้างต้นหรือไม่


3
อย่าทำให้น้ำหนัก ACS ซ้ำ - เป็นผลิตภัณฑ์ที่ละเอียดอ่อนและมีความซับซ้อนสูงและด้วยความเคารพอย่างสูงฉันไม่คิดว่าคุณเป็นนักสถิติที่ดีเหมือนสำนักสำรวจสำมะโนประชากรโดยรวม หากคุณได้คำจำกัดความของงานที่สอดคล้องกับงานของคุณในACSหรือCPSสำหรับการเปรียบเทียบทั่วประเทศการเปรียบเทียบแอปเปิ้ลกับแอปเปิ้ลจะเป็นการคำนวณจำนวนหมวดหมู่ "ความหลากหลาย" ที่คาดหวังตาม ACS สำหรับธุรกิจของคุณ เป้าหมาย
StasK

2
Stas ฉันเห็นด้วยกับคุณ แต่ตามที่ฉันระบุด้านล่างนี่ไม่ได้เป็นการทำให้หนักขึ้นซ้ำของ ACS
Steve Samuels

ในสถิติการสำรวจ "การปรับน้ำหนักซ้ำ" จะหมายถึงการเปลี่ยนแปลงน้ำหนักเดิมของแบบสำรวจ ตัวอย่างนี้จะเป็นการโพสต์ - การแบ่งชั้นการสุ่มตัวอย่าง raking หรือการสอบเทียบเพื่อให้แน่ใจว่ามีการแจกแจงการกระจายตัวอย่างการจับคู่ตัวอย่าง reweighted นอกเขตจากการสำรวจสำมะโนประชากรหรือ ACS ขั้นตอน Danica ระบุว่าไม่ได้สัมผัสกับน้ำหนักของ ACS
Steve Samuels

สิ่งที่อาจช่วยได้คือการเขียนจำนวนประชากรที่แน่นอนที่คุณต้องการทราบ ACS มีการทำซ้ำน้ำหนักด้วยหรือไม่ สิ่งเหล่านี้อาจช่วยในการประมาณค่าความแปรปรวน
ความน่าจะเป็นที่เป็นไปได้

คำตอบ:


8

อัปเดต 2014-01-15

ฉันรู้ว่าฉันไม่ได้ตอบคำถามดั้งเดิมของ Danica ว่าขอบของข้อผิดพลาดสำหรับสัดส่วนที่ปรับทางอ้อมนั้นจะใหญ่กว่าหรือเล็กกว่าขอบของข้อผิดพลาดสำหรับอัตราเดียวกันใน ACS คำตอบคือ: หากสัดส่วนหมวดหมู่ บริษัท ไม่แตกต่างกันอย่างมากจากสัดส่วน ACS ของรัฐขอบของข้อผิดพลาดที่ระบุด้านล่างจะเล็กกว่าระยะขอบ ACS ของข้อผิดพลาด เหตุผล: อัตราทางอ้อมถือว่าบุคคลประเภทงานขององค์กรนับ (หรือสัดส่วนที่สัมพันธ์กัน) เป็นตัวเลขคงที่ การประมาณสัดส่วน ACS ที่ปิดใช้งานนั้นต้องการผลของการประมาณสัดส่วนเหล่านั้นและระยะขอบของข้อผิดพลาดจะเพิ่มขึ้นเพื่อสะท้อนสิ่งนี้

เพื่อแสดงให้เห็นว่าเขียนอัตราคนพิการเป็น:

P^adj=ninpi^

p^ii

ในทางตรงกันข้ามอัตราโดยประมาณของ ACS มีผล:

P^acs=(NiN)^pi^

NiNNi/Ni

Ni/Npi

SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001n2/n=0.999SE(P^adj)=0.079

อัปเดต 2014-01-14

คำตอบสั้น ๆ

ในความคิดของฉันมันจะไม่รับผิดชอบที่จะนำเสนอสถิติดังกล่าวโดยไม่ต้อง CI หรือขอบของข้อผิดพลาด (ครึ่งยาว CI) ในการคำนวณเหล่านี้คุณจะต้องดาวน์โหลดและวิเคราะห์ตัวอย่าง Microdata การใช้งานสาธารณะของ ACS (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ )

คำตอบที่ยาว

นี่ไม่ใช่การลดน้ำหนักของ ACS จริงๆ มันเป็นรุ่นของมาตรฐานทางอ้อมขั้นตอนมาตรฐานในระบาดวิทยา (google หรือดูข้อความ epi ใด ๆ ) ในกรณีนี้ระบุอัตราความพิการงาน ACS (หมวดหมู่) โดยการนับจำนวนพนักงานหมวดหมู่งานขององค์กร สิ่งนี้จะคำนวณจำนวนคนพิการที่คาดหวังในองค์กรEซึ่งสามารถเปรียบเทียบกับจำนวนที่สังเกตOได้ R= (O/E)ตัวชี้วัดตามปกติสำหรับการเปรียบเทียบเป็นอัตราส่วนมาตรฐาน (คำปกติคือ "SMR" สำหรับ "อัตราส่วนการตายมาตรฐาน" แต่ที่นี่ "ผลลัพธ์" คือความพิการ) Rยังเป็นอัตราส่วนของอัตราความพิการที่สังเกตได้(O/n)และอัตรามาตรฐานทางอ้อม(E/n)ซึ่งnเป็นจำนวนพนักงานขององค์กร

ในกรณีนี้ดูเหมือนว่าจะมีเพียง CI สำหรับEหรือE/nจะต้องดังนั้นฉันจะเริ่มต้นด้วย:

ถ้า

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

แล้วก็

 E = sum (n_i p_i)

ความแปรปรวนของEคือ:

 var(E) = nn' V nn

โดยที่nnเวกเตอร์คอลัมน์ของหมวดหมู่องค์กรนับVเป็นเมทริกซ์ความแปรปรวนร่วมและความแปรปรวนร่วมโดยประมาณของอัตราความพิการหมวดหมู่ ACS

นอกจากนี้นิด, และse(E) = sqrt(var(E))se(E/n) = se(E)/n

และ 90% CI สำหรับ E คือ

  E ± 1.645 SE(E)

หารด้วยnที่จะได้รับ CI E/nสำหรับ

ในการประเมินvar(E)คุณจะต้องดาวน์โหลดและวิเคราะห์ข้อมูลตัวอย่าง Microdata (PUMS) ของ ACS สาธารณะ ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ )

ฉันพูดถึงกระบวนการคำนวณvar(E)ใน Stata เท่านั้น อย่างที่ฉันไม่รู้ว่ามีให้คุณไหมฉันจะเลื่อนรายละเอียดออกไป อย่างไรก็ตามใครบางคนที่มีความรู้เกี่ยวกับความสามารถในการสำรวจของ R หรือ SAS (อาจจะ) สามารถให้รหัสจากสมการข้างต้น

Confidence Interval สำหรับอัตราส่วน R

ช่วงความเชื่อมั่นสำหรับRตามปกติจะขึ้นอยู่กับสมมติฐานปัวซองสำหรับOแต่สมมติฐานนี้อาจไม่ถูกต้อง

เราสามารถพิจารณาOและEมีความเป็นอิสระได้

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))สามารถคำนวณได้เป็นขั้นตอนหนึ่ง Stata var(E)มากขึ้นหลังจากการคำนวณของ

ภายใต้สมมติฐานความเป็นอิสระของปัวซอง:

 var(log O) ~ 1/E(O).

โปรแกรมอย่างเช่น Stata สามารถพอดีบอกว่าแบบจำลองทวินามลบหรือโมเดลเชิงเส้นทั่วไปและให้คำแปรปรวนที่แม่นยำยิ่งขึ้น

ค่าประมาณ 90% CI สำหรับlog Rคือ

 log R ± 1.645 sqrt(var(log R))

และจุดปลายสามารถยกกำลังให้รับ CI Rได้


log(R)R

นี่ไม่ใช่กรณีของฉันที่เหมาะสมในการทา แต่ฉันอาจผิด คุณจะแนะนำอะไร
Steve Samuels

วิธีการบางอย่างที่กล่าวถึงใน CV รวมถึงการเพิ่ม CI, วิธีการเดลต้าและการทำโปรไฟล์ฟังก์ชั่นความน่าจะเป็น
whuber

ขอบคุณสำหรับคำตอบ. เป็นไปได้หรือไม่ที่จะดึงข้อมูล PUMS ด้วย R ฉันไม่มี SAS ฉันดึงข้อมูล PUMS ก่อนที่จะใช้เครื่องมือ DataFerret ที่จัดทำโดยการสำรวจสำมะโนประชากร แต่ฉันไม่แน่ใจว่านั่นให้อะไรฉันที่ฉันสามารถจัดการใน Excel ซึ่งเป็นสิ่งที่ฉันมี ฉันสามารถติดตั้ง R ได้อย่างชัดเจน แต่ไม่มีประสบการณ์ใด ๆ กับมัน
DanicaE

1
ยินดีต้อนรับ Danica หากคำตอบนี้มีประโยชน์โปรดกดเครื่องหมายถูกเพื่อยอมรับมันอย่างเป็นทางการ แจ้งให้ทราบว่าฉันปรับปรุงคำตอบ ฉันขอแนะนำให้คุณแสดงระยะขอบ ACS ของข้อผิดพลาดเป็นสิ่งทดแทนที่อนุรักษ์นิยมสำหรับสิ่งที่เหมาะสม
Steve Samuels

4

FWIW มีแหล่งข้อมูลที่ดีสำหรับ ACS และเข้าถึง PUMS ที่นี่ ( http://www.asdfree.com/2012/12/12/analyze-american-community-survey-acs.html )

นอกจากนี้ยังมีแพ็คเกจสำหรับจัดการข้อมูล ACS บน CRAN - เรียกโดยธรรมชาติว่า ACS - ซึ่งฉันพบว่ามีประโยชน์จริง ๆ สำหรับการทำสิ่งผิดปกติด้วยข้อมูล ACS นี่เป็นขั้นตอนที่ดีสำหรับแพคเกจ (น่าเสียดายที่เอกสารไม่ง่ายอย่างยิ่ง) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf


3

การเพิ่มลิงก์http://asdfree.comในคำตอบของ @ pricele2 เพื่อแก้ปัญหานี้ด้วยซอฟต์แวร์ฟรีฉันขอแนะนำให้คุณทำตามขั้นตอนเหล่านี้:

(1) ( ทำงานหนักสองชั่วโมง ) ทำความคุ้นเคยกับภาษา r ดูวิดีโอ 50 รายการแรก ๆ ละสองนาที

http://twotorials.com/

(2) (ทำตามคำแนะนำง่าย ๆ หนึ่งชั่วโมง ) ติดตั้ง monetdb บนคอมพิวเตอร์ของคุณ

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( สามสิบนาทีของคำแนะนำต่อไปนี้ + ดาวน์โหลดข้ามคืน ) ดาวน์โหลด acs pums บนคอมพิวเตอร์ของคุณ รับปีที่คุณต้องการเท่านั้น

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( สี่ชั่วโมงของการเรียนรู้และการเขียนโปรแกรมและตรวจสอบงานของคุณ ) ทำการถอดรหัสตัวแปรที่คุณต้องทำการถอดรหัสใหม่ตามข้อกำหนดที่คุณต้องการ

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( การวิเคราะห์จริงสองชั่วโมง ) เรียกใช้คำสั่งที่แน่นอนที่คุณค้นหาจับข้อผิดพลาดมาตรฐานและคำนวณช่วงความมั่นใจ

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( การเขียนโปรแกรมสี่ชั่วโมง ) หากคุณต้องการตัวประมาณอัตราส่วนให้ทำตามตัวอย่างการประมาณอัตราส่วน (พร้อมข้อผิดพลาดมาตรฐานที่ปรับแบบสำรวจได้อย่างถูกต้อง) ที่นี่:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


ขอบคุณเหล่านี้เป็นแหล่งข้อมูลที่ยอดเยี่ยม ถ้าคนอื่นมาที่นี่กำลังมองหาข้อมูลนี้บทเรียน R ที่ผมเคยใช้เป็นdatacamp.comและcoursera.org/course/rprog Data Camp เป็นบทเรียนการสอนแบบโต้ตอบที่ยอดเยี่ยม หลักสูตร Coursera นั้นมีความหนักแน่นมากขึ้นเกี่ยวกับทฤษฎี / โครงสร้าง / ชื่อสำหรับสิ่งต่าง ๆ
DanicaE
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.