คุณสามารถขุดข้อมูลได้มากเท่าไหร่?


11

ชื่อ: ก่อนอาจเป็นกึ่งกลางและนามสกุล

ฉันอยากรู้ว่าคุณสามารถขุดข้อมูลได้มากแค่ไหนโดยใช้ชุดข้อมูลที่เปิดเผยต่อสาธารณะ ฉันรู้ว่าคุณสามารถรับสิ่งต่อไปนี้ได้ทุกที่ระหว่างความน่าจะเป็นต่ำ (ขึ้นอยู่กับอินพุต) โดยใช้ข้อมูลการสำรวจสำมะโนประชากรของสหรัฐ: 1) เพศ 2) การแข่งขัน

ตัวอย่างเช่น Facebook ใช้เพื่อค้นหาว่าด้วยความแม่นยำในระดับที่เหมาะสมการกระจายทางเชื้อชาติของผู้ใช้เว็บไซต์ของพวกเขา (https://www.facebook.com/note.php?note_id=205925658858)

มีอะไรอีกบ้างที่สามารถขุดได้? ฉันไม่ได้มองหาสิ่งใดเป็นพิเศษนี่เป็นคำถามปลายเปิดเพื่อระงับความอยากรู้อยากเห็นของฉัน

ตัวอย่างของฉันเฉพาะในสหรัฐอเมริกาดังนั้นเราจะสมมติว่าชื่อนั้นเป็นชื่อของบุคคลที่อยู่ในสหรัฐอเมริกา แต่ถ้ามีคนรู้ว่าชุดข้อมูลที่เปิดเผยต่อสาธารณชนสำหรับประเทศอื่น ๆ ฉันก็เปิดกว้างกว่าเช่นกัน

ฉันไม่แน่ใจว่านี่เป็นสถานที่ที่เหมาะสมสำหรับสิ่งนี้หรือไม่ถ้าไม่ฉันจะขอบคุณถ้ามีคนชี้ให้ฉันไปยังสถานที่ที่เหมาะสมกว่า

ฉันหวังว่านี่เป็นคำถามที่น่าสนใจและนี่คือสถานที่ที่เหมาะสม!


2
สมมุติว่าคุณสามารถหาที่ตั้งทางภูมิศาสตร์ได้เช่นกันถ้าคุณได้ข้อมูลการจับคู่ที่เหมาะสม นอกจากนี้คุณยังสามารถใช้ข้อมูลเกี่ยวกับความนิยมของชื่อเมื่อเวลาผ่านไป (google "baby name wizard") เพื่อทำการอนุมานเกี่ยวกับอายุ ...
Ben Bolker

1
ฉันได้รวมคำถามที่ถ่ายโอนกับสำเนาที่ซ้ำกัน

คำตอบ:


12

นี่ไม่ใช่คำตอบที่จริงจัง แต่ฉันเพิ่งจำบางสิ่งจากหนังสือที่ฉันอ่านเมื่อปีที่แล้ว มีบทหนึ่งในFreakonomics ที่อุทิศให้กับสิ่งที่คุณสามารถบอกได้เกี่ยวกับบุคคลจากชื่อ บทนี้ขึ้นอยู่กับรายงานการวิจัยของผู้เขียนสาเหตุและผลของชื่อสีดำอย่างชัดเจน

ฉันคิดว่าฉันพบข้อความที่ตัดตอนมาหรือสรุปไว้ในบทความนี้

ข้อมูลแสดงให้เห็นว่าโดยเฉลี่ยแล้วคนที่มีชื่อสีดำอย่างชัดเจน - ไม่ว่าจะเป็นผู้หญิงที่ชื่อ Imani หรือชายที่ชื่อ DeShawn จะมีผลชีวิตที่แย่กว่าผู้หญิงที่ชื่อ Molly หรือชายที่ชื่อ Jake แต่ไม่ใช่ความผิดของชื่อของเขาหรือเธอ หากเด็กชายผิวดำสองคน Jake Williams และ DeShawn Williams เกิดในละแวกเดียวกันและอยู่ในสภาพแวดล้อมทางครอบครัวและเศรษฐกิจเดียวกันพวกเขาน่าจะมีผลชีวิตที่คล้ายคลึงกัน แต่ผู้ปกครองที่ชื่อเจคลูกชายของพวกเขาไม่ได้มีแนวโน้มที่จะอาศัยอยู่ในละแวกเดียวกันหรือแบ่งปันสถานการณ์ทางเศรษฐกิจกับผู้ปกครองที่ตั้งชื่อลูกชายของพวกเขาว่าเดอว์น และโดยเฉลี่ยแล้วเด็กผู้ชายที่ชื่อ Jake จะมีแนวโน้มที่จะได้รับเงินมากขึ้นและได้รับการศึกษามากกว่าเด็กชายที่ชื่อ DeShawn DeShawn'


4

จากชื่อทำนายภูมิภาคอายุสถานะผู้อพยพรุ่นแรก จากนามสกุลที่คุณสามารถทำนายตำแหน่งทางภูมิศาสตร์ของผู้มีพระคุณดั้งเดิม สำหรับชื่อเต็มคุณสามารถทำนายสถานะทางสังคมและเศรษฐกิจ (Thurston Howell III)


+1 สำหรับการกล่าวถึงครั้งแรกในเว็บไซต์นี้ของตัวละครเกาะ Gilligan
rolando2

4

เพียงเพิ่มคำแนะนำอื่น ๆ ที่นี่แหล่งข้อมูลที่ใหญ่ที่สุดแห่งหนึ่งสำหรับข้อมูลครอบครัวคือแพของไซต์ลำดับวงศ์ตระกูลที่นั่น ฉันคิดว่าคนตะวันตกส่วนใหญ่น่าจะเป็นสมาชิกครอบครัวบางคนที่อยู่ห่างออกไปหรืออย่างอื่นในบางคนและการรวมใด ๆ นั้นมาพร้อมกับแผนภูมิต้นไม้ครอบครัวที่แนบมาโดยปกติพร้อมด้วยสถานที่รายละเอียดการเกิดและอื่น ๆ

หากคุณจับคู่ข้อมูลนั้นกับกราฟเพื่อนใน Facebook เนื่องจากผู้คนมักจะเพิ่มพี่น้อง / ลูกพี่ลูกน้อง (และพ่อแม่ / ลูก ๆ ในบางครั้ง) จากนั้นใช้ข้อมูลตำแหน่งที่มีบทบาทและไดเรกตอรีเลือกตั้ง และรับข้อมูลจำนวนมากอย่างน่าประหลาดใจ


3

บทสุดท้ายของFreakonomics (2005, Steven D. Levitt และ Stephen J. Dubner) มีการอภิปรายที่น่าสนใจเกี่ยวกับชื่อโดยเฉพาะอย่างยิ่งเมื่อพวกเขาเกี่ยวข้องกับสถานะทางสังคมและเศรษฐกิจ

พวกเขามีรายชื่อแรกที่อาจมีหรือไม่มีความสัมพันธ์ที่ดีกับการวิเคราะห์นามสกุลของ FB พวกเขายังอธิบายถึงวิธีการเปลี่ยนชื่อตัวเลือกด้วยวิธี diachronically (ข้ามเวลา)

ใครจะรู้ - ชื่อการเลือกของผู้ปกครองอาจแม่นยำกว่าสิ่งที่ผู้คนรายงานในการสำรวจสำมะโนประชากร


3

คุณได้รับคำแนะนำที่ดีมากมายด้านบนดังนั้นฉันจะพูดถึงเกร็ดเล็กเกร็ดน้อยที่น่าสนใจ นักศึกษาภาคฤดูร้อน (ตอนนี้เป็นนักวิทยาศาสตร์คอมพิวเตอร์ที่มีชื่อเสียง) ที่ห้องปฏิบัติการวิจัยขององค์กร (ซึ่งจะไม่มีชื่อ) ดูข้อมูลจากสมุดโทรศัพท์ออนไลน์ของ บริษัท ตัวทำนายที่แข็งแกร่งที่สุดคือ ez_ ระบุเกรดการจ่ายต่ำกว่าการค้นพบที่ฉันคิดว่าเขาไม่ได้รับการสนับสนุนให้พูดถึง ...


2

คุณอาจจะรู้ว่า:

  1. อาชีพและประวัติงานที่เป็นไปได้หากมีส่วนร่วมในการสนทนาระดับมืออาชีพใด ๆ (โดยทั่วไปงานปัจจุบันสามารถพบได้จากชื่อโดเมนในอีเมลหรือลายเซ็นการค้นหาจะเปิดเผยสิ่งที่ผ่านมาด้วย)
  2. เครือญาติถ้ามีใครเก็บข้อมูลโปรไฟล์ไว้บนเครือข่ายสังคม
  3. ที่ตั้งปัจจุบันอย่างน้อยเมือง
  4. ภูมิหลังทางชาติพันธุ์หากมีชื่อแตกต่างกัน (เช่นบางคนชื่อ "Lubomir" อาจเชื่อมต่อกับหนึ่งในประเทศในยุโรปสลาฟ ฯลฯ )
  5. วันเกิดจากเครือข่ายสังคม - คนมักจะแสดงความยินดีกับคนที่อยู่หรือรอบ ๆ วันเกิดของเขาและถ้าคุณโชคดีคุณก็จะได้รับปีเมื่ออายุครบ 25, 30, 35 และอื่น ๆ เนื่องจากคนคนหนึ่งที่แสดงความยินดี ถ้าไม่ใช่คนที่มีปัญหา
  6. วุฒิการศึกษา - จาก LinkedIn ฯลฯ
  7. งานอดิเรกทีมกีฬาที่ชื่นชอบ ฯลฯ
  8. ถ้ามีคนรักสัตว์เลี้ยงเขาอาจจะมีสัตว์เลี้ยงของเขาทั้งหมดในเครือข่ายสังคมด้วย

btw ใดที่หมายความว่าคุณไม่ควรใช้อะไรจากรายการด้านบนสำหรับรหัสผ่านคำถามลับ ฯลฯ


แล้วคนที่มีชื่อเดียวกันกับคุณ ... มี "คณบดีฮาร์ดิง" จำนวนหนึ่งอยู่ตรงนั้นหนึ่งในนั้นคือแม้แต่นักฟุตบอลอาชีพ! "DeanHarding" บนทวิตเตอร์ไม่ใช่ฉันมีหลายร้อย "Dean Harding" บน Facebook และอื่น ๆ ...

แน่นอนว่าขึ้นอยู่กับโอกาส โดยปกติแล้วคุณจะพบว่าเป็นที่หนึ่งโดยอาชีพตำแหน่ง ฯลฯ แม้ว่าฉันจะเห็นกรณีที่มี 3 คนที่มีชื่อเต็มเหมือนกันในอาชีพเดียวกันและอาศัยอยู่ในพื้นที่เดียวกัน แล้วแน่นอนมันจะกลายเป็นยาก :)

2

Darden and Robinson (1976) พยายามค้นหาโครงสร้างทางภาษาที่เป็นแนวทางในการเชื่อมโยงผู้คนเกี่ยวกับชื่อแรกของผู้ชาย พวกเขาขอให้สองกลุ่มวิชา (นักศึกษาสังคมวิทยาและนายทหารเรือ) ให้คะแนนชุดชื่ออเมริกันทั่วไปตามความหมายที่แตกต่างกันเช่นความนุ่มนวล, ยาก - ทั่วไป - ขุนนางและเมือง - ชนบท พวกเขายังถามถึงการตัดสินความคล้ายคลึงกันระหว่างชื่อที่แตกต่างกันและโดยการตรวจสอบพวกเขามีความสัมพันธ์กับวิธีการจากความแตกต่างทางความหมายกับมิติที่พวกเขาพบทั้งสามและสี่โซลูชั่น D ใช้กระบวนการ TORSCA MDS

ผู้เขียนพบว่าโซลูชัน 3 มิติของพวกเขานั้นสอดคล้องกับคร่าวๆสามประการของ Osgood ในการเปิดใช้งานการประเมินผลและความแรง ในสี่มิติพื้นที่พอดีกับข้อมูลที่ดีขึ้นเล็กน้อยและที่นี่พวกเขาตีความโครงสร้างขึ้นอยู่กับ“ ตัวละคร”“ ครบกําหนด”“ เข้ากับคนง่าย” และ“ virility” แม้ว่าเครื่องชั่งเหล่านี้ดูเหมือนไม่ได้กำหนดเกือบเป็น ผู้เขียนแนะนำ สิ่งที่น่าแปลกใจอย่างหนึ่งที่มาจากการศึกษาคืออย่างน้อยสำหรับตัวอย่างเล็ก ๆ สองตัวนี้ (n = 83 และ 21) ไม่มีมิติใดที่ตรงกับความแตกต่างระหว่างชื่อและชื่อเล่นที่ให้

Darden, DK และ Robinson, IE (1976) มาตราส่วนหลายมิติของชื่อแรกของผู้ชาย: วิธีการทางสังคมศาสตร์ Sociometry, 39 , 4, 422-431


1

จำนวนข้อมูลที่สามารถพบได้นั้นแตกต่างกันไปอย่างมากตั้งแต่เชื้อชาติและเพศไปจนถึงข้อมูลส่วนบุคคลทุกประเภท ทางออกที่ดีที่สุดของคุณในการรับข้อมูลจะเป็นเว็บไซต์เครือข่ายสังคมเช่น Facebook เนื่องจากพวกเขามักให้ข้อมูลมากกว่าฐานข้อมูล cencus


1

มีข้อมูลที่หลากหลายที่คุณสามารถรับได้ขึ้นอยู่กับแหล่งที่คุณใช้ ข้อมูลการสำรวจสำมะโนประชากรเป็นสิ่งที่ชัดเจน นอกจากนี้คุณยังสามารถรับข้อมูลจาก Facebook, MySpace และเว็บไซต์เครือข่ายสังคมอื่น ๆ คุณอาจค้นหาคลังข่าวสาธารณะเพื่อหาชื่อของพวกเขา บางทีแม้แต่เว็บไซต์อสังหาริมทรัพย์ที่ประกาศอย่างเป็นทางการที่บางรัฐมี

หากคุณต้องการตัวอย่างโลกแห่งความจริงที่สามารถทำได้ให้ดูที่ pipl.com


คุณสามารถบอกเราได้ที่ไหน (ที่ไหนก็ได้ในโลก) เราสามารถหาข้อมูลการสำรวจสำมะโนประชากรด้วยชื่อได้ไหม
whuber

1

คุณสามารถค้นหาองศาใบขับขี่บันทึกตำรวจ (มันแปลถูกต้องหรือไม่) ด้วย Facebook คุณสามารถค้นหาข้อมูลเกี่ยวกับงานอดิเรก, กีฬา, เพลงที่ชอบ คุณสามารถค้นหาสัดส่วนของโซเชียลมีเดียของผู้ใช้ด้วยชื่อที่กำหนด (ฉันจะสนใจผลลัพธ์นี้)



0

หากคุณรู้บางอย่างเกี่ยวกับที่ตั้งของบุคคลแหล่งข้อมูลหนึ่งแหล่งคือฐานข้อมูลการลงทะเบียนผู้มีสิทธิเลือกตั้ง ฐานข้อมูลการลงทะเบียนผู้มีสิทธิเลือกตั้งหลายแห่งมีให้บริการ (มีค่าธรรมเนียมมี บริษัท ที่ซื้อมาและให้การเข้าถึงแบบสอบถามออนไลน์โดยมีค่าธรรมเนียม) ฐานข้อมูลการลงทะเบียนผู้มีสิทธิเลือกตั้งอาจมีที่อยู่ของบุคคลและ / หรือวันเดือนปีเกิด ข้อมูลนั้นอาจช่วยให้คุณค้นหาบุคคลในฐานข้อมูลอื่น ๆ

อย่างไรก็ตามมีข้อ จำกัด ว่าจะช่วยได้มากแค่ไหน สิ่งนี้อาจเป็นประโยชน์หากคุณรู้จักเมืองหรือเขตที่บุคคลนั้นอาศัยอยู่และหากชื่อของพวกเขาผิดปกติ แต่ถ้านี่เป็นชื่อสามัญหรือถ้าคุณไม่รู้ว่าพวกเขาอยู่ที่ไหนมันอาจจะไม่ช่วยคุณ


0

หนึ่งในแหล่งข้อมูลที่ใหญ่ที่สุดสำหรับข้อมูลที่สาธารณชนสามารถเข้าถึงได้รวมถึงคุณลักษณะที่มีประโยชน์อื่น ๆ ได้แก่ สำนักงานเสมียนเคาน์ตี้ ออกเกี่ยวข้องกับการดึงข้อมูลด้วยกัน ... บางรัฐมีฐานข้อมูลกลาง แต่คนอื่นไม่ได้


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.