วิธีการสรุปที่ถูกต้องจาก "ข้อมูลขนาดใหญ่"?

"ข้อมูลขนาดใหญ่" มีอยู่ทุกหนทุกแห่งในสื่อ ทุกคนบอกว่า "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ยิ่งใหญ่สำหรับปี 2012 เช่นKDNuggets การสำรวจความคิดเห็นในหัวข้อที่ร้อนสำหรับปี 2012 อย่างไรก็ตามฉันมีความกังวลอย่างลึกซึ้งที่นี่ ด้วยข้อมูลขนาดใหญ่ทุกคนดูเหมือนจะมีความสุขที่จะได้รับอะไรเลย แต่เราไม่ได้ละเมิดหลักการทางสถิติแบบคลาสสิกทั้งหมดเช่นการทดสอบสมมติฐานและการสุ่มตัวอย่างตัวแทน?

ตราบใดที่เราคาดการณ์เฉพาะชุดข้อมูลเดียวกันสิ่งนี้ควรจะดี ดังนั้นถ้าฉันใช้ข้อมูล Twitter เพื่อทำนายพฤติกรรมของผู้ใช้ Twitter นั่นอาจไม่เป็นไร อย่างไรก็ตามการใช้ข้อมูล Twitter เพื่อคาดการณ์เช่นการเลือกตั้งละเลยความจริงที่ว่าผู้ใช้ Twitter ไม่ใช่ตัวอย่างตัวอย่างสำหรับประชากรทั้งหมด นอกจากนี้วิธีการส่วนใหญ่จะไม่สามารถแยกความแตกต่างระหว่างอารมณ์ "รากหญ้า" ที่แท้จริงและการรณรงค์ และทวิตเตอร์เต็มไปด้วยแคมเปญ ดังนั้นเมื่อวิเคราะห์ Twitter คุณจะจบลงอย่างรวดเร็วเพียงวัดการรณรงค์และบอท (ดูตัวอย่าง"Yahoo คาดการณ์ผู้ชนะทางการเมืองของอเมริกา"ซึ่งเต็มไปด้วยการสำรวจความคิดเห็นทุบตีและ "การวิเคราะห์ความเชื่อมั่นดีกว่ามาก" พวกเขาทำนายว่า "รอมนีย์มีโอกาสชนะการเสนอชื่อมากกว่า 90% และชนะเซาท์แคโรไลนาหลัก" (เขามี 28% ในขณะที่ Gingrich มี 40% ในปฐมภูมินี้)

คุณรู้หรือไม่ว่าข้อมูลขนาดใหญ่อื่น ๆล้มเหลว ? ฉันจำได้คร่าวๆว่านักวิทยาศาสตร์คนหนึ่งทำนายว่าคุณไม่สามารถรักษามิตรภาพมากกว่า 150 คนได้ ที่จริงแล้วเขาค้นพบขีด จำกัด สูงสุดของเพื่อนเท่านั้น ...

สำหรับข้อมูลทวิตเตอร์หรือ "ข้อมูลขนาดใหญ่" ที่รวบรวมจากเว็บฉันเชื่อว่าบ่อยครั้งที่ผู้คนแนะนำอคติเพิ่มเติมด้วยวิธีที่พวกเขารวบรวมข้อมูล ไม่กี่คนที่จะมี Twitter ทั้งหมด พวกเขาจะมีเซตย่อยบางอันที่พวกมัน spidered และนี่ก็เป็นอีกอคติในชุดข้อมูลของพวกเขา

การแบ่งข้อมูลออกเป็นชุดทดสอบหรือสำหรับการตรวจสอบความถูกต้องแบบไขว้อาจไม่ช่วยอะไรมาก อีกชุดจะมีอคติเหมือนกัน และสำหรับข้อมูลขนาดใหญ่ฉันจำเป็นต้อง "บีบอัด" ข้อมูลของฉันอย่างหนักจนฉันไม่น่าจะทนได้

ฉันเพิ่งได้ยินเรื่องตลกนี้กับนักวิทยาศาสตร์ข้อมูลขนาดใหญ่ที่ค้นพบว่ามีประมาณ 6 เพศในโลก ... และฉันสามารถจินตนาการได้ว่าจะเกิดขึ้น ... "ชาย, หญิง, Orc, Furry, ใช่และไม่ใช่"

ดังนั้นวิธีการใดที่เราจะต้องได้รับความถูกต้องทางสถิติกลับมาวิเคราะห์โดยเฉพาะอย่างยิ่งเมื่อพยายามที่จะทำนายบางสิ่งนอกชุดข้อมูล "ข้อมูลขนาดใหญ่"?

— anony-มูส
แหล่งที่มา

คำตอบ:

ความกลัวของคุณได้รับการพิสูจน์และเข้าใจอย่างดี Yahoo และ บริษัท อื่น ๆ อีกหลายแห่งกำลังทำการทดลองแบบสุ่มกับผู้ใช้และทำได้ดี แต่ข้อมูลจากการสังเกตมีความยุ่งยาก เป็นความเข้าใจผิดทั่วไปที่ปัญหาลดน้อยลงเมื่อขนาดตัวอย่างเพิ่มขึ้น สิ่งนี้เป็นจริงสำหรับความแปรปรวน แต่อคติคงที่เมื่อ n เพิ่มขึ้น เมื่ออคติมีขนาดใหญ่ตัวอย่างการสุ่มหรือการศึกษาแบบสุ่มที่มีขนาดเล็กมากจะมีค่ามากกว่าการสังเกตการณ์ 100,000,000 ครั้ง

— Frank Harrell
แหล่งที่มา

ข้อมูลขนาดใหญ่อาจเป็นหนึ่งในพื้นที่ที่การย่อยสลายความแปรปรวนของอคติไม่เป็นประโยชน์ - คุณภาพของข้อมูลและการจัดการข้อมูลมีความสำคัญมากกว่า นี่เป็นเพราะเราไม่สามารถหวังที่จะรู้ว่าทุกจุดข้อมูลหรือแม้แต่กรณีพิเศษ - มากเกินไป

— ความน่าจะเป็นทาง

มีเทคนิคจำนวนมากในการออกแบบการทดลองและการวิเคราะห์ที่สามารถช่วยคุณลดอคติได้ แต่สิ่งนี้จะทำให้คุณรู้สึกอคติเหมือนเดิมอีกครั้ง: เราต้องรู้ว่ากำลังทำอะไรอยู่ การวิเคราะห์ข้อมูลขนาดใหญ่มีปัญหาเช่นเดียวกับการวิเคราะห์ข้อมูลอื่น ๆ มันทนทุกข์ทรมานจากการขาดสมมติฐาน

ตัวอย่างที่ชัดเจนคือการถดถอยหลายครั้งพร้อมการเลือกตัวแปรแบบขั้นตอน ดีมากคนหนึ่งพูด แต่มีตัวแปร 100 ตัวที่วัดกฎทางสถิติบอกว่าบางคนจะแสดงความสัมพันธ์ที่สำคัญเมื่อประเมินโดยดูว่าค่าสัมประสิทธิ์ตามลำดับนั้นแตกต่างจากศูนย์หรือไม่ ดังนั้นยิ่งตัวแปรในชุดข้อมูลของคุณมีโอกาสมากขึ้นที่จะพบสองสิ่งที่แสดงความสัมพันธ์บางอย่าง (ไร้ความหมาย) และยิ่งชุดข้อมูลของคุณมีขนาดใหญ่ขึ้นโอกาสที่จะมีโมเดลที่ไม่มีความหมายมากขึ้นเช่นมีเอฟเฟกต์รบกวนเล็กน้อย หากคุณทดสอบแบบจำลองหลาย ๆ แบบ (และมีตัวแปรเพียง 10 ตัวเท่านั้นที่สามารถเป็นแบบจำลองจำนวนมากทั้งหมด) คุณจะพบว่ามีนัยสำคัญอย่างน้อยหนึ่งรายการ มันหมายความว่าอะไร? เลขที่

แล้วเราจะทำอย่างไรดี? ใช้สมองของคุณ:

กำหนดสมมติฐานก่อนรวบรวมข้อมูลและทดสอบสมมติฐานนั้น นั่นเป็นวิธีเดียวที่จะตรวจสอบให้แน่ใจว่าสถิติของคุณเป็นเรื่องจริง
ใช้โควาเรียตของคุณเพื่อจัดกลุ่มตัวอย่างของคุณก่อนที่จะทำการทดสอบ ตัวอย่างโง่: ถ้าคุณมีผู้ชาย 1,000 คนและผู้หญิง 100 คนในชุดข้อมูลของคุณให้เลือกแบบสุ่ม 50 ข้อหากคุณต้องการพูดถึงประชากรโดยเฉลี่ย นั่นคือสิ่งที่ข้อมูลขนาดใหญ่มีประโยชน์: คุณมีตัวอย่างมากกว่าเพียงพอ
อธิบายประชากรของการทดสอบอย่างละเอียดดังนั้นจึงเป็นที่ชัดเจนว่าประชากรของข้อสรุปของคุณถูกจัดทำขึ้น
ถ้าคุณใช้ชุดข้อมูลขนาดใหญ่ของคุณเพื่อวัตถุประสงค์ในการสำรวจตรวจทดสอบสมมติฐานคุณมาด้วยในระหว่างการสำรวจนี้บนใหม่และแตกต่างกันชุดข้อมูลที่ไม่ได้เป็นเพียงส่วนหนึ่งของสิ่งที่คุณเก็บ และทดสอบพวกเขาอีกครั้งโดยใช้ข้อควรระวังที่จำเป็นทั้งหมด

สิ่งเหล่านี้ล้วน แต่ชัดเจนและเป็นที่รู้จัก Heck ซึ่งในปี 1984 Rosenbaum และ Rubin ได้แสดงวิธีใช้คะแนนความชอบเพื่อลดอคติในการศึกษาเชิงสังเกตการณ์และนั่นคือชุดข้อมูลที่ใหญ่ที่สุดคือ: ข้อมูลเชิงสังเกตการณ์ ในงานล่าสุดของFeng et alการใช้ระยะทาง Mahalanobis ก็สนับสนุนเช่นกัน และในความเป็นจริงหนึ่งในฮีโร่ทางสถิติของฉัน Cochran ได้เขียนรีวิวเกี่ยวกับปัญหานั้นในปี 1973! หรือสิ่งที่เกี่ยวกับรูบินผู้แนะนำการสุ่มตัวอย่างแบบหลายตัวแปรที่ตรงกันและการแก้ไขการถดถอยในปี 1979 สิ่งพิมพ์เก่าถูกประเมินอย่างจริงจังและมักจะถูกมองข้ามบ่อยเกินไปซึ่งแน่นอนในสาขาเช่นสถิติ

เทคนิคทั้งหมดนี้มีข้อดีข้อเสียและต้องเข้าใจว่าการลดอคตินั้นไม่เหมือนกับการกำจัดอคติ แต่ถ้าคุณตระหนักถึง:

สิ่งที่คุณต้องการทดสอบและ
คุณเป็นอย่างไรบ้าง

ข้อมูลขนาดใหญ่ไม่ใช่ข้อแก้ตัวที่มาพร้อมกับผลลัพธ์ปลอม

แก้ไขหลังจากคำพูด (correc) ของ @DW ที่ชี้ให้เห็นว่าฉันใช้คำว่า 'overfitting' ในบริบทที่ไม่ถูกต้อง

— Joris Meys
แหล่งที่มา

"ยิ่งชุดข้อมูลของคุณใหญ่ขึ้นโอกาสที่จะเกิดการ overfitting ที่ไม่มีความหมาย" ยิ่งกว่านั้นจริง ๆ แล้วนั่นคือถอยหลัง ยิ่งชุดของโมเดลที่เป็นไปได้มากเท่าไหร่โอกาสที่จะเกิด overfitting ก็จะยิ่งมากขึ้นเท่านั้น ที่มีขนาดใหญ่ชุดข้อมูลที่มีขนาดเล็กมีโอกาสของการ overfitting (ที่ทุกคนเท่าเทียมกัน)

— DW

@DW เป็นอย่างไร ในความเป็นจริงถ้ามีความเป็นอิสระอย่างแท้จริงในการจำลองมีโอกาสมากในโมเดลที่สำคัญที่มีชุดข้อมูลขนาดเล็กและขนาดใหญ่ (การจำลองง่ายแสดงให้คุณเห็นว่า) อนิจจาฉันยังไม่ได้พบกับชุดข้อมูลที่ความเป็นอิสระที่สมบูรณ์แบบ เมื่อคุณมีผลกระทบที่น่ารำคาญเช่นชุดข้อมูลขนาดเล็กมีแนวโน้มที่จะให้ผลลัพธ์ที่ไม่มีความหมายมากกว่าชุดข้อมูลขนาดเล็ก

— Joris Meys

คำตอบที่ดี - ความคิดเห็นของคุณเกี่ยวกับการค้นหาเอฟเฟ็กต์ที่สำคัญนั้นเป็นเหตุผลที่ดีสำหรับวิธีการหดตัวของวิธีการเลือกแบบ "ในหรือนอก"

— ความน่าจะเป็นทาง

@DW กำลังสร้างคำสั่งเกี่ยวกับ overfitting และดูเหมือนว่าถูกต้อง - โดยเฉพาะอย่างยิ่งเนื่องจากชุดข้อมูลที่มีขนาดใหญ่ขึ้นมีโอกาสมากขึ้นสำหรับการตรวจสอบข้ามความถูกต้องในส่วนย่อยของข้อมูล Joris Meys กำลังทำแถลงการณ์เกี่ยวกับนัยสำคัญทางสถิติ นั่นถูกต้องแล้ว แต่ในข้อมูลขนาดใหญ่ชุดนัยสำคัญทางสถิติเป็นสิ่งที่สงสัย - ขนาดของเอฟเฟกต์สำคัญเพราะเกือบทุกอย่างมีความสำคัญทางสถิติ

— zbicyclist

@zbicyclist การสังเกตที่ถูกต้องมาก ฉันยอมรับว่าฉันตีความ DW ผิดและใช้คำว่า overfitting ในบริบทที่ไม่ถูกต้อง ฉันยืนแก้ไขแล้ว

— Joris Meys