การสุ่มตัวอย่างเกี่ยวข้องในเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่


54

หรือมากกว่านั้น "มันจะเป็น"? ข้อมูลขนาดใหญ่ทำให้สถิติและความรู้ที่เกี่ยวข้องมีความสำคัญมากขึ้น แต่ดูเหมือนว่าจะมีผลต่อทฤษฎีการสุ่มตัวอย่าง

ฉันเห็นโฆษณานี้ใน 'บิ๊กดาต้า' และไม่สามารถช่วยสงสัยได้ว่า "ทำไม" ฉันต้องการวิเคราะห์ทุกอย่าง ? ไม่มีเหตุผลสำหรับ "ทฤษฎีการสุ่มตัวอย่าง" ที่จะออกแบบ / นำมาใช้ / ประดิษฐ์ / ค้นพบหรือไม่? ฉันไม่เข้าใจการวิเคราะห์ 'ประชากร' ทั้งหมดของชุดข้อมูล เพียงเพราะคุณสามารถทำได้ไม่ได้หมายความว่าคุณควรจะ (ความโง่เขลาเป็นสิทธิพิเศษ แต่คุณไม่ควรละเมิด :)

ดังนั้นคำถามของฉันคือสิ่งนี้: มีความเกี่ยวข้องทางสถิติในการวิเคราะห์ชุดข้อมูลทั้งหมดหรือไม่ สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือลดข้อผิดพลาดให้น้อยที่สุดหากคุณสุ่มตัวอย่าง แต่ค่าใช้จ่ายในการลดข้อผิดพลาดนั้นคุ้มหรือไม่ "คุณค่าของข้อมูล" คุ้มค่ากับความพยายามเวลาที่ต้องเสียไป ฯลฯ ในการวิเคราะห์ข้อมูลขนาดใหญ่บนคอมพิวเตอร์คู่ขนานขนาดใหญ่หรือไม่?

แม้ว่าจะมีคนวิเคราะห์ประชากรทั้งหมดผลลัพธ์ก็น่าจะเดาได้ดีที่สุดโดยมีความน่าจะเป็นที่สูงขึ้น อาจจะสูงกว่าการสุ่มตัวอย่างเล็กน้อย (หรือมากกว่านั้นอีก) ความเข้าใจที่ได้จากการวิเคราะห์ประชากรกับการวิเคราะห์ตัวอย่างนั้นแตกต่างกันอย่างกว้างขวางหรือไม่?

หรือเราควรยอมรับว่า "เวลามีการเปลี่ยนแปลง"? การสุ่มตัวอย่างเป็นกิจกรรมอาจมีความสำคัญน้อยลงหากให้พลังงานในการคำนวณที่เพียงพอ :)

หมายเหตุ: ฉันไม่ได้พยายามที่จะเริ่มการโต้วาที แต่กำลังมองหาคำตอบที่จะเข้าใจว่าทำไมข้อมูลขนาดใหญ่ถึงทำในสิ่งที่มันทำ (เช่นวิเคราะห์ทุกอย่าง) และไม่สนใจทฤษฎีการสุ่มตัวอย่าง (หรือไม่?)


1
ดูเพิ่มเติมที่: stats.stackexchange.com/q/22502/7828 - วิธีการสรุปที่ถูกต้องจากข้อมูลขนาดใหญ่
Anony-Mousse

1
(+1 นานมาแล้ว) ฉันสนุกกับการอ่านคำถามที่ลึกซึ้งของคุณเสมอ พวกเขาเป็นสินทรัพย์จริงสำหรับเว็บไซต์นี้
พระคาร์ดินัล

@cardinal - ฉันขอขอบคุณสำหรับความคิดเห็นของคุณ หมายความว่ามาจากคุณมาก
PhD

คำตอบ:


29

ในคำที่ใช่ ฉันเชื่อว่ายังมีสถานการณ์ที่ชัดเจนที่การสุ่มตัวอย่างมีความเหมาะสมทั้งในและนอกโลก "ข้อมูลขนาดใหญ่" แต่ธรรมชาติของข้อมูลขนาดใหญ่จะเปลี่ยนวิธีการสุ่มตัวอย่างของเราอย่างแน่นอนและเราจะใช้ชุดข้อมูลเพิ่มเติมที่เกือบจะสมบูรณ์แบบ ประชากร.

ในการสุ่มตัวอย่าง:ขึ้นอยู่กับสถานการณ์ที่มักจะชัดเจนหากการสุ่มตัวอย่างเป็นสิ่งที่เหมาะสมที่จะทำ การสุ่มตัวอย่างไม่ใช่กิจกรรมที่มีประโยชน์โดยกำเนิด มันเป็นเพียงสิ่งที่เราทำเพราะเราจำเป็นต้องทำการแลกเปลี่ยนกับต้นทุนของการใช้การเก็บข้อมูล เราพยายามระบุลักษณะประชากรและจำเป็นต้องเลือกวิธีการที่เหมาะสมสำหรับการรวบรวมและวิเคราะห์ข้อมูลเกี่ยวกับประชากร การสุ่มตัวอย่างทำให้รู้สึกเมื่อต้นทุนส่วนเพิ่มของวิธีการรวบรวมข้อมูลหรือการประมวลผลข้อมูลสูง การพยายามเข้าถึงประชากร 100% นั้นไม่ใช่การใช้ทรัพยากรในกรณีนี้เพราะคุณมักจะพูดถึงเรื่องอคติที่ไม่ตอบสนองได้ดีกว่าการปรับปรุงเล็กน้อยในข้อผิดพลาดการสุ่มตัวอย่างแบบสุ่ม

ข้อมูลขนาดใหญ่แตกต่างกันอย่างไร "บิ๊กดาต้า" ตอบคำถามหลายคำถามที่เราเคยเจอมานาน แต่สิ่งที่ "ใหม่" คือการรวบรวมข้อมูลเกิดขึ้นจากกระบวนการที่มีอยู่ในคอมพิวเตอร์ที่มีอยู่เดิมดังนั้นต้นทุนส่วนเพิ่มของการเก็บข้อมูลจึงเป็นศูนย์ สิ่งนี้ช่วยลดความต้องการการสุ่มตัวอย่างของเราได้อย่างมาก

เราจะใช้การสุ่มตัวอย่างเมื่อใด หากประชากร "ข้อมูลขนาดใหญ่" ของคุณเป็นประชากรที่เหมาะสมสำหรับปัญหาคุณจะใช้การสุ่มตัวอย่างในบางกรณีเท่านั้น: ความจำเป็นในการเรียกใช้กลุ่มทดลองแยกต่างหากหรือหากปริมาณข้อมูลที่ใหญ่เกินกว่าจะจับและประมวลผลได้ เราทุกคนสามารถจัดการข้อมูลหลายล้านแถวได้อย่างง่ายดายในทุกวันนี้ขอบเขตที่นี่จึงเพิ่มมากขึ้นเรื่อย ๆ ) หากดูเหมือนว่าฉันจะละทิ้งคำถามของคุณอาจเป็นเพราะฉันไม่ค่อยได้เจอกับสถานการณ์ที่ปริมาณข้อมูลเป็นปัญหาในขั้นตอนการรวบรวมหรือการประมวลผลทั้งๆที่ฉันรู้ว่ามีหลายคน

สถานการณ์ที่ยากสำหรับฉันคือเมื่อประชากร "ข้อมูลขนาดใหญ่" ของคุณไม่ได้เป็นตัวแทนของประชากรเป้าหมายของคุณอย่างสมบูรณ์แบบดังนั้นการแลกเปลี่ยนจึงเป็นแอปเปิ้ลต่อส้มมากขึ้น สมมติว่าคุณเป็นผู้วางแผนการขนส่งในระดับภูมิภาคและ Google ได้เสนอให้คุณเข้าถึงบันทึกการนำทาง GPS ของ Android เพื่อช่วยคุณ ในขณะที่ชุดข้อมูลจะไม่มีข้อสงสัยที่น่าสนใจในการใช้งานประชากรอาจถูกลำเอียงอย่างเป็นระบบเมื่อเทียบกับรายได้ต่ำผู้ใช้ระบบขนส่งสาธารณะและผู้สูงอายุ ในสถานการณ์เช่นนี้สมุดบันทึกการเดินทางแบบดั้งเดิมส่งไปยังตัวอย่างครัวเรือนสุ่มแม้ว่าค่าใช้จ่ายและจำนวนน้อยลงอาจเป็นวิธีการเก็บรวบรวมข้อมูลที่เหนือกว่า แต่นี่ไม่ใช่แค่คำถามของ "การสุ่มตัวอย่างกับข้อมูลขนาดใหญ่" แต่มัน '


22

แม้ว่าอาจมีข้อมูลขนาดใหญ่จำนวนมากที่ผลิตโดยโทรศัพท์มือถือ แต่อย่างใด แต่ก็มีข้อมูลที่ใช้งานได้น้อยมาก หากคุณต้องการทำนายรูปแบบการเดินทางในเมืองโดยใช้ foursquare คุณอาจถูกลำดับความสำคัญในการไหลเวียนโดยประมาณ ยิ่งไปกว่านั้นคุณจะไม่รู้ว่าคุณประเมินค่าสูงไปหรือต่ำไป คุณสามารถรับรูปภาพที่แม่นยำอย่างบ้าคลั่งของรูปแบบการเดินทางในเมืองของผู้ใช้คลั่งไคล้ foursquare แต่ถ้าทุกคนจำเป็นต้องมี (1) เก็บสมาร์ทโฟนที่ใช้งานได้ (2) เพื่อเรียกใช้แอป foursquare ตลอดเวลาและ (3) เพื่อลงทะเบียนที่ ที่ใดก็ตามที่พวกเขาอยู่ที่นี่นานกว่า 10 นาที (เช่นรับสำมะโนประชากรอิเล็คทรอนิกส์ให้พวกเสรีนิยมบ่นเกี่ยวกับ Google และ Facebook ที่รู้ทุกอย่างเกี่ยวกับคุณ) ข้อมูลของคุณจะมีอคติที่ไม่รู้จักและดิวอี้อิเล็กทรอนิกส์ของคุณ Trumans (คลิกได้):


(ที่มา: whatisasurvey.info )

หากมีสิ่งใดฉันคาดหวังว่าประวัติศาสตร์ชิ้นนี้จะซ้ำรอยเดิมและการคาดการณ์"เบียร์ + ผ้าอ้อม" ที่ยิ่งใหญ่ที่ผลิตจาก Big Data จะถูกพลิกคว่ำโดยนักวิจัยโดยใช้วิธีการสุ่มตัวอย่างที่เข้มงวดยิ่งขึ้น เป็นที่น่าแปลกใจที่การสำรวจตามความน่าจะเป็นยังคงแม่นยำแม้จะมีอัตราการตอบกลับลดลงก็ตาม


1
(+1) แต่จะไม่ได้เป็นผู้ใช้ foursquare โปรเฟสเซอร์เป็นสิ่งที่ตรงกันข้ามของความหวาดระแวง ;-)
พระคาร์ดินัล

1
ใช่ ... อาจเป็นคำที่ไม่ดี ให้ฉันเปลี่ยนเป็นคลั่งไคล้!
StasK

2
ข้อมูลขนาดใหญ่ไม่ใช่ตัวการ มันเป็นวิธีการใช้งาน เมื่อมีข้อมูลและนำไปใช้อย่างเหมาะสมจะมีประโยชน์มาก การขุดข้อมูลไม่ได้เลวร้ายนัก
Michael Chernick

จุดที่ดีในการใช้ข้อมูลขนาดใหญ่สำหรับข้อมูลการจราจร เนื่องจาก บริษัท อย่าง Google และ Apple ได้ทำสิ่งนี้มาแล้วฉันจึงคิดว่านี่เป็นตัวอย่างที่ดีว่าข้อมูลขนาดใหญ่ (มีให้บริการในปัจจุบัน) อาจไม่เพียงพอสำหรับผู้ชมบางคนและฉันก็พยายามรวมไว้ในคำตอบด้วย
Jonathan

@Michael คุณพูดถูก ข้อมูลมีราคาถูก แต่วิธีการในการดึงข้อมูลที่ใช้งานได้ออกมาจะไม่ลดลง - หากมีสิ่งใดพวกเขากำลังจะขึ้นไปเพราะขณะนี้ต้องผ่านการกลั่นกรองข้อมูลเพิ่มเติมเพื่อให้ได้ข้อมูลที่เป็นประโยชน์ออกมา
StasK

21

เมื่อใดก็ตามที่มีการใช้เทคนิคการอนุมานทางสถิติสิ่งสำคัญคือต้องมีความชัดเจนเกี่ยวกับประชากรที่หนึ่งมีจุดมุ่งหมายที่จะสรุป แม้ว่าข้อมูลที่รวบรวมไว้มีขนาดใหญ่มาก แต่ก็อาจเกี่ยวข้องกับประชากรเพียงส่วนน้อยและอาจไม่ได้เป็นตัวแทนของภาพรวมทั้งหมด

สมมติว่า บริษัท ที่ดำเนินงานในอุตสาหกรรมบางแห่งได้รวบรวม 'ข้อมูลขนาดใหญ่' ไว้กับลูกค้าในบางประเทศ หากต้องการใช้ข้อมูลนั้นเพื่อหาข้อสรุปเกี่ยวกับลูกค้าปัจจุบันในประเทศนั้นการสุ่มตัวอย่างอาจไม่เกี่ยวข้องกันมาก อย่างไรก็ตามหากต้องการสรุปข้อสรุปเกี่ยวกับประชากรที่มีขนาดใหญ่ขึ้น - ศักยภาพเช่นเดียวกับลูกค้าที่มีอยู่หรือลูกค้าในประเทศอื่น - จากนั้นก็จำเป็นที่จะต้องพิจารณาว่าลูกค้าที่มีการเก็บรวบรวมข้อมูลนั้นเป็นตัวแทน - บางทีในรายได้อายุ เพศการศึกษาและอื่น ๆ - จากประชากรที่มีขนาดใหญ่ขึ้น

มิติเวลายังต้องได้รับการพิจารณา หากเป้าหมายคือการใช้การอนุมานเชิงสถิติเพื่อสนับสนุนการคาดการณ์ประชากรจะต้องเข้าใจเพื่อขยายไปสู่อนาคต ถ้าเป็นเช่นนั้นจำเป็นต้องพิจารณาอีกครั้งว่าชุดข้อมูล แต่มีขนาดใหญ่หรือไม่นั้นได้มาจากสถานการณ์ที่เป็นตัวแทนของสิ่งที่อาจได้รับในอนาคต


ยินดีต้อนรับสู่เว็บไซต์ของเราอดัม! (หากคุณเช็คอินเป็นประจำคุณจะพบโอกาสที่จะใช้ความสนใจในเรขาคณิตและทฤษฎีจำนวนเป็นครั้งคราว:-)
whuber

จุดที่ดีเกี่ยวกับความจำเป็นในการพิจารณาประชากร! นั่นเป็นหนึ่งในวิธีใหญ่ ๆ ที่ผู้คนจะขี้เกียจกับข้อมูลขนาดใหญ่
Jonathan

"แม้ว่าข้อมูลที่รวบรวมไว้มีขนาดใหญ่มาก แต่ก็อาจเกี่ยวข้องกับประชากรเพียงส่วนน้อยและอาจไม่ได้เป็นตัวแทนของภาพรวมทั้งหมด" ฉันคิดว่าประโยคนี้เพียงคำตอบเดียวสำหรับคำถามมากมาย
Bemipefe

13

จากสิ่งที่ฉันได้เห็นจากข้อมูลขนาดใหญ่ / ความคลั่งไคล้ ML การคิดเกี่ยวกับการสุ่มตัวอย่างและจำนวนประชากรที่กลุ่มตัวอย่างของคุณวาดนั้นมีความสำคัญเท่าที่เคยมีมา แต่คิดถึงน้อยลง

ฉันกำลัง "ตรวจสอบ" ชั้น ML ของ Stanford และจนถึงตอนนี้เราได้ครอบคลุมการถดถอยและเครือข่ายประสาทด้วยการกล่าวถึงการอนุมานประชากร เนื่องจากคลาสนี้มีผู้ใช้ถึง 6 คนเป็นจำนวนมากตอนนี้มีผู้คนมากมายที่รู้วิธีที่จะปรับข้อมูลให้เหมาะสมโดยไม่ต้องมีแนวคิดเกี่ยวกับตัวอย่าง


3
ฉันเห็นด้วยอย่างยิ่ง เมื่อสังเกตความนิยมในปัจจุบันเกี่ยวกับการเรียนรู้ของเครื่องจักร (ผู้ปฏิบัติงานและโปรแกรมเมอร์ส่วนใหญ่), บิ๊กดาต้าและ "วิทยาศาสตร์ข้อมูล" ฉันพบว่ามันเป็นเรื่องธรรมดาสำหรับคนที่จะไม่สนใจการสุ่มตัวอย่างการอนุมานความเข้าใจเชิงเหตุผลเชิงสถิติ อัลกอริทึมคือสะโพกกับมัน คุณสามารถเห็นว่ามีคำถามและคำตอบบางส่วนที่นี่ในการตรวจสอบข้าม นั่นเป็นเหตุผลที่ฉันยังเชื่อว่ามันจะเป็น hype ที่เร็ว ๆ นี้จะล้าสมัยหรือยืมญาณวิทยาทางสถิติและทำให้กลายเป็นสาขาของสถิติ (ฉันดูมันเช่นนี้ต่อไป)
Momo

2
หากคลาส ML นั้นใกล้เคียงกับที่ฉันตรวจสอบมาก่อนมีข้อสันนิษฐานทางเทคนิคที่ถูกต้องก่อนที่ความไม่เท่าเทียม Hoeffding ที่ข้อมูลการฝึกอบรมเป็นตัวอย่างที่สมบูรณ์แบบจากประชากร น่าเสียดายที่นี่แทบจะไม่เคยเกิดขึ้นอย่างน้อยก็ในประสบการณ์ของฉันและในตัวอย่างของการประยุกต์ใช้เทคนิคตลอดหลักสูตร ยังไม่ได้เป็นกรณีเมื่อคุณใช้ "ข้อมูลขนาดใหญ่"
Douglas Zare

12

ใช่การสุ่มตัวอย่างมีความเกี่ยวข้องและจะยังคงเกี่ยวข้อง บรรทัดล่างคือความถูกต้องของการประมาณการทางสถิติโดยทั่วไปแล้วจะเป็นฟังก์ชั่นของขนาดตัวอย่างไม่ใช่ประชากรที่เราต้องการพูดคุย ดังนั้นค่าเฉลี่ยหรือสัดส่วนเฉลี่ยที่คำนวณจากตัวอย่างของผู้ตอบ 1,000 คนจะให้ค่าประมาณความถูกต้องแน่นอน (เทียบกับประชากรทั้งหมดที่เราสุ่มตัวอย่าง) โดยไม่คำนึงถึงขนาดของประชากร (หรือ "ขนาดใหญ่แค่ไหน" " ข้อมูลขนาดใหญ่” คือ)

ต้องกล่าวว่า: มีปัญหาเฉพาะและความท้าทายที่เกี่ยวข้องและควรกล่าวถึง:

  1. การรับตัวอย่างความน่าจะเป็นที่ดีนั้นไม่ใช่เรื่องง่ายเสมอไป ในทางทฤษฎีทุกคนในประชากรที่เราต้องการสรุป (ซึ่งเราต้องการทำการอนุมาน) ต้องมีความน่าจะเป็นที่ทราบกันดีว่าถูกเลือก นึกคิดว่าความน่าจะเป็นควรเป็นแบบเดียวกัน (ตัวอย่างความน่าจะเป็นที่เท่ากันหรือ EPSEM - ความน่าจะเป็นที่เท่าเทียมกันของการเลือก) นั่นคือการพิจารณาที่สำคัญและควรมีความเข้าใจอย่างชัดเจนว่ากระบวนการสุ่มตัวอย่างจะกำหนดความน่าจะเป็นที่เลือกให้กับสมาชิกของประชากรที่เราต้องการสรุป ตัวอย่างเช่นหนึ่งสามารถได้รับจาก Twitter ฟีดประมาณการที่ถูกต้องของความเชื่อมั่นโดยรวมในประชากรที่มีขนาดใหญ่รวมทั้งบุคคลที่ไม่มีบัญชี Twitter?
  2. ข้อมูลขนาดใหญ่อาจมีรายละเอียดและข้อมูลที่ซับซ้อนมาก อีกทางหนึ่งปัญหาไม่ได้เป็นการสุ่มตัวอย่าง แต่การแบ่งส่วน (ไมโคร -) ดึงรายละเอียดที่ถูกต้องสำหรับการสังเกตย่อย ๆ ที่เกี่ยวข้อง นี่คือความท้าทายไม่ใช่การสุ่มตัวอย่าง แต่เพื่อระบุการแบ่งชั้นและการแบ่งส่วนของข้อมูลขนาดใหญ่ที่ให้ข้อมูลที่สามารถดำเนินการได้อย่างถูกต้องแม่นยำที่สุดซึ่งสามารถกลายเป็นข้อมูลเชิงลึกที่มีค่า
  3. กฎทั่วไปอีกข้อหนึ่งของการวัดความคิดเห็นคือข้อผิดพลาดและอคติที่ไม่ใช่การสุ่มตัวอย่างมักจะใหญ่กว่าข้อผิดพลาดการสุ่มตัวอย่างและอคติ เพียงเพราะคุณประมวลผลผู้ตอบแบบสอบถามที่แสดงความคิดเห็นไม่ถึง 1 แสนล้านผลจะมีประโยชน์มากขึ้นหากคุณมีข้อมูลของกลุ่มตัวอย่าง 1,000 คนโดยเฉพาะอย่างยิ่งหากคำถามสำหรับแบบสำรวจที่เกี่ยวข้องนั้นเขียนไม่ดีและมีอคติเกิดขึ้น
  4. บางครั้งจำเป็นต้องมีการสุ่มตัวอย่าง: ตัวอย่างเช่นหากมีการสร้างแบบจำลองการทำนายจากข้อมูลทั้งหมดหนึ่งจะตรวจสอบได้อย่างไร เราจะเปรียบเทียบความแม่นยำของรุ่นที่แตกต่างกันอย่างไร เมื่อมี "ข้อมูลขนาดใหญ่" (ที่เก็บข้อมูลขนาดใหญ่มาก) จากนั้นหนึ่งสามารถสร้างแบบจำลองหลายแบบและสถานการณ์จำลองสำหรับตัวอย่างที่แตกต่างกันและตรวจสอบพวกเขา (ลองพวกเขา) ในตัวอย่างอิสระอื่น ๆ หากมีการสร้างแบบจำลองหนึ่งสำหรับข้อมูลทั้งหมด - หนึ่งจะตรวจสอบได้อย่างไร

คุณสามารถดู 'การปฏิวัติข้อมูลขนาดใหญ่' ของเราได้ที่นี่


1
ยินดีต้อนรับสู่เว็บไซต์ของเรา Kyra!
whuber

3

วิธีการข้อมูลขนาดใหญ่จำนวนมากได้รับการออกแบบโดยการสุ่มตัวอย่าง

คำถามควรมีเพิ่มเติมในบรรทัดของ:

เราไม่ควรใช้การสุ่มตัวอย่างแบบเป็นระบบกับข้อมูลขนาดใหญ่ด้วยหรือ

ข้อมูล "ข้อมูลขนาดใหญ่" จำนวนมากยังคงสดอยู่และบางครั้งก็ไร้เดียงสา ตัวอย่าง K-mean สามารถทำให้ขนานกันได้เล็กน้อยและใช้กับ "ข้อมูลขนาดใหญ่" (ฉันจะไม่พูดเกี่ยวกับผลลัพธ์พวกมันไม่ได้มีความหมายมากและอาจไม่แตกต่างจากตัวอย่างที่ได้จากตัวอย่าง!) เท่าที่ฉันรู้ว่านี่คือสิ่งที่ k-หมายถึงการใช้งานใน Mahout ทำ

อย่างไรก็ตามการวิจัยเป็นไปเกินขนานไร้เดียงสา (ที่อาจจะยังคงต้องมีจำนวนมากของการทำซ้ำ) และพยายามที่จะทำ K-วิธีการในการแก้ไขจำนวนซ้ำ ตัวอย่างสำหรับสิ่งนี้:

  • การจัดกลุ่มอย่างรวดเร็วโดยใช้ MapReduce
    Ene, A. และ Im, S. และ Moseley, B.
    การดำเนินการของการประชุมนานาชาติ ACM SIGKDD ครั้งที่ 17 เกี่ยวกับการค้นพบความรู้และการขุดข้อมูล, 2011

และเดาว่าอะไรวิธีการของพวกเขาขึ้นอยู่กับการสุ่มตัวอย่างอย่างมาก

ตัวอย่างถัดไป: การตัดสินใจฟอเรสต์ นั่นคือพื้นฐาน: สำหรับตัวอย่างจำนวนมากจากชุดข้อมูลให้สร้างแผนผังการตัดสินใจแต่ละรายการ สามารถทำให้ขนานกันได้อีกเล็กน้อย: วางตัวอย่างแต่ละอันบนเครื่องที่แยกต่างหาก และอีกครั้งมันเป็นวิธีการสุ่มตัวอย่างตาม

ดังนั้นการสุ่มตัวอย่างจึงเป็นหนึ่งในส่วนผสมหลักในการเข้าถึงข้อมูลขนาดใหญ่!

และไม่มีอะไรผิดปกติกับสิ่งนี้


2

การตรวจสอบข้ามเป็นตัวอย่างเฉพาะของการสุ่มตัวอย่างย่อยซึ่งค่อนข้างสำคัญใน ML / ข้อมูลขนาดใหญ่ โดยทั่วไปข้อมูลขนาดใหญ่ยังคงเป็นตัวอย่างของประชากรอย่างที่คนอื่น ๆ พูดถึง

แต่ฉันคิดว่า OP อาจหมายถึงการสุ่มตัวอย่างเป็นการเฉพาะเนื่องจากมันใช้กับการทดลองที่ควบคุมเปรียบเทียบกับข้อมูลเชิงสังเกตการณ์ โดยปกติแล้วข้อมูลขนาดใหญ่จะถูกมองว่าเป็นข้อมูลหลัง แต่สำหรับฉันอย่างน้อยก็มีข้อยกเว้น ฉันจะคิดถึงการทดลองแบบสุ่มการทดสอบ A / B และโจรหลายวงในการตั้งค่าอีคอมเมิร์ซและเครือข่ายสังคมเป็นตัวอย่างของ "การสุ่มตัวอย่างในการตั้งค่าข้อมูลขนาดใหญ่"


1

ในพื้นที่ที่ Big Data กำลังได้รับความนิยม: การค้นหาการโฆษณาระบบผู้แนะนำเช่น Amazon, Netflix มีแรงจูงใจที่ยิ่งใหญ่มากในการสำรวจชุดข้อมูลทั้งหมด

วัตถุประสงค์ของระบบเหล่านี้คือการปรับแต่งคำแนะนำ / คำแนะนำให้กับสมาชิกทุกคนของประชากร นอกจากนี้จำนวนของคุณสมบัติที่ศึกษาอยู่นั้นมีมหาศาล ระบบการวิเคราะห์เว็บโดยเฉลี่ยอาจวัดอัตราการคลิกผ่าน "การติดตามความร้อน" ของ "พื้นที่ร้อน" ในหน้าการโต้ตอบทางสังคม ฯลฯ และชั่งน้ำหนักสิ่งเหล่านี้เทียบกับวัตถุประสงค์ที่กำหนดไว้ล่วงหน้าจำนวนมาก

ที่สำคัญที่สุดสถานที่ส่วนใหญ่ที่ข้อมูลขนาดใหญ่ตอนนี้แพร่หลายเป็นกระแสข้อมูล "ออนไลน์" เช่นข้อมูลจะถูกเพิ่ม / ปรับปรุงอย่างต่อเนื่อง การหารูปแบบการสุ่มตัวอย่างซึ่งครอบคลุมคุณลักษณะทั้งหมดเหล่านี้โดยไม่มีอคติโดยธรรมชาติและยังคงให้ผลลัพธ์ที่มีแนวโน้ม

การสุ่มตัวอย่างยังคงมีความเกี่ยวข้องสูงสำหรับการสำรวจการทดลองทางการแพทย์การทดสอบ A / B การประกันคุณภาพ

โดยสรุปแล้วการสุ่มตัวอย่างมีประโยชน์มากเมื่อประชากรที่จะศึกษามีขนาดใหญ่มากและคุณสนใจคุณสมบัติที่มีขนาดใหญ่มากของประชากร การตรวจสอบ 100% (ข้อมูลขนาดใหญ่) เป็นสิ่งจำเป็นสำหรับการใช้ประโยชน์จากคุณสมบัติทางจุลทรรศน์ของระบบ

หวังว่าจะช่วย :)


ดังนั้นจุดของคุณที่พวกเขาไม่ต้องการที่จะพูดคุยเกินกว่าข้อมูลที่พวกเขามีกับข้อมูลที่พวกเขายังไม่ได้? หรือพวกเขาคิดว่าตัวอย่างของพวกเขามีขนาดใหญ่มากพวกเขาไม่ต้องกังวลเกี่ยวกับปัญหาเหล่านั้น? หรือว่าพารามิเตอร์พื้นฐานจะมีการเปลี่ยนแปลงเมื่อเวลาผ่านไปดังนั้นไม่สำคัญตราบใดที่พวกเขายังคงอัปเดตเมื่อมีกระแสข้อมูลใหม่เข้ามา
gung - Reinstate Monica

@gung ปัญหาไม่ใช่ขนาดของตัวอย่าง แต่ปัญหาของการสร้างตัวอย่างที่ไม่เอนเอียงสำหรับชุดข้อมูลที่มีแอตทริบิวต์จำนวนมาก และการวางนัยทั่วไปมักจะทำโดยอัลกอริทึมการเรียนรู้ของเครื่องจักรซึ่งผ่านการฝึกอบรมในส่วนของชุดข้อมูล สตรีมข้อมูลออนไลน์ที่เข้ามาอย่างต่อเนื่องทำให้ปัญหาการสุ่มตัวอย่างรองเป็นชุดการอัปเดตที่สามารถใช้เพื่อเปลี่ยนพารามิเตอร์
rrampage
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.