คำถามติดแท็ก large-data

'ข้อมูลขนาดใหญ่' หมายถึงสถานการณ์ที่จำนวนการสังเกต (จุดข้อมูล) มีขนาดใหญ่จนจำเป็นต้องเปลี่ยนแปลงวิธีการที่นักวิเคราะห์ข้อมูลคิดหรือดำเนินการวิเคราะห์ (เพื่อไม่ให้สับสนกับ 'ความมีมิติสูง')

1
จะคำนวณการวัดความแม่นยำตาม RMSE ได้อย่างไร? ชุดข้อมูลขนาดใหญ่ของฉันกระจายตามปกติหรือไม่
ฉันมีชุดข้อมูลหลายชุดตามคำสั่งของคะแนนหลายพัน ค่าในแต่ละชุดข้อมูลคือ X, Y, Z หมายถึงพิกัดในอวกาศ ค่า Z แสดงถึงความแตกต่างในการยกระดับที่คู่พิกัด (x, y) โดยทั่วไปในฟิลด์ GIS ของฉันข้อผิดพลาดการยกระดับจะถูกอ้างอิงใน RMSE โดยการลบจุดความจริงภาคพื้นดินไปยังจุดวัด (จุดข้อมูล LiDAR) โดยปกติแล้วจะใช้จุดตรวจสอบข้อเท็จจริงขั้นต่ำ 20 จุด การใช้ค่า RMSE นี้ตาม NDEP (แนวทางระดับความสูงของดิจิตอลแห่งชาติ) และแนวทางของ FEMA จะสามารถคำนวณการวัดความแม่นยำได้: ความแม่นยำ = 1.96 * RMSE ความแม่นยำนี้ถูกระบุว่า: "ความแม่นยำในแนวดิ่งพื้นฐานคือค่าที่ความแม่นยำในแนวดิ่งสามารถประเมินและเปรียบเทียบได้อย่างเท่าเทียมกันในชุดข้อมูลความแม่นยำขั้นพื้นฐานจะคำนวณที่ระดับความเชื่อมั่น 95% ในฐานะฟังก์ชันของแนวตั้ง RMSE" ฉันเข้าใจว่า 95% ของพื้นที่ภายใต้เส้นโค้งการแจกแจงแบบปกติตั้งอยู่ภายใน 1.96 * std.deviation แต่ไม่เกี่ยวข้องกับ RMSE โดยทั่วไปฉันถามคำถามนี้: การใช้ RMSE …

3
วิธีการเลือกตัวแปรที่สำคัญอย่างรวดเร็วจากชุดข้อมูลที่มีขนาดใหญ่มาก?
ฉันมีชุดข้อมูลที่มีตัวแปรไบนารีประมาณ 2,000 ตัว / 200,000 แถวและฉันพยายามที่จะทำนายตัวแปรไบนารีที่ขึ้นต่อกันเพียงตัวเดียว เป้าหมายหลักของฉันในขั้นตอนนี้ไม่ได้รับความแม่นยำในการทำนาย แต่เพื่อระบุว่าตัวแปรใดเป็นตัวทำนายที่สำคัญ ฉันอยากจะลดจำนวนตัวแปรในตัวแบบสุดท้ายของฉันลงไปประมาณ 100 มีวิธีที่รวดเร็วในการรับตัวแปรที่สำคัญที่สุดหรือไม่? ป่าสุ่มดูเหมือนจะใช้เวลานาน ฉันไม่ต้องใช้การสังเกตทั้งหมด 200,000 ครั้งดังนั้นการสุ่มตัวอย่างจึงเป็นตัวเลือกบนโต๊ะ

3
การจัดกลุ่มที่ประหยัดพื้นที่
อัลกอริธึมการจัดกลุ่มส่วนใหญ่ที่ฉันเคยเห็นเริ่มต้นด้วยการสร้างระยะห่างแต่ละจุดระหว่างจุดทั้งหมดซึ่งกลายเป็นปัญหาในชุดข้อมูลขนาดใหญ่ มีคนที่ไม่ทำเหรอ? หรือมันเป็นวิธีการบางส่วน / โดยประมาณ / เซ? อัลกอริทึมการจัดกลุ่ม / การใช้งานใดที่ใช้พื้นที่น้อยกว่า O (n ^ 2) มีรายการอัลกอริทึมและข้อกำหนดด้านเวลาและสถานที่อยู่หรือไม่?

1
ฉันสามารถตัวอย่างชุดข้อมูลขนาดใหญ่ที่การทำซ้ำ MCMC ทุกครั้งได้หรือไม่
ปัญหา:ฉันต้องการทำการสุ่มตัวอย่างของกิ๊บส์เพื่อสรุปหลังชุดข้อมูลขนาดใหญ่ โชคไม่ดีโมเดลของฉันไม่ง่ายนักและการสุ่มตัวอย่างช้าเกินไป ฉันจะพิจารณาแนวทางที่หลากหลายหรือขนาน แต่ก่อนที่จะไปไกล ... คำถาม:ฉันต้องการทราบว่าฉันสามารถสุ่มตัวอย่างตัวอย่าง (พร้อมการแทนที่) จากชุดข้อมูลของฉันที่การวนซ้ำของกิ๊บส์ทุกครั้งหรือไม่ สัญชาตญาณของฉันคือแม้ว่าฉันจะเปลี่ยนตัวอย่างฉันจะไม่เปลี่ยนความหนาแน่นของความน่าจะเป็นและดังนั้นตัวอย่างกิ๊บส์ไม่ควรสังเกตเห็นเคล็ดลับ ฉันถูกไหม? มีผู้อ้างอิงบางคนที่ทำสิ่งนี้หรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.