4
การทดสอบสมมติฐานด้วยข้อมูลขนาดใหญ่
คุณจะทำการทดสอบสมมติฐานด้วยข้อมูลขนาดใหญ่ได้อย่างไร ฉันเขียนสคริปต์ MATLAB ต่อไปนี้เพื่อเน้นความสับสนของฉัน สิ่งที่มันทำคือสร้างชุดสุ่มสองชุดและเรียกใช้การถดถอยเชิงเส้นอย่างง่ายของตัวแปรหนึ่งในอีกตัวแปรหนึ่ง จะดำเนินการถดถอยนี้หลายครั้งโดยใช้ค่าสุ่มที่แตกต่างกันและรายงานค่าเฉลี่ย สิ่งที่เกิดขึ้นคือเมื่อฉันเพิ่มขนาดตัวอย่างค่า p โดยเฉลี่ยจะน้อยมาก ฉันรู้ว่าเนื่องจากพลังของการทดสอบเพิ่มขึ้นตามขนาดตัวอย่างเมื่อได้รับตัวอย่างมากพอค่า p จะมีขนาดเล็กพอแม้จะมีข้อมูลแบบสุ่มเพื่อปฏิเสธการทดสอบสมมติฐานใด ๆ ฉันถามไปรอบ ๆ และบางคนบอกว่าด้วย 'ข้อมูลขนาดใหญ่' สำคัญกว่าที่จะดูขนาดเอฟเฟกต์เช่น การทดสอบนั้นสำคัญหรือไม่และมีผลกระทบมากพอที่เราจะสนใจหรือไม่ นี้เป็นเพราะในขนาดตัวอย่างที่มีขนาดใหญ่ P-ค่าจะรับความแตกต่างของขนาดเล็กมากเหมือนมันจะมีการอธิบายที่นี่ อย่างไรก็ตามขนาดของเอฟเฟกต์สามารถกำหนดได้โดยการปรับขนาดของข้อมูล ด้านล่างฉันปรับขนาดตัวแปรอธิบายให้มีขนาดเล็กพอที่ให้ขนาดตัวอย่างใหญ่พอมันมีผลอย่างมากต่อตัวแปรตาม ดังนั้นฉันสงสัยว่าเราจะได้รับข้อมูลเชิงลึกจาก Big Data ได้อย่างไรหากปัญหาเหล่านี้มีอยู่ %make average %decide from how many values to make average obs_inside_average = 100; %make average counter average_count = 1; for average_i = 1:obs_inside_average, …