สเกลเทคนิคทางสถิติต่างๆ (การถดถอย PCA และอื่น ๆ ) มีขนาดตัวอย่างและมิติอย่างไร


10

มีตารางทั่วไปของเทคนิคทางสถิติที่อธิบายวิธีการวัดด้วยขนาดตัวอย่างและมิติหรือไม่ ตัวอย่างเช่นเพื่อนของฉันบอกฉันเมื่อวันก่อนว่าเวลาการคำนวณของการเรียงลำดับข้อมูลขนาดมิติหนึ่งไปอย่างรวดเร็วเป็น n * log (n)

ตัวอย่างเช่นถ้าเราถอยหลัง y เทียบกับ X โดยที่ X เป็นตัวแปร d-dimension มันจะเป็น O (n ^ 2 * d) หรือไม่? มันจะขยายขนาดได้อย่างไรถ้าฉันต้องการหาวิธีแก้ปัญหาด้วยวิธี Gauss-Markov ที่แน่นอนเทียบกับกำลังสองน้อยที่สุดด้วยวิธีนิวตัน? หรือเพียงแค่หาวิธีแก้ปัญหาเทียบกับการใช้การทดสอบนัยสำคัญ?

ฉันเดาว่าฉันต้องการแหล่งคำตอบที่ดีกว่า (เช่นกระดาษที่สรุปการปรับขนาดของเทคนิคทางสถิติต่าง ๆ ) มากกว่าคำตอบที่ดีที่นี่ เช่นพูดรายการที่มีการปรับสเกลของการถดถอยหลายครั้งการถดถอยโลจิสติก PCA การถดถอยอันตรายตามสัดส่วนของคอกซ์ K-หมายถึงการจัดกลุ่มเป็นต้น


นี่เป็นคำถามที่ดี หนังสือสถิติจำนวนมากพูดถึงแง่มุมทางทฤษฎีของข้อมูลมิติสูงไม่ใช่ด้านการคำนวณ
shadowtalker

ในหลายกรณีวรรณกรรมดั้งเดิมจะพูดถึงความซับซ้อน แต่บ่อยครั้งที่ความซับซ้อนทางทฤษฎีไม่ได้ผล QuickSort มีกรณีที่เลวร้ายที่สุดของ O (n ^ 2) แต่บ่อยครั้งที่เร็วที่สุด - เร็วกว่า HeapSort ซึ่งมีกรณีที่เลวร้ายที่สุด O (n log n) หากคุณทำวิจัยเล็กน้อยคุณจะพบผลลัพธ์ที่ซับซ้อนสำหรับอัลกอริทึมมากมาย - หากทราบ เช่น PCA เป็น O (nd ^ 3), k- หมายถึงเป็น O (nkid) เป็นต้น
มี QUIT - Anony-Mousse

คำตอบ:


6

ส่วนใหญ่อัลกอริธึมเชิงสถิติที่มีประสิทธิภาพ (และไม่สำคัญ) นั้นซ้ำแล้วซ้ำอีกในธรรมชาติเพื่อให้การวิเคราะห์กรณีที่เลวร้ายที่สุดO()นั้นไม่เกี่ยวข้องเนื่องจากกรณีที่เลวร้ายที่สุดคือ 'ไม่สามารถรวมกันได้'

อย่างไรก็ตามเมื่อคุณมีข้อมูลจำนวนมากแม้แต่อัลกอริธึมเชิงเส้น ( O(n)) อาจช้าและคุณจำเป็นต้องมุ่งเน้นไปที่ค่าคงที่ 'ซ่อน' ที่อยู่ด้านหลังสัญลักษณ์ ตัวอย่างเช่นการคำนวณความแปรปรวนของตัวแปรเดี่ยวนั้นจะทำการสแกนข้อมูลอย่างไร้เดียงสาสองครั้ง (หนึ่งครั้งสำหรับการคำนวณค่าเฉลี่ยของค่าเฉลี่ยแล้วหนึ่งครั้งเพื่อประเมินความแปรปรวน) แต่ก็ยังสามารถทำได้ในหนึ่งผ่าน

สำหรับอัลกอริธึมย้ำสิ่งที่สำคัญกว่าคืออัตราการลู่เข้าและจำนวนพารามิเตอร์ในฐานะที่เป็นฟังก์ชั่นของมิติข้อมูลซึ่งเป็นองค์ประกอบที่มีอิทธิพลอย่างมากต่อการลู่เข้า หลายรุ่น / อัลกอริทึมเติบโตจำนวนพารามิเตอร์ที่อธิบายด้วยจำนวนของตัวแปร (เช่น splines) ในขณะที่บางคนอื่น ๆ เติบโตเชิงเส้น (เช่นสนับสนุนเวกเตอร์เครื่องป่าสุ่ม ... )


ฉันไม่แน่ใจว่าฉันเห็นด้วยกับเรื่องนี้: เมื่อออกแบบอัลกอริทึมสำหรับปัญหาทางสถิติความกังวลจำนวนมากเข้าสู่ความซับซ้อนของแต่ละขั้นตอนการทำซ้ำ (และมักจะบันทึกไว้ในต้นฉบับ) แต่ตามที่คุณชี้ให้เห็นมักจะไม่ง่ายที่จะสรุปเนื่องจากอัลกอริธึมสองอย่างที่มีความซับซ้อนเท่ากันต่อการทำซ้ำอาจทำงานแตกต่างกันมากเนื่องจากการทำซ้ำที่จำเป็น O(log(n) )ที่ถูกกล่าวว่ามันเป็นเรื่องยากมากว่าจำนวนของการทำซ้ำที่จำเป็นเติบโตเร็วกว่า
หน้าผา AB

5

คุณพูดถึงการถดถอยและ PCA ในชื่อเรื่องและมีคำตอบที่ชัดเจนสำหรับแต่ละข้อ

ความซับซ้อนเชิงเส้นกำกับของการถดถอยเชิงเส้นจะลดลงเป็น O (P ^ 2 * N) หาก N> P โดยที่ P คือจำนวนของคุณลักษณะและ N คือจำนวนการสังเกต รายละเอียดเพิ่มเติมในคอมพิวเตอร์ที่ซับซ้อนของการดำเนินการถดถอยอย่างน้อยตาราง

Vanilla PCA คือ O (P ^ 2 * N + P ^ 3) เช่นเดียวกับในอัลกอริทึม PCA ที่เร็วที่สุดสำหรับข้อมูลมิติสูง อย่างไรก็ตามมีอัลกอริทึมที่รวดเร็วสำหรับเมทริกซ์ขนาดใหญ่มากอธิบายไว้ในคำตอบนั้นและอัลกอริธึม PCA ที่ดีที่สุดสำหรับคุณลักษณะจำนวนมาก .

อย่างไรก็ตามฉันไม่คิดว่ามีใครรวบรวมบทวิจารณ์หรือการอ้างอิงหรือหนังสือเกี่ยวกับเรื่องนี้ อาจไม่เป็นโครงการที่ไม่ดีสำหรับเวลาว่างของฉัน ...


ขอบคุณมันมีประโยชน์มาก! หากคุณทำการทบทวนวรรณกรรมสำหรับเทคนิคการสร้างแบบจำลองการทำนายต่าง ๆ ฉันแน่ใจว่ามันจะได้รับการอ้างอิงมาก มันจะมีประโยชน์มากสำหรับผู้ที่ต้องการแยกความแตกต่างระหว่างอัลกอริธึมที่จะใช้ในกรณีขนาดใหญ่ n หรือขนาดใหญ่หรือสำหรับค่ากลางของสิ่งเหล่านั้นสำหรับการคำนวณที่แม่นยำยิ่งขึ้น คุณรู้หรือไม่ว่าเทคนิคที่คลุมเครือมากขึ้นนั้นมีขอบเขตมากน้อยเพียงใด? (เช่นการถดถอยความเป็นอันตรายตามสัดส่วนของ Cox หรือการวิเคราะห์ปัจจัยที่ยืนยัน)
Bridgeburners

น่าเสียดายที่ไม่มี แต่ถ้าฉันเคยทำรีวิวฉันจะพยายามที่จะครอบคลุม ฉันแทบจะเรียกการถดถอยของ Cox ว่า ​​"คลุมเครือ" อย่างน้อยก็ในสาขาของฉัน
shadowtalker

5

ฉันให้คำตอบบางส่วนที่ จำกัด มากสำหรับแพ็คเกจการวิเคราะห์ปัจจัยยืนยันที่ฉันพัฒนาขึ้นสำหรับ Stata ในบทความ Stata Journal นี้โดยพิจารณาจากการจำลองเวลาจริง การวิเคราะห์ปัจจัยเชิงยืนยันได้ถูกนำมาใช้เป็นเทคนิคการประมาณความน่าจะเป็นสูงสุดและฉันสามารถเห็นได้อย่างง่ายดายว่าเวลาการคำนวณเพิ่มขึ้นในแต่ละมิติ (ขนาดตัวอย่างnจำนวนตัวแปรpจำนวนปัจจัยk) เนื่องจากขึ้นอยู่กับว่า Stata คิดอย่างไรกับข้อมูล (ปรับให้เหมาะสมเพื่อคำนวณข้ามคอลัมน์ / การสังเกตแทนที่จะเป็นแถว) ฉันจึงพบว่าประสิทธิภาพจะเป็นO(n^{0.68} (k+p)^{2.4})ที่ 2.4 เป็นเมทริกซ์เชิงผกผันของเมทริกซ์ที่เร็วที่สุด (และมีจำนวนมากในการวิเคราะห์ปัจจัยยืนยันยืนยันการเพิ่มซ้ำซ้ำ) ผมไม่ได้ให้การอ้างอิงสำหรับหลัง แต่ผมคิดว่าผมได้รับนี้จากวิกิพีเดีย

X'X108


2
การจัดรูปแบบทางคณิตศาสตร์ไม่สามารถใช้กับ DataScience ได้หรือไม่ จริงๆ? อาจเป็นเราควรขอให้ได้
StasK

จุดดีเกี่ยวกับความแม่นยำเชิงตัวเลข
shadowtalker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.