ออนไลน์วิธีการทางสถิติที่ปรับขนาดได้


12

นี่คือแรงบันดาลใจจากการถดถอยเชิงเส้นออนไลน์ที่มีประสิทธิภาพซึ่งฉันพบว่าน่าสนใจมาก มีข้อความหรือแหล่งข้อมูลใดบ้างที่อุทิศให้กับการคำนวณทางสถิติขนาดใหญ่โดยการคำนวณด้วยชุดข้อมูลที่ใหญ่เกินไปที่จะพอดีกับหน่วยความจำหลัก ตัวอย่างเช่นเป็นไปได้หรือไม่ที่จะใส่โมเดลเอฟเฟกต์แบบผสมเข้ากับแฟชั่นออนไลน์ มีใครบ้างไหมที่มองหาผลกระทบของการแทนที่เทคนิคการเพิ่มประสิทธิภาพลำดับที่ 2 มาตรฐานสำหรับ MLE ด้วยลำดับที่ 1 เทคนิคประเภท SGD


ฉันคิดว่าคำตอบคือ "ใช่" แน่นอนว่ามีคำจำกัดความเล็กน้อยที่นี่ สิ่งที่คนคนหนึ่งเห็นว่า "ขนาดใหญ่" บางครั้งก็แตกต่างจากคนอื่นมาก ความประทับใจของฉันก็คือเช่นนักวิจัยทางวิชาการหลายคนพิจารณาชุดข้อมูล Netflix "ขนาดใหญ่" ในขณะที่ในการตั้งค่าอุตสาหกรรมจำนวนมากก็จะถือว่าเป็น "อ่อนแอ" สำหรับเทคนิคการประมาณค่าซึ่งมักจะมีข้อมูลขนาดใหญ่มากประสิทธิภาพการคำนวณจะมีประสิทธิภาพมากกว่าสถิติ ตัวอย่างเช่นวิธีการของช่วงเวลาจะดำเนินการ (เกือบ) และ MLE ในการตั้งค่าเหล่านี้และสามารถคำนวณได้ง่ายกว่ามาก
พระคาร์ดินัล

2
คุณอาจค้นหาการประชุมเชิงปฏิบัติการเกี่ยวกับอัลกอริทึมสำหรับชุดข้อมูลขนาดใหญ่ที่ทันสมัย ​​(MMDS) มันยังเด็ก แต่ก็ดึงดูดผู้พูดที่น่าประทับใจในส่วนของสถิติวิศวกรรมและวิทยาการคอมพิวเตอร์รวมถึงระหว่างภาคการศึกษาและภาคอุตสาหกรรม
พระคาร์ดินัล

เพียงไม่กี่ทศวรรษเนื่องจากชุดข้อมูลส่วนใหญ่มีขนาดใหญ่เกินไปที่จะพอดีกับหน่วยความจำหลักและตัวเลือกของอัลกอริทึมที่ใช้ในโปรแกรมทางสถิติในช่วงต้นนั้นแสดงให้เห็นว่า โปรแกรมดังกล่าวไม่มีสิ่งอำนวยความสะดวกสำหรับโมเดลเอฟเฟ็กต์แบบผสม
onestop

คุณสามารถคำนวณสถิติสำหรับชุดข้อมูลได้หรือไม่? พูดเช่นผลรวมหรือค่าเฉลี่ยของรายการข้อมูล?
ความน่าจะเป็นทาง

คำตอบ:


5

คุณอาจมองเข้าไปในโครงการ Vowpal Wabbitจาก John Langford ที่ Yahoo! วิจัย . มันเป็นผู้เรียนออนไลน์ที่มีการไล่ระดับสีแบบพิเศษในฟังก์ชั่นการสูญเสียบางอย่าง VW มีคุณสมบัตินักฆ่า:

การทำนายการเรียนรู้และเกมของหนังสือ Bianchi & Lugosi ให้รากฐานที่มั่นคงทางทฤษฎีสำหรับการเรียนรู้ออนไลน์ อ่านหนัก แต่คุ้มค่า!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.