เราทำการวิเคราะห์ถดถอยแบบหลายตัวแปรด้วยค่าสัมประสิทธิ์ * ตัวแปร * / *

ฉันใช้เวลาเรียนรู้การเรียนรู้ของเครื่องจักร (ขออภัยสำหรับการเรียกซ้ำ :) และฉันอดไม่ได้ที่จะรู้สึกทึ่งกับกฎง่ายๆในการเลือก Gradient Descent ผ่านการแก้สมการโดยตรงสำหรับการคำนวณสัมประสิทธิ์การถดถอยในกรณีของการถดถอยเชิงเส้นหลายตัวแปร

Rule of thumb: ถ้าจำนวนคุณสมบัติ (อ่านค่าสัมประสิทธิ์ / ตัวแปรอิสระ) อยู่ระหว่างหรือมากกว่าล้านไปกับ Gradient Descent การคำนวณเมทริกซ์ผกผันอื่นสามารถจัดการได้อย่างเป็นธรรมบนฮาร์ดแวร์สินค้าและทำให้การคำนวณสัมประสิทธิ์โดยตรงควรจะดีพอ . $10,000 - 1,000,000$

ฉันพูดถึงสิ่งที่ได้รับจากการแลกเปลี่ยน / ข้อ จำกัด แต่จากมุมมองทางสถิติเราคำนวณแบบจำลองกับค่าสัมประสิทธิ์จำนวนมากที่เคยทำจริงหรือไม่? ถ้าฉันจำคลาสถดถอยเชิงเส้นหลายตัวแปรในโรงเรียนระดับประถมศึกษาเราได้รับคำเตือนให้ใช้ตัวแปรอิสระมากเกินไปเนื่องจากอาจมีผลกระทบเล็กน้อยต่อตัวแปรตามหรือการกระจายของพวกเขาจะไม่เป็นไปตามสมมติฐานที่เราทำเกี่ยวกับข้อมูล แม้ว่าผมจะไม่ขยายความคิดของฉันที่จะคิดว่า "เกลือจำนวนมาก" ผมยังไม่ได้คิดในล้าน

คำถาม (s):

สิ่งนี้เกิดขึ้นจริงหรือเป็นประเด็นทางทฤษฎีหรือไม่
จุดประสงค์ของการวิเคราะห์ล้านไอวีคืออะไร? มันทำให้เราได้รับมูลค่าของข้อมูลที่เพิ่มขึ้นอย่างมากเมื่อเทียบกับการเพิกเฉยหรือไม่
หรือเป็นเพราะในตอนแรกเราไม่รู้ว่าอะไรมีประโยชน์ดังนั้นเราจึงเรียกใช้การถดถอยแช่งเพื่อดูว่ามีประโยชน์อะไรและไปจากที่นั่นและอาจตัดชุด IV

ฉันยังคงเชื่อเพียงเพราะเราสามารถวิเคราะห์ "ทุกอย่าง" ไม่ได้หมายความว่าเราควรโยนมันเข้าไปในตัวแก้ปัญหา (หรือทำ) และคำถามที่ผ่านมาบางคำถามของฉันสะท้อนถึง POVs ที่คล้ายกัน

ฉันยังเรียนไม่จบและฉันอาจจะถามคำถามนี้ในเร็ว ๆ นี้ แต่ฉันไม่สามารถรับสิ่งนี้ได้ "ทำไม" คิดออกมาจากหัวของฉันและฉันกำลังพยายามที่จะเข้าใจในสิ่งที่ดีที่สุดของความสามารถของฉัน

machine-learning multiple-regression large-data

— ปริญญาเอก
แหล่งที่มา

สิ่งนี้เกิดขึ้นจริงหรือเป็นประเด็นทางทฤษฎีหรือไม่

มันเกิดขึ้นดูรูปแบบที่นิยมใด ๆ สำหรับการมองเห็นคอมพิวเตอร์ สมมติว่าalexnetมีการเชื่อมต่อหนาแน่นระหว่าง 2048 ถึง 2048 ยูนิตนั่นคือสัมประสิทธิ์ 4 ล้าน

จุดประสงค์ของการวิเคราะห์ล้านไอวีคืออะไร? มันทำให้เราได้รับมูลค่าของข้อมูลที่เพิ่มขึ้นอย่างมากเมื่อเทียบกับการเพิกเฉยหรือไม่

หากคุณกำลังวิเคราะห์ข้อมูลที่มีการจัดหมวดหมู่อย่างสูง (เช่นข้อมูลโฆษณาทางอินเทอร์เน็ต ) โมเดลของคุณจะต้องมี 'คำอธิบาย' ที่มีความหมายสำหรับแต่ละหมวดหมู่ (เช่นเมือง, รหัสหน้า, ชื่อไซต์, รหัสโฆษณา, รหัสผู้ใช้ ฯลฯ ) ขนาดของ 'คำอธิบาย' ขึ้นอยู่กับรุ่น ML ที่เลือก

แม้แต่การถดถอยแบบลอจิสติกที่เรียบง่ายก็จะมีพารามิเตอร์นับหมื่นให้เลือก (หนึ่งรายการต่อหมวดหมู่) แบบจำลองขั้นสูงอื่น ๆ เช่นเครื่องแยกตัวประกอบจะมีเวลามากขึ้น

หรือเป็นเพราะในตอนแรกเราไม่รู้ว่าอะไรมีประโยชน์ดังนั้นเราจึงเรียกใช้การถดถอยแช่งเพื่อดูว่ามีประโยชน์อะไรและไปจากที่นั่นและอาจตัดชุด IV

จริงส่วนใหญ่ของพารามิเตอร์ติดตั้งในรูปแบบเหล่านี้สามารถลดลง แต่คุณไม่สามารถรู้ได้ว่าก่อนเพื่อให้คุณออกจากปัญหาของการกำหนดที่พารามิเตอร์มีความสำคัญต่อการเรียนรู้เครื่องและกำหนดบางregularizationsที่จะนำ 'ขีด จำกัด นุ่ม' ไปยังหมายเลขที่มีประสิทธิภาพ ของพารามิเตอร์ที่จะอยู่

... และฉันคิดว่าคุณจะพบตัวอย่างดังกล่าวในภายหลังในหลักสูตร ML ของคุณ

— Alleo
แหล่งที่มา