การโต้ตอบมีประโยชน์เฉพาะในบริบทของการถดถอยหรือไม่


11

ฉันมักจะอ่านคำว่าปฏิสัมพันธ์ในบริบทของการถดถอย เราควรพิจารณาปฏิสัมพันธ์กับรุ่นอื่นเช่น knn หรือ svm หรือไม่

หากมีฟีเจอร์ , 100หรือมากกว่าและปล่อยให้การสังเกต1,000ครั้งเป็นวิธีปกติในการค้นหาการโต้ตอบที่มีประโยชน์ ลองชุดค่าผสมทั้งหมดหรือไม่ หรือใช้เฉพาะชุดค่าผสมที่เหมาะสม501001000


หนึ่งคำตอบก็คือการโต้ตอบที่ลด VIF จะเป็นประโยชน์
คาร์ล

(+1) สำหรับถามคำถามที่มีประโยชน์
Carl

คำตอบ:


1

การโต้ตอบจำเป็นต้องมีอย่างชัดเจนในโมเดลการถดถอยเนื่องจากสูตรไม่รวมการโต้ตอบใด ๆ ต่อ se แม่นยำยิ่งขึ้นโมเดลการถดถอยจะเป็นเส้นตรงในอินพุตของมันในขณะที่ปฏิสัมพันธ์เป็นการรวมกันที่ไม่เชิงเส้นของคุณสมบัติXiXj

วิธีที่ง่ายที่สุดในการดูสิ่งนี้คือผ่าน XOR-Problem โมเดลการถดถอยที่ไม่มีการโต้ตอบใด ๆ ไม่สามารถแก้ปัญหานี้ได้เนื่องจากมันต้องใช้ชุดค่าผสมแบบไม่เชิงเส้น

ในทางกลับกัน KNNs และ SVMs (และรุ่นอื่น ๆ อีกมากมาย) เป็นตัวประมาณฟังก์ชั่นสากล ซึ่งหมายความว่าพวกเขาไม่สามารถรวมอินพุตของพวกเขาในแบบเชิงเส้นเท่านั้น แต่ยังรวมถึงวิธีที่ไม่เป็นเชิงเส้นด้วยเช่นกัน นั่นคือได้รับเลเยอร์เพียงพอหรือเคอร์เนลที่เหมาะสมพวกเขาสามารถ "สร้าง" ปฏิสัมพันธ์ของพวกเขาเองตามที่พวกเขาต้องการ หากคุณรู้หรือคาดหวังว่าการโต้ตอบที่เฉพาะเจาะจงมีความสำคัญคุณยังคงสามารถใช้มันเป็นข้อมูลป้อนเข้าเพื่อเป็นแนวทางในแบบจำลองในทิศทางที่ถูกต้อง

ในทำนองเดียวกันโมเดลที่ยึดตามต้นไม้สามารถตีความได้ว่าประกอบด้วยการโต้ตอบเท่านั้น โดยพื้นฐานแล้วการแยกในโมเดลแบบทรีสร้างการโต้ตอบเฉพาะกับตัวแปรก่อนหน้านี้ทั้งหมด

ดังนั้นสำหรับการตัดสินใจว่าการโต้ตอบใดที่จะใช้สำหรับโมเดล "พลังงานสูง" อย่างเพียงพอ (นั่นคือแบบประมาณฟังก์ชันสากล) คุณไม่จำเป็นต้องใช้มันและคุณสามารถปล่อยให้แบบจำลองนั้นมีเวทมนตร์ของตัวเอง สำหรับรุ่นอื่นมันขึ้นอยู่กับ มีเทคนิคบางอย่างที่สามารถใช้เป็นแนวทางในการตัดสินใจเช่นCHAIDหรือการถดถอยขั้นตอน CHAID ยังทำงานร่วมกับคุณสมบัติจำนวนมากสำหรับการถดถอยแบบขั้นตอนอาจทำให้หลงทางในการโต้ตอบที่เป็นไปได้ ระบุว่าหากคุณมีคุณสมบัติมีการโต้ตอบที่เป็นไปได้ (นับไม่เพียง แต่การโต้ตอบแบบสองทาง แต่ยังมีการโต้ตอบกับคำสั่งซื้อที่สูงขึ้น)N2N


1

เลขที่

ในความเป็นจริงคุณสามารถคิดว่า SVM พร้อมเคอร์เนลพหุนามกำลังเพิ่มการโต้ตอบ (ลำดับสูง) ทั้งหมดระหว่างคุณลักษณะทั้งหมด ตัวอย่างเช่นถ้าเรามีสองคุณสมบัติ , SVM กับพหุนาม 2 คำสั่งจะทำx_1x_2)(x1,x2)(x12,x22,x1x2)

SVM เรียกว่า Kernel Trick เนื่องจากเป็นการขยายพื้นฐานแบบพหุนามโดยมีความซับซ้อนในการคำนวณน้อยกว่ามาก คิดเกี่ยวกับการขยายพหุนามลำดับที่ 10 ของฟีเจอร์ 10 การขยายด้วยตนเองจะมีคอลัมน์ตัว แต่ใช้เคล็ดลับเคอร์เนลเราสามารถทำได้อย่างง่ายดาย1010

ดังนั้นการโต้ตอบไม่เพียง แต่ถูกใช้อย่างกว้างขวางในรุ่นอื่น ๆ ในการเพิ่มการโต้ตอบรุ่นอื่น ๆ พยายามทำมากขึ้นด้วยคุณสมบัติทางวิศวกรรม แทนที่จะได้การคูณสองคอลัมน์จะได้คุณสมบัติที่ซับซ้อนมากขึ้น


0

การโต้ตอบที่ปรับปรุงการปรับ R-squared, BIC สำหรับการถดถอยโอกาส (หรือ AICc และอื่น ๆ ), VIF และ F-statistic ของ ANOVA ซึ่งไม่ได้ระบุพารามิเตอร์ส่วนบุคคล

สิ่งที่สำคัญมาก แต่ไม่ได้ถามว่าการแก้ไขใหม่สามารถปรับปรุงได้อย่างชัดเจนทั้งผลของตัวแปรเดี่ยวและการโต้ตอบ อย่างไรก็ตามการวัดคุณภาพ BIC, AIC และความน่าจะเป็นอื่น ๆ จะไม่ถูกต้องสำหรับการเปรียบเทียบการกระจายซ้ำที่แตกต่างกันโดยปรับ R-squared, VIF และ F-statistic ของ ANOVA เพื่อวัตถุประสงค์ดังกล่าว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.