คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

2
การเลือกคุณสมบัติพร้อมป่าสุ่ม
ฉันมีชุดข้อมูลที่มีตัวแปรทางการเงินเป็นส่วนใหญ่ (คุณสมบัติ 120 ตัวอย่าง 4k) ซึ่งส่วนใหญ่มีความสัมพันธ์สูงและมีเสียงดังมาก (ตัวชี้วัดทางเทคนิคเป็นต้น) ดังนั้นฉันต้องการเลือกสูงสุด 20-30 สำหรับใช้ในภายหลังกับการฝึกอบรมแบบจำลอง - เพิ่ม / ลด) ฉันกำลังคิดเกี่ยวกับการใช้ฟอเรสต์แบบสุ่มเพื่อจัดอันดับคุณลักษณะ มันเป็นความคิดที่ดีไหมที่จะใช้มันซ้ำ ๆ ? ตัวอย่างเช่นสมมติว่าในรอบแรกฉันลดระดับที่แย่ที่สุด 20% ที่สองเช่นกันไปเรื่อย ๆ จนกว่าฉันจะได้รับคุณสมบัติตามที่ต้องการ ฉันควรใช้การตรวจสอบข้ามกับ RF หรือไม่ (เป็นเรื่องง่ายสำหรับฉันที่จะไม่ใช้ CV เพราะมันเป็นสิ่งที่ RF ทำอยู่แล้ว) นอกจากนี้ถ้าฉันใช้ฟอเรสต์แบบสุ่มฉันควรใช้มันเป็นตัวแยกประเภทสำหรับไบนารี่หรือรีจิสเตอร์สำหรับการเพิ่ม / ลดจริง ๆ เพื่อรับการนำเข้าคุณลักษณะ? ยังไงก็ตามแบบจำลองที่ฉันต้องการลองหลังจากการเลือกคุณสมบัติคือ: SVM, ตาข่ายประสาท, การถดถอยแบบถ่วงน้ำหนักในพื้นที่และฟอเรสต์แบบสุ่ม ฉันทำงานเป็นหลักใน Python

4
ความแม่นยำการจำแนกต่ำจะทำอย่างไรต่อไป
ดังนั้นฉันเป็นมือใหม่ในสาขา ML และฉันพยายามจัดหมวดหมู่ เป้าหมายของฉันคือการทำนายผลของการแข่งขันกีฬา ฉันรวบรวมข้อมูลทางประวัติศาสตร์บางอย่างแล้วและตอนนี้พยายามฝึกฝนตัวจําแนก ฉันมีตัวอย่างประมาณ 1200 ตัวอย่าง 0.2 ของพวกเขาแยกออกเพื่อวัตถุประสงค์ในการทดสอบและอื่น ๆ ที่ฉันใส่ลงในการค้นหากริด ฉันได้ลอง SVM ด้วยเมล็ดแบบเชิงเส้น rbf และโพลิโนมินัลและป่าสุ่มไปแล้ว น่าเสียดายที่ฉันไม่สามารถรับความแม่นยำมากกว่า 0.5 ได้อย่างมีนัยสำคัญ (เช่นเดียวกับการสุ่มเลือกชั้นเรียน) หมายความว่าฉันไม่สามารถคาดการณ์ผลลัพธ์ของเหตุการณ์ที่ซับซ้อนเช่นนี้ได้หรือไม่ หรือฉันสามารถรับความแม่นยำอย่างน้อย 0.7-0.8 ถ้าเป็นไปได้แล้วฉันจะดูอะไรต่อไป รับข้อมูลเพิ่มเติมหรือไม่ (ฉันสามารถขยายชุดข้อมูลได้สูงสุด 5 ครั้ง) ลองตัวแยกประเภทอื่นหรือไม่ (การถดถอยโลจิสติก, kNN, ฯลฯ ) ประเมินชุดคุณสมบัติของฉันอีกครั้ง? มี ML-tools ใดที่ต้องวิเคราะห์ซึ่งคุณสมบัติใดที่เหมาะสมและไม่ใช้ บางทีฉันควรลดชุดคุณลักษณะ (ปัจจุบันฉันมีคุณสมบัติ 12 อย่าง) หรือไม่

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

2
ความแตกต่างระหว่างการเลือกคุณสมบัติตาม“ F ถดถอย” และขึ้นอยู่กับค่า ?
การเปรียบเทียบคุณสมบัติต่าง ๆ โดยใช้คุณลักษณะF-regressionเดียวกับการเชื่อมโยงคุณสมบัติกับฉลากแต่ละรายการและการสังเกตค่าหรือไม่R2R2R^2 ฉันมักจะเห็นเพื่อนร่วมงานของฉันใช้F regressionสำหรับการเลือกคุณสมบัติในการเรียนรู้ของเครื่องจากsklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` บางคนบอกฉัน - ทำไมมันให้ผลลัพธ์เช่นเดียวกับที่สัมพันธ์กับตัวแปรฉลาก / depedendent? ข้อได้เปรียบของการใช้งานF_regressionในการเลือกคุณสมบัติ ไม่ชัดเจนสำหรับฉัน นี่คือรหัสของฉัน: ฉันใช้mtcarsชุดข้อมูลจากR: import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical …

4
การทำเหมืองข้อความ: วิธีจัดกลุ่มข้อความ (เช่นบทความข่าว) ด้วยปัญญาประดิษฐ์ได้อย่างไร
ฉันได้สร้างเครือข่ายนิวรัล (MLP (เชื่อมต่อเต็ม), Elman (กำเริบ) สำหรับงานที่แตกต่างกันเช่นการเล่นโป่ง, การจำแนกตัวเลขหลักที่เขียนด้วยลายมือและสิ่งต่าง ๆ ... นอกจากนี้ฉันพยายามสร้างโครงข่ายประสาทเทียมแบบแรกเช่นสำหรับการจำแนกบันทึกย่อที่เขียนด้วยลายมือหลายหลัก แต่ฉันใหม่สมบูรณ์ในการวิเคราะห์และจัดกลุ่มข้อความเช่นในการรับรู้ภาพ / การจัดกลุ่มงานหนึ่งสามารถพึ่งพาอินพุตมาตรฐานเช่นรูปภาพขนาด 25x25 RGB หรือเฉดสีเทาและอื่น ๆ ... มีคุณสมบัติมากมายที่คาดการณ์ไว้ล่วงหน้า สำหรับการทำเหมืองข้อความตัวอย่างเช่นบทความข่าวคุณมีขนาดของการป้อนข้อมูลที่เปลี่ยนแปลงตลอดเวลา (คำต่าง ๆ ประโยคที่แตกต่างความยาวข้อความที่แตกต่างกัน ... ) เราจะใช้เครื่องมือขุดข้อความที่ทันสมัยโดยใช้ปัญญาประดิษฐ์โดยเฉพาะอย่างยิ่งโครงข่ายประสาทเทียม / SOM ได้อย่างไร? น่าเสียดายที่ฉันไม่สามารถหาบทแนะนำง่าย ๆ สำหรับการเริ่มต้นได้ เอกสารทางวิทยาศาสตร์ที่ซับซ้อนยากที่จะอ่านและไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับการเรียนรู้หัวข้อ (ตามความเห็นของฉัน) ฉันได้อ่านบทความเกี่ยวกับ MLPs, เทคนิคการออกกลางคัน, โครงข่ายประสาทเทียมและอื่น ๆ แล้ว แต่ฉันไม่สามารถหาพื้นฐานเกี่ยวกับการทำเหมืองข้อความได้ - ทั้งหมดที่ฉันพบนั้นอยู่ในระดับที่สูงเกินไปสำหรับทักษะการทำเหมืองข้อความที่ จำกัด

1
Gini ลดลงและ Gini ไม่บริสุทธิ์ของโหนดลูก
ฉันกำลังทำงานกับตัววัดความสำคัญของคุณลักษณะ Gini สำหรับฟอเรสต์แบบสุ่ม ดังนั้นฉันจำเป็นต้องคำนวณการลดลงของ Gini ในโหนดที่ไม่บริสุทธิ์ นี่คือวิธีที่ฉันทำซึ่งนำไปสู่ความขัดแย้งกับคำนิยามแนะนำว่าฉันต้องผิดที่ไหนสักแห่ง ... :) สำหรับต้นไม้ไบนารีและได้รับความน่าจะเป็นของลูกซ้ายและขวาฉันสามารถคำนวณความไม่บริสุทธิ์ของ Gini ของโหนด :nnn i(n)=1−p2l−p2ri(n)=1−pl2−pr2 i(n) = 1 - p_l^2 - p_r^2 และ Gini ลดลง: Δi(n)=i(n)−pli(nl)−pri(nr)Δi(n)=i(n)−pli(nl)−pri(nr) \Delta i(n) = i(n) - p_li(n_l) - p_ri(n_r) ดังนั้นสำหรับตัวอย่างนี้มีการสังเกต 110 จุดบนโหนด: - node (110) - left (100) - left_left (60) - left_right (40) - right …

2
LASSO / LARS เทียบกับวิธีทั่วไป (GETS)
ฉันสงสัยว่าทำไมการเลือกรูปแบบ LASSO และ LARS ถึงได้รับความนิยมถึงแม้ว่าพวกเขาจะเป็นเพียงรูปแบบของการเลือกไปข้างหน้าอย่างชาญฉลาด (และทำให้ต้องพึ่งพาเส้นทาง) ในทำนองเดียวกันทำไม General to Specific (GETT) จึงมีวิธีการในการเลือกรูปแบบเป็นส่วนใหญ่ถึงแม้ว่าพวกเขาจะทำได้ดีกว่า LARS / LASSO เพราะพวกเขาไม่ประสบปัญหาการถดถอยขั้นตอนที่ชาญฉลาด? (การอ้างอิงพื้นฐานสำหรับ GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - อัลกอริทึมใหม่ในการเริ่มต้นนี้ด้วยการค้นหาแบบกว้างและแผนผังที่หลีกเลี่ยงการพึ่งพาพา ธ และแสดงให้เห็นถึง มักจะทำได้ดีกว่า LASSO / LARS) ดูเหมือนแปลก ๆ LARS / LASSO ดูเหมือนจะได้รับการเปิดเผยและการอ้างอิงมากกว่า General to Specific (GET) ทุกคนมีความคิดอะไรบ้าง? ไม่พยายามเริ่มการถกเถียงอย่างจริงจังมองหาคำอธิบายที่สมเหตุสมผลว่าทำไมวรรณกรรมดูเหมือนจะให้ความสำคัญกับ LASSO / LARS มากกว่า GET และมีคนเพียงไม่กี่คนที่ชี้ให้เห็นถึงข้อบกพร่องของ LASSO / LARS

5
การประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่องในการศึกษาทางคลินิกตัวอย่างขนาดเล็ก
คุณคิดอย่างไรเกี่ยวกับการใช้เทคนิคการเรียนรู้ของเครื่องเช่นป่าสุ่มหรือการลงโทษที่ถูกลงโทษ (ด้วยการลงโทษ L1 หรือ L2 หรือการรวมกัน) ในการศึกษาทางคลินิกตัวอย่างขนาดเล็กเมื่อมีวัตถุประสงค์เพื่อแยกตัวทำนายที่น่าสนใจในบริบทการจำแนกประเภท ไม่ใช่คำถามเกี่ยวกับการเลือกแบบจำลองและฉันไม่ถามเกี่ยวกับวิธีการหาค่าประมาณที่เหมาะสมที่สุดของเอฟเฟกต์ / ความสำคัญของตัวแปร ฉันไม่ได้วางแผนที่จะทำการอนุมานที่แข็งแกร่ง แต่ใช้การสร้างแบบจำลองหลายตัวแปรดังนั้นหลีกเลี่ยงการทดสอบตัวทำนายแต่ละตัวต่อผลลัพธ์ที่น่าสนใจในแต่ละครั้งและคำนึงถึงความสัมพันธ์ของพวกเขาด้วย ฉันแค่สงสัยว่าวิธีการดังกล่าวถูกนำไปใช้แล้วในกรณีที่รุนแรงนี้โดยเฉพาะพูด 20-30 วิชาที่มีข้อมูลเกี่ยวกับ 10-15 หมวดหมู่หรือตัวแปรต่อเนื่อง มันไม่ได้ตรงกรณีและฉันคิดว่านี่คือปัญหาที่เกี่ยวข้องกับจำนวนของชั้นเรียนที่เราพยายามที่จะอธิบาย (ซึ่งมักจะไม่สมดุลกัน) และ (มาก) n ขนาดเล็ก ฉันตระหนักถึงวรรณกรรมจำนวนมากในหัวข้อนี้ในบริบทของชีวสารสนเทศศาสตร์ แต่ฉันไม่พบการอ้างอิงใด ๆ ที่เกี่ยวข้องกับการศึกษาทางชีวการแพทย์ที่มีฟีโนไทป์ที่วัดทางจิตวิทยา (เช่นตลอดแบบสอบถามทางประสาทวิทยา)n≪pn≪pn\ll p คำแนะนำหรือพอยน์เตอร์ไปยังเอกสารที่เกี่ยวข้อง? ปรับปรุง ฉันเปิดให้โซลูชั่นอื่น ๆ สำหรับการวิเคราะห์ข้อมูลประเภทนี้เช่นอัลกอริทึม C4.5 หรืออนุพันธ์วิธีการกฎการเชื่อมโยงและเทคนิคการขุดข้อมูลสำหรับการจำแนกประเภทแบบมีผู้ควบคุมหรือกึ่งมีผู้ดูแล

3
สำหรับตัวแยกประเภทแบบเชิงเส้นสัมประสิทธิ์ขนาดใหญ่แสดงถึงคุณสมบัติที่สำคัญกว่านี้ไหม
ฉันเป็นวิศวกรซอฟต์แวร์ที่ทำงานเกี่ยวกับการเรียนรู้ของเครื่อง จากความเข้าใจของฉันการถดถอยเชิงเส้น (เช่น OLS) และการ จำแนกเชิงเส้น (เช่นการถดถอยโลจิสติกและ SVM) ทำให้การคาดการณ์ขึ้นอยู่กับผลิตภัณฑ์ภายในระหว่างค่าสัมประสิทธิ์การฝึกอบรม และตัวแปรคุณลักษณะ→ x :W⃗ W→\vec{w}x⃗ x→\vec{x} Y^= f( ด้วย⃗ ⋅ x⃗ ) = f( ∑ผมWผมxผม)Y^=ฉ(W→⋅x→)=ฉ(ΣผมWผมxผม) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) คำถามของฉันคือ: หลังจากแบบจำลองได้รับการฝึกอบรม (นั่นคือหลังจากสัมประสิทธิ์คำนวณแล้ว) เป็นกรณีที่สัมประสิทธิ์จะมีขนาดใหญ่กว่าสำหรับตัวแปรคุณลักษณะที่สำคัญกว่าสำหรับแบบจำลองที่จะทำนายได้แม่นยำกว่าหรือไม่WผมWผมw_i ในคำอื่น ๆ ฉันถามว่าขนาดสัมพัทธ์ของสัมประสิทธิ์สามารถใช้สำหรับการเลือกคุณสมบัติโดยเพียงแค่สั่งตัวแปรตามค่าสัมประสิทธิ์แล้วเลือกคุณสมบัติที่มีสัมประสิทธิ์สูงสุดหรือไม่ หากวิธีการนี้ถูกต้องแล้วทำไมถึงไม่กล่าวถึงการเลือกคุณสมบัติ (รวมถึงวิธีการหุ้มและตัวกรอง ฯลฯ ) เหตุผลที่ฉันถามสิ่งนี้เพราะฉันได้พบกับการอภิปรายเกี่ยวกับการทำให้เป็นมาตรฐานL1 กับ L2 มีการประกาศแจ้งความว่า: การเลือกคุณสมบัติในตัวถูกกล่าวถึงบ่อยครั้งว่าเป็นคุณสมบัติที่มีประโยชน์ของ L1-norm ซึ่ง …

2
การผสมข้อมูลอย่างต่อเนื่องและไบนารีกับ Linear SVM หรือไม่
ดังนั้นฉันจึงได้เล่นรอบกับ SVM และฉันสงสัยว่านี่เป็นสิ่งที่ดีที่จะทำ: ฉันมีชุดคุณสมบัติแบบต่อเนื่อง (0 ถึง 1) และชุดคุณสมบัติแบบหมวดหมู่ที่ฉันแปลงเป็นตัวแปรจำลอง ในกรณีพิเศษนี้ฉันเข้ารหัสวันที่ของการวัดในตัวแปรจำลอง: มี 3 ช่วงเวลาที่ฉันมีข้อมูลจากและฉันจองหมายเลขฟีเจอร์ 3 หมายเลขสำหรับพวกเขา: 20: 21: 22: ดังนั้นขึ้นอยู่กับช่วงเวลาที่ข้อมูลมาคุณสมบัติที่แตกต่างจะได้รับ 1 กำหนด; คนอื่นจะได้รับ 0 SVM จะทำงานอย่างถูกต้องกับสิ่งนี้หรือสิ่งนี้เป็นสิ่งที่ไม่ดีที่ต้องทำหรือไม่? ฉันใช้ SVMLight และเคอร์เนลเชิงเส้น

1
การเลือกคุณสมบัติ Chi-Square ทำงานอย่างไร
ฉันรู้ว่าสำหรับคู่ของฟีเจอร์คลาสแต่ละคู่ค่าของสถิติไคสแควร์จะถูกคำนวณและเปรียบเทียบกับขีด จำกัด ฉันสับสนเล็กน้อย หากมีคุณสมบัติและคลาสหนึ่งจะสร้างตารางฉุกเฉินได้อย่างไร ใครจะเป็นผู้ตัดสินใจว่าจะเก็บฟีเจอร์ใดและฟีเจอร์ใดที่จะลบ?ม.ม.mkkk การชี้แจงใด ๆ จะได้รับการชื่นชมมาก ขอบคุณล่วงหน้า

5
มันจะดีกว่าที่จะทำการวิเคราะห์ข้อมูลเชิงสำรวจในชุดข้อมูลการฝึกอบรมเท่านั้น?
ฉันกำลังทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ในชุดข้อมูล จากนั้นฉันจะเลือกคุณสมบัติบางอย่างเพื่อทำนายตัวแปรตาม คำถามคือ: ฉันควรทำ EDA บนชุดข้อมูลการฝึกอบรมของฉันเท่านั้นหรือไม่ หรือฉันควรเข้าร่วมการฝึกอบรมและการทดสอบชุดข้อมูลจากนั้นทำ EDA กับพวกเขาทั้งสองและเลือกคุณสมบัติตามการวิเคราะห์นี้?

4
การเลือกฟีเจอร์และการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์จะต้องสั่งซื้อในขั้นตอนการเรียนรู้ของเครื่องอย่างไร?
วัตถุประสงค์ของฉันคือการจำแนกสัญญาณเซ็นเซอร์ แนวคิดของการแก้ปัญหาของฉันคือ: i) คุณสมบัติทางวิศวกรรมจากสัญญาณดิบ ii) การเลือกคุณสมบัติที่เกี่ยวข้องกับ ReliefF และวิธีการจัดกลุ่ม iii) ใช้ NN, Random Forest และ SVM อย่างไรก็ตามฉันติดอยู่ในภาวะที่กลืนไม่เข้าคายไม่ออก ใน ii) และ iii) มีพารามิเตอร์หลายตัวเช่น k-Neigbours ที่ใกล้ที่สุดสำหรับ ReliefF หรือความยาวหน้าต่างซึ่งสัญญาณเซ็นเซอร์จะถูกประเมินหรือจำนวนหน่วยที่ซ่อนอยู่ในแต่ละชั้นของ NN มี 3 ปัญหาที่ฉันเห็นที่นี่: 1) การปรับพารามิเตอร์การเลือกคุณสมบัติจะมีผลต่อประสิทธิภาพการแยกประเภท 2) การเพิ่มประสิทธิภาพของพารามิเตอร์ตัวจําแนก 3) การประเมินการรวมกันที่เป็นไปได้ของการกำหนดค่าแต่ละอย่างเป็นไปไม่ได้ ดังนั้นคำถามของฉันคือ: a) ฉันสามารถสร้างสมมติฐานที่ทำให้เข้าใจง่ายได้ง่ายพารามิเตอร์การเลือกคุณลักษณะการปรับค่า st สามารถแยกออกจากการปรับพารามิเตอร์ตัวแยกประเภทได้หรือไม่ b) มีวิธีแก้ไขอื่น ๆ ที่เป็นไปได้หรือไม่?

3
การเลือกตัวแปรแบบเบย์ - ใช้งานได้จริงหรือ
ฉันคิดว่าฉันอาจเล่นกับการเลือกตัวแปรแบบเบย์บางอย่างหลังจากโพสต์บล็อกที่ดีและเอกสารที่เชื่อมโยงอยู่ในนั้น ฉันเขียนโปรแกรมในrjags (ที่ฉันค่อนข้างใหม่) และดึงข้อมูลราคาสำหรับ Exxon Mobil พร้อมกับบางสิ่งที่ไม่น่าจะอธิบายผลตอบแทน (เช่นราคาของแพลเลเดียม) และสิ่งอื่น ๆ ที่ควรมีความสัมพันธ์สูง (เช่น SP500 ) วิ่งlm()เราจะเห็นว่ามีหลักฐานที่ชัดเจนของแบบจำลองที่มีพารามิเตอร์มากเกินไป แต่แพลเลเดียมนั้นควรได้รับการยกเว้น: Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error …

1
อัลกอริธึมการถดถอยแบบไปข้างหน้าคืออะไร?
อาจเป็นเพียงว่าฉันเหนื่อย แต่ฉันมีปัญหาในการพยายามทำความเข้าใจอัลกอริทึมการถดถอยของ Stagewise Forward จาก"องค์ประกอบของการเรียนรู้ทางสถิติ"หน้า 60: Forward-stagewise regression (FS) ยิ่งมีข้อ จำกัด มากกว่าการถดถอยแบบขั้นตอนไปข้างหน้า มันเริ่มต้นจากการถดถอยแบบก้าวไปข้างหน้าโดยมีจุดตัดเท่ากับ [ค่าเฉลี่ยของ] y และตัวทำนายกึ่งกลางที่มี coe ffi cients ทั้งหมด 0 เริ่มแรก ในแต่ละขั้นตอนอัลกอริทึมระบุตัวแปรที่สัมพันธ์กับส่วนที่เหลือในปัจจุบันมากที่สุด จากนั้นคำนวณค่าสัมประสิทธิ์การถดถอยเชิงเส้นอย่างง่ายของส่วนที่เหลือของตัวแปรที่เลือกนี้แล้วเพิ่มลงในค่าปัจจุบันสำหรับตัวแปรนั้น สิ่งนี้จะดำเนินต่อไปจนกระทั่งไม่มีตัวแปรใดที่มีความสัมพันธ์กับส่วนที่เหลือ - นั่นคือสแควร์สน้อยที่สุดเมื่อ N> p นี่คืออัลกอริทึมหรือไม่: b[1]=mean(y) b[2..n]=0 r=(y-X*b) index, maxCorr = max(transpose(r)*X) while(abs(maxCorr) > someThreshold) b[index]=b[index]+regress(r,X[1..n][index]) r=(y-X*b) index, maxCorr = max(transpose(r)*X) โดยที่ b คือคอลัมน์เวกเตอร์ของสัมประสิทธิ์ X …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.