คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

2
การตรวจจับความผิดปกติ: อัลกอริธึมที่ใช้?
บริบท: ฉันกำลังพัฒนาระบบที่วิเคราะห์ข้อมูลทางคลินิกเพื่อกรองข้อมูลที่ไม่น่าเชื่อที่อาจเป็นตัวพิมพ์ผิด สิ่งที่ฉันทำจนถึง: ในการหาปริมาณที่เป็นไปได้ความพยายามของฉันคือการทำให้ข้อมูลเป็นปกติแล้วคำนวณค่าความน่าเชื่อถือสำหรับจุด p ตามระยะทางไปยังจุดข้อมูลที่ทราบในชุด D (= ชุดฝึกอบรม): plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q)) ด้วยการหาปริมาณนั้นฉันสามารถเลือกเกณฑ์ที่แยกข้อมูลที่เป็นไปได้จากข้อมูลที่ไม่น่าเชื่อ ฉันใช้ python / numpy ปัญหาของฉัน: อัลกอริทึมนี้ไม่สามารถตรวจพบมิติอิสระ เป็นการดีที่ฉันสามารถใส่ทุกสิ่งที่ฉันรู้เกี่ยวกับบันทึกลงในอัลกอริทึมและปล่อยให้มันค้นพบด้วยตัวเองว่ามิติ X ไม่มีผลต่อความน่าเชื่อถือของบันทึก อัลกอริทึมไม่ทำงานสำหรับค่าที่ไม่ต่อเนื่องเช่นบูลีนหรืออินพุตที่เลือก พวกเขาสามารถแมปกับค่าต่อเนื่อง แต่มันเป็นเคาน์เตอร์ที่ใช้งานง่ายว่า Select 1 ใกล้กับ Select 2 มากกว่า to Select 3 คำถาม: ฉันควรมองหาอัลกอริธึมประเภทใดสำหรับงานนี้ ดูเหมือนว่าจะมีตัวเลือกมากมายรวมถึงวิธีที่อยู่ใกล้เคียงที่สุดการจัดกลุ่มตามแนวทางและสถิติ นอกจากนี้ฉันมีปัญหาในการค้นหาเอกสารที่เกี่ยวข้องกับการตรวจจับความผิดปกติของความซับซ้อนนี้ คำแนะนำใด ๆ ที่ชื่นชมอย่างมาก [แก้ไข] ตัวอย่าง: สมมติว่าข้อมูลประกอบด้วยความสูงของบุคคลน้ำหนักของบุคคลและการประทับเวลา - ดังนั้นจึงเป็นข้อมูล 3D น้ำหนักและส่วนสูงมีความสัมพันธ์กัน แต่การประทับเวลามีความเป็นอิสระอย่างสมบูรณ์ หากฉันพิจารณาระยะทางแบบยุคลิดฉันจะต้องเลือกขีด จำกัด …

1
การตัดสินใจปรับต้นไม้ทรีตัวแปร (คุณสมบัติ) และตัวแปร (ฟีเจอร์) การปรับมาตรฐาน
ในอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากการปรับขนาด (หรือที่เรียกว่าการปรับขนาดตัวแปรการทำให้เป็นมาตรฐาน) เป็นขั้นตอนการเตรียมความพร้อมร่วมกันWikipedia - Feature Scaling - คำถามนี้ปิดคำถาม # 41704 - การปรับมาตรฐานและการปรับขนาด ฉันมีสองคำถามโดยเฉพาะเกี่ยวกับต้นไม้ตัดสินใจ: มีการใช้งานต้นไม้ตัดสินใจที่จะต้องมีการปรับขนาด? ฉันรู้สึกว่าเกณฑ์การแยกของอัลกอริทึมส่วนใหญ่ไม่ได้สัดส่วน พิจารณาตัวแปรเหล่านี้: (1) หน่วย, (2) ชั่วโมง, (3) หน่วยต่อชั่วโมง - เป็นการดีที่สุดที่จะปล่อยให้ตัวแปรทั้งสามนี้ "ตามสภาพ" เมื่อถูกป้อนเข้าสู่ต้นไม้การตัดสินใจหรือเราเจอความขัดแย้งบางประเภท เนื่องจากตัวแปร "normalized" (3) สัมพันธ์กับ (1) และ (2)? นั่นคือคุณจะโจมตีสถานการณ์นี้โดยการโยนตัวแปรทั้งสามลงในการผสมหรือคุณจะเลือกการรวมกันของทั้งสามหรือเพียงแค่ใช้คุณสมบัติ "ปกติ / มาตรฐาน" (3)?

3
การเลือกคุณสมบัติควรทำกับข้อมูลการฝึกอบรมเท่านั้น (หรือข้อมูลทั้งหมด)?
ควรเลือกคุณลักษณะที่ทำกับข้อมูลการฝึกอบรมเท่านั้น (หรือข้อมูลทั้งหมด)? ฉันผ่านการสนทนาและเอกสารเช่นGuyon (2003)และSinghi และ Liu (2006)แต่ก็ยังไม่แน่ใจเกี่ยวกับคำตอบที่ถูก การตั้งค่าการทดสอบของฉันเป็นดังนี้: ชุดข้อมูล: การควบคุมที่ดีต่อสุขภาพ 50 คนและผู้ป่วยโรค 50 คน (คุณสมบัติ cca 200 ที่สามารถเกี่ยวข้องกับการทำนายโรค) ภารกิจคือการวินิจฉัยโรคตามคุณสมบัติที่มีอยู่ สิ่งที่ฉันทำคือ ใช้ชุดข้อมูลทั้งหมดและทำการเลือกคุณสมบัติ (FS) ฉันเก็บเฉพาะคุณสมบัติที่เลือกไว้เพื่อการประมวลผลต่อไป แยกเพื่อทดสอบและฝึกอบรมตัวจําแนกรถไฟโดยใช้ข้อมูลรถไฟและคุณสมบัติที่เลือก จากนั้นใช้ตัวจําแนกเพื่อทดสอบข้อมูล (อีกครั้งโดยใช้เฉพาะคุณสมบัติที่เลือก) ใช้การตรวจสอบความถูกต้องแบบลาก่อน รับความถูกต้องจำแนก ค่าเฉลี่ย: ทำซ้ำ 1) -3) N ครั้ง (100)ยังไม่มีข้อความ= 50ยังไม่มีข้อความ=50N=50 ฉันจะยอมรับว่าการทำ FS กับชุดข้อมูลทั้งหมดสามารถแนะนำอคติบางอย่าง แต่ความเห็นของฉันคือ "เฉลี่ยโดยเฉลี่ย" ในระหว่างการหาค่าเฉลี่ย (ขั้นตอนที่ 4) ถูกต้องหรือไม่ (ความแปรปรวนความแม่นยำคือ&lt; 2 %&lt;2%<2\% ) 1 …

3
การเลือกคุณสมบัติโดยใช้ข้อมูลร่วมกันใน Matlab
ฉันกำลังพยายามใช้ความคิดของข้อมูลร่วมกันกับการเลือกคุณสมบัติตามที่อธิบายไว้ในบันทึกการบรรยายเหล่านี้ (หน้า 5) แพลตฟอร์มของฉันคือ Matlab ปัญหาหนึ่งที่ฉันพบเมื่อคำนวณข้อมูลร่วมกันจากข้อมูลเชิงประจักษ์ก็คือจำนวนนั้นจะเอนเอียงเสมอไป ฉันพบไฟล์ประมาณ 3 ~ 4 ไฟล์เพื่อคำนวณ MI บน Matlab Central และพวกเขาทั้งหมดให้จำนวนมาก (เช่น&gt; 0.4) เมื่อฉันป้อนในตัวแปรสุ่มแบบอิสระ ฉันไม่ใช่ผู้เชี่ยวชาญ แต่ปัญหาดูเหมือนว่าถ้าคุณใช้ความหนาแน่นแบบร่วมและส่วนเพิ่มในการคำนวณ MI ระบบจะนำความลำเอียงมาใช้เนื่องจาก MI มีความหมายในเชิงบวก ใครบ้างมีคำแนะนำการปฏิบัติเกี่ยวกับวิธีการประเมินข้อมูลร่วมกันอย่างถูกต้อง? คำถามที่เกี่ยวข้องคือในทางปฏิบัติผู้คนใช้ MI เพื่อเลือกคุณสมบัติอย่างไร ฉันไม่เห็นชัดเจนว่าจะเกิดขึ้นกับค่าเกณฑ์ได้อย่างไรเนื่องจาก MI อยู่ในทฤษฎีที่ไม่มีขอบเขต หรือผู้คนเพียงแค่จัดอันดับคุณสมบัติของ MI และใช้คุณสมบัติ k อันดับต้น ๆ

1
การจัดการกับชุดข้อมูลอนุกรมเวลาที่มีขนาดใหญ่มาก
ฉันสามารถเข้าถึงชุดข้อมูลที่มีขนาดใหญ่มาก ข้อมูลมาจากการบันทึกMEGของผู้คนที่ฟังเพลงที่ตัดตอนมาจากหนึ่งในสี่ประเภท ข้อมูลมีดังนี้: 6 วิชา 3 การทดลองซ้ำ (ตอน) 120 การทดลองต่อยุค 8 วินาทีของข้อมูลต่อการทดลองที่ 500Hz (= 4000 ตัวอย่าง) จาก 275 MEG channel ดังนั้น "ตัวอย่าง" นี่คือเมทริกซ์ขนาด [4000x275] และมีตัวอย่าง 2160 ตัวอย่างและนั่นคือก่อนการแยกคุณลักษณะใด ๆ เป้าหมายคือการทำนายประเภทตามสัญญาณสมอง (การจำแนก 4 ระดับ) เห็นได้ชัดว่ามีบางประเด็นที่ท้าทายที่นี่คือ: ชุดข้อมูลไม่พอดีกับหน่วยความจำ ข้อมูลจะมีความสัมพันธ์ทางโลกที่แข็งแกร่งและความแปรผันระหว่างหัวข้อจะมีขนาดใหญ่มาก ดังนั้นจึงไม่ชัดเจนว่าจะแบ่งข้อมูลอย่างไร อัตราส่วนสัญญาณต่อเสียงรบกวนต่ำมาก ไม่ชัดเจนว่าคุณสมบัติที่ถูกต้องสำหรับตัวจําแนกจะเป็นอย่างไร สิ่งเหล่านี้ในทางกลับกัน: มีหลายสิ่งที่เราทำได้ ประการแรกเราสามารถลดตัวอย่างได้อย่างปลอดภัยจาก 500Hz ถึง ~ 200Hz แม้ว่าการ จำกัด Nyquist เข้าบัญชีกิจกรรมสมองไม่ได้เกิดขึ้นจริงที่ 100Hz …

4
มีวิธีใช้การตรวจสอบไขว้เพื่อทำการเลือกตัวแปร / คุณสมบัติใน R หรือไม่?
ฉันมีชุดข้อมูลที่มีตัวแปรประมาณ 70 ตัวที่ฉันต้องการลด สิ่งที่ฉันต้องการทำคือใช้ CV เพื่อค้นหาตัวแปรที่มีประโยชน์มากที่สุดในรูปแบบต่อไปนี้ 1) สุ่มเลือกพูด 20 ตัวแปร 2) ใช้stepwise/ LASSO/ lars/ ฯลฯ เพื่อเลือกตัวแปรที่สำคัญที่สุด 3) ทำซ้ำ ~ 50x และดูว่าตัวแปรใดถูกเลือก (ไม่ตัดออก) บ่อยที่สุด นี่เป็นไปตามสายของสิ่งที่randomForestจะทำ แต่rfVarSelดูเหมือนว่าแพคเกจจะทำงานเฉพาะกับปัจจัย / การจัดหมวดหมู่และฉันจำเป็นต้องทำนายตัวแปรตามอย่างต่อเนื่อง ฉันกำลังใช้ R ดังนั้นคำแนะนำใด ๆ ก็จะถูกนำไปใช้อย่างเหมาะสม

4
การปรับปรุงการจำแนกประเภท SVM ของโรคเบาหวาน
ฉันใช้ SVM เพื่อทำนายโรคเบาหวาน ฉันใช้ชุดข้อมูลBRFSSเพื่อจุดประสงค์นี้ ชุดข้อมูลมีขนาดและเบ้ ร้อยละของในตัวแปรเป้าหมายคือขณะที่s เป็นการส่วนที่เหลืออีก\%432607 × 136432607×136432607 \times 136Y89 %11 %11%11\%N89 %89%89\% ฉันกำลังใช้เพียง15ออกจาก136ตัวแปรอิสระจากชุดข้อมูล หนึ่งในเหตุผลในการลดชุดข้อมูลคือต้องมีตัวอย่างการฝึกอบรมเพิ่มเติมเมื่อNAละเว้นแถวที่มีs 15ตัวแปรเหล่านี้ถูกเลือกหลังจากใช้วิธีการทางสถิติเช่นต้นไม้สุ่มการถดถอยโลจิสติกส์และการค้นหาว่าตัวแปรใดมีความสำคัญจากตัวแบบผลลัพธ์ ตัวอย่างเช่นหลังจากรันการถดถอยโลจิสติกเราใช้p-valueในการสั่งซื้อตัวแปรที่สำคัญที่สุด วิธีการเลือกตัวแปรของฉันถูกต้องหรือไม่ ข้อเสนอแนะใด ๆ ที่จะยินดีอย่างมาก ต่อไปนี้คือRการดำเนินการของฉัน library(e1071) # Support Vector Machines #-------------------------------------------------------------------- # read brfss file (huge 135 MB file) #-------------------------------------------------------------------- y &lt;- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv") indicator &lt;- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3", "X_RFHYPE5", …

2
วิธีที่ดีที่สุดในการเลือกคุณสมบัติสำหรับการถดถอยแบบไม่มีพารามิเตอร์
คำถามใหม่ที่นี่ ขณะนี้ฉันกำลังทำการถดถอยแบบไม่ใช้พารามิเตอร์โดยใช้แพ็คเกจ np ในอาร์ฉันมีฟีเจอร์ 7 อย่างและใช้วิธีการบังคับเดรัจฉานฉันระบุว่าดีที่สุด 3. แต่ไม่นานฉันจะมีฟีเจอร์มากกว่า 7 อย่าง! คำถามของฉันคืออะไรเป็นวิธีที่ดีที่สุดในปัจจุบันสำหรับการเลือกคุณสมบัติสำหรับการถดถอยแบบไม่มีพารามิเตอร์ และถ้าหากแพ็กเกจใด ๆ ใช้วิธีการ ขอบคุณ.

1
วิธีการหาปริมาณคุณสมบัติที่ซ้ำซ้อน?
ฉันมีสามคุณสมบัติที่ฉันใช้เพื่อแก้ไขปัญหาการจัดหมวดหมู่ แต่เดิมคุณสมบัติเหล่านี้สร้างค่าบูลีนดังนั้นฉันสามารถประเมินความซ้ำซ้อนของพวกเขาได้โดยดูว่าชุดของการจำแนกประเภทที่เป็นบวกและลบนั้นทับซ้อนกันมากแค่ไหน ตอนนี้ฉันได้ขยายคุณสมบัติเพื่อสร้างมูลค่าที่แท้จริง (คะแนน) แทนและฉันต้องการวิเคราะห์ความซ้ำซ้อนของพวกเขาอีกครั้ง แต่ฉันรู้สึกสูญเสียอย่างสิ้นเชิงกับวิธีการทำเช่นนั้น ทุกคนสามารถให้ตัวชี้หรือแนวคิดเกี่ยวกับวิธีการเกี่ยวกับสิ่งนั้นให้ฉันได้หรือไม่ ฉันรู้ว่าคำถามนี้คลุมเครือมากนั่นเป็นเพราะฉันไม่มีความเข้าใจในสถิติอย่างชัดเจน ดังนั้นหากคุณไม่มีคำตอบให้ฉันบางทีคุณอาจมีคำถามที่ช่วยให้ฉันเข้าใจตัวเองดีขึ้น แก้ไข:ขณะนี้ฉันกำลังสืบค้น Wikipedia ในเรื่องนี้ฉันรู้สึกว่าสิ่งที่ฉันต้องการคือสัมประสิทธิ์สหสัมพันธ์ แต่ฉันยังไม่แน่ใจว่านี่เป็นวิธีการที่ถูกต้องหรือไม่และสัมประสิทธิ์ใดที่เหมาะสม แก้ไข 2:ในกรณีบูลีนฉันสร้างครั้งแรกสำหรับแต่ละคุณสมบัติชุดตัวอย่างที่เป็นจริง จากนั้นความสัมพันธ์ระหว่างสองคุณลักษณะคือขนาดของการตัดกันของเซตเหล่านี้มากกว่าขนาดของการรวมกันของเซตเหล่านี้ หากค่านี้เป็น 1 พวกเขาจะซ้ำซ้อนอย่างสมบูรณ์เพราะเหมือนกันเสมอ ถ้าเป็น 0 พวกมันจะไม่เหมือนเดิม

3
การเลือกแบบเบส์และช่วงเวลาที่น่าเชื่อถือ
ฉันมีชุดข้อมูลที่มีสามตัวแปรโดยที่ตัวแปรทั้งหมดเป็นเชิงปริมาณ อนุญาตเรียกว่า ,และx_2ฉันเหมาะสมกับโมเดลการถดถอยในมุมมองแบบเบย์ผ่าน MCMC ด้วยyyyx1x1x_1x2x2x_2rjags ฉันทำการวิเคราะห์เชิงสำรวจและสแกตเตอร์ล็อตของแนะนำว่าควรใช้เทอมกำลังสอง จากนั้นฉันติดตั้งสองรุ่นy×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 ในรูปแบบที่ 1 ขนาดผลของแต่ละพารามิเตอร์ไม่เล็กและช่วงเวลาที่มีความน่าเชื่อถือ 95% ไม่ได้มีค่าที่0000 ในรูปแบบที่ 2 ขนาดของผลของพารามิเตอร์และมีขนาดเล็กและแต่ละช่วงเวลาที่น่าเชื่อถือสำหรับพารามิเตอร์ทั้งหมดมี0β3β3\beta_3β4β4\beta_4000 ความจริงที่ว่าช่วงเวลาที่น่าเชื่อถือมีเพียงพอที่จะบอกได้ว่าพารามิเตอร์นั้นไม่มีนัยสำคัญใช่หรือไม่000 จากนั้นฉันปรับรูปแบบต่อไปนี้ (3)y=β0+β1∗x1+β2∗x2+β3∗x22y=β0+β1∗x1+β2∗x2+β3∗x22y=\beta_0+\beta_1*x_1+\beta_2*x_2+\beta_3*x^2_2 ขนาดผลของแต่ละพารามิเตอร์ไม่เล็ก แต่มีข้อยกเว้นของช่วงเวลาที่น่าเชื่อถือว่ามี0β1β1\beta_1000 วิธีใดที่เหมาะสมในการเลือกตัวแปรในสถิติแบบเบย์ แก้ไข:ฉันสามารถใช้ Lasso ในรูปแบบการถดถอยใด ๆ เช่นรุ่นเบต้าหรือไม่ ฉันใช้โมเดลที่มีการกระจายตัวแปรโดยที่ โดยที่เป็นเวกเตอร์ ฉันควรใช้ Laplace ก่อนหน้าในด้วยหรือไม่log(σ)=−δδXlog(σ)=−δδXlog(\sigma)=-\pmb{\delta}Xδδδδ\pmb{\delta}δδδδ\pmb{\delta} EDIT2:ฉันติดตั้งสองรุ่นโดยหนึ่งมี Gaussian Priori สำหรับ ,และอีกรุ่นด้วย Laplace (เลขชี้กำลังสองเท่า)βjβj\beta_jδjδj\delta_j ค่าประมาณสำหรับแบบเกาส์เซคือ Mean SD Naive SE Time-series SE B[1] -1.17767 …

3
การระบุคุณสมบัติที่กรองหลังจากการเลือกคุณสมบัติด้วย scikit เรียนรู้
นี่คือรหัสของฉันสำหรับวิธีการเลือกคุณสมบัติใน Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) แต่หลังจากได้ X ใหม่ (ตัวแปรตาม - X_new) ใหม่ฉันจะรู้ได้อย่างไรว่าตัวแปรใดที่ถูกลบและตัวแปรใดที่ถูกพิจารณาในตัวแปรที่อัพเดทใหม่นี้ (อันใดอันหนึ่งที่ถูกลบหรือที่สามอยู่ในข้อมูล) เหตุผลในการรับรหัสนี้คือการใช้การกรองแบบเดียวกันกับข้อมูลการทดสอบใหม่

2
ตัวแปรสำคัญแบบสุ่มค่าลบของป่า
ฉันถามตัวเองว่าควรลบตัวแปรเหล่านั้นด้วยค่าความสำคัญของตัวแปรเชิงลบ ("% IncmsE") ในบริบทการถดถอยหรือไม่ และถ้ามันให้คำทำนายที่ดีกว่า คุณคิดอย่างไร?

3
วิธีลดตัวทำนายวิธีที่ถูกต้องสำหรับตัวแบบการถดถอยโลจิสติก
ดังนั้นฉันจึงได้อ่านหนังสือบางเล่ม (หรือบางส่วนของพวกเขา) เกี่ยวกับการสร้างแบบจำลอง (กลยุทธ์การสร้างแบบจำลองการถดถอยของเอฟแฮร์เรลล์ในกลุ่มอื่น ๆ ) เนื่องจากสถานการณ์ปัจจุบันของฉันตอนนี้คือฉันต้องทำแบบจำลองโลจิสติกส์ ฉันมีทั้งข้อมูลอย่างต่อเนื่องหมวดหมู่และไบนารี (ตัวทำนาย) ในชุดข้อมูลของฉัน โดยพื้นฐานแล้วฉันมีผู้ทำนายประมาณ 100 คนในตอนนี้ซึ่งเห็นได้ชัดว่ามากเกินไปสำหรับแบบจำลองที่ดี นอกจากนี้ตัวทำนายหลายตัวเหล่านี้มีความสัมพันธ์กันเนื่องจากพวกเขามักจะอยู่บนพื้นฐานของตัวชี้วัดเดียวกันแม้ว่าจะแตกต่างกันเล็กน้อย อย่างไรก็ตามสิ่งที่ฉันได้อ่านโดยใช้เทคนิคการถดถอยแบบไม่รวมตัวแปรและขั้นตอนที่ชาญฉลาดเป็นสิ่งที่แย่ที่สุดที่คุณสามารถทำได้เพื่อลดจำนวนผู้ทำนาย ฉันคิดว่าเทคนิค LASSO นั้นค่อนข้างโอเค (ถ้าฉันเข้าใจถูกต้อง) แต่เห็นได้ชัดว่าคุณไม่สามารถใช้สิ่งนี้กับผู้ทำนาย 100 คนและคิดว่าจะมีประโยชน์อะไรเกิดขึ้น ดังนั้นสิ่งที่ตัวเลือกของฉันอยู่ที่นี่? ฉันต้องนั่งคุยกับหัวหน้างานของฉันและคนฉลาดในที่ทำงานจริง ๆ หรือไม่และคิดว่าตัวพยากรณ์ที่ดีที่สุด 5 อันดับแรกควรเป็น / หรือ (เราอาจจะผิด) หรือฉันควรจะใช้วิธีใด พิจารณาแทนไหม และใช่ฉันยังรู้ว่าหัวข้อนี้มีการกล่าวถึงอย่างมาก (ออนไลน์และในหนังสือ) แต่บางครั้งดูเหมือนว่าจะค่อนข้างล้นหลามเมื่อคุณเป็นคนใหม่ในสาขาการสร้างแบบจำลองนี้ แก้ไข: ก่อนอื่นขนาดตัวอย่างของฉันคือ +1000 ผู้ป่วย (ซึ่งมีจำนวนมากในสาขาของฉัน) และจากจำนวนที่มีการตอบรับในเชิงบวกระหว่าง 70-170 (เช่น 170 ใช่การตอบสนองเทียบกับประมาณ 900 ไม่มีการตอบสนองในกรณีใดกรณีหนึ่ง) . โดยพื้นฐานแล้วแนวคิดคือการทำนายความเป็นพิษหลังการรักษาด้วยรังสี …

3
การเลือกคุณสมบัติโดยใช้การเรียนรู้ลึก?
ฉันต้องการคำนวณความสำคัญของคุณลักษณะอินพุตแต่ละรายการโดยใช้ตัวแบบลึก แต่ผมพบว่าเพียงหนึ่งกระดาษเกี่ยวกับการเลือกใช้คุณลักษณะการเรียนรู้ลึก - เลือกคุณลักษณะลึก พวกเขาแทรกเลเยอร์ของโหนดที่เชื่อมต่อกับแต่ละคุณสมบัติโดยตรงก่อนเลเยอร์ที่ซ่อนอยู่เป็นครั้งแรก ฉันได้ยินมาว่าเครือข่ายความเชื่อลึก (DBN) สามารถใช้กับงานประเภทนี้ได้เช่นกัน แต่ฉันคิดว่า DBN นำเสนอคุณลักษณะที่เป็นนามธรรม (กลุ่ม) เช่น PCA เท่านั้นแม้ว่าจะสามารถลดขนาดได้อย่างมีประสิทธิภาพฉันสงสัยว่าถ้าเป็นไปได้ในการคำนวณความสำคัญ (น้ำหนัก) ของแต่ละคุณลักษณะ เป็นไปได้หรือไม่ที่จะคำนึงถึงความสำคัญของคุณลักษณะด้วย DBN และมีวิธีการอื่นที่รู้จักกันในการเลือกคุณสมบัติโดยใช้การเรียนรู้อย่างลึกซึ้งหรือไม่?

2
จริง ๆ แล้วมันเป็นเรื่องที่ดีที่จะทำการเลือกคุณสมบัติที่ไม่มีผู้ดูแลก่อนที่จะทำการตรวจสอบข้าม?
ในองค์ประกอบของการเรียนรู้ทางสถิติฉันพบคำสั่งต่อไปนี้: มีคุณสมบัติหนึ่งประการ: ขั้นตอนการคัดกรองเบื้องต้นที่ไม่มีผู้ดูแลสามารถทำได้ก่อนที่จะปล่อยตัวอย่าง ตัวอย่างเช่นเราสามารถเลือกตัวทำนาย 1,000 รายการที่มีความแปรปรวนสูงสุดในตัวอย่าง 50 ทั้งหมดก่อนเริ่มการตรวจสอบความถูกต้องข้าม เนื่องจากตัวกรองนี้ไม่เกี่ยวข้องกับป้ายกำกับของชั้นเรียนจึงไม่ได้ให้ข้อได้เปรียบที่ไม่เป็นธรรม มันถูกต้องจริงเหรอ? ฉันหมายถึงโดยการกรองคุณลักษณะไว้ก่อนหน้านี้เราไม่ได้เลียนแบบข้อมูลการฝึกอบรม / สภาพแวดล้อมข้อมูลใหม่ - ดังนั้นเรื่องนี้ที่การกรองที่เราดำเนินการอยู่จะไม่ได้รับการดูแลหรือไม่? การทำกระบวนการpreprocessing ทั้งหมดในกระบวนการตรวจสอบข้ามจริง ๆ ดีกว่าหรือไม่ หากไม่ใช่กรณีดังกล่าวหมายความว่าการดำเนินการประมวลผลล่วงหน้าที่ไม่ได้รับการจัดการทั้งหมดสามารถทำได้ล่วงหน้ารวมถึงคุณสมบัติการทำให้เป็นมาตรฐาน / PCA เป็นต้น แต่ด้วยการทำสิ่งเหล่านี้ในชุดฝึกอบรมทั้งหมดเราจะรั่วข้อมูลบางส่วนไปยังชุดฝึกอบรม ฉันเห็นด้วยกับชุดข้อมูลที่ค่อนข้างคงที่ความแตกต่างเหล่านี้น่าจะเล็กมาก - แต่ไม่ได้หมายความว่ามันไม่มีอยู่ใช่ไหม? วิธีที่ถูกต้องในการคิดเกี่ยวกับเรื่องนี้คืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.