คำถามติดแท็ก cart

'ต้นไม้จำแนกและถดถอย' รถเข็นเป็นเทคนิคการเรียนรู้ของเครื่องที่ได้รับความนิยมและเป็นพื้นฐานสำหรับเทคนิคเช่นฟอเรสต์แบบสุ่มและการใช้งานทั่วไปของเครื่องเพิ่มระดับความลาดชัน

2
แนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติที่เป็นหมวดหมู่สำหรับต้นไม้การตัดสินใจ
เมื่อการเข้ารหัสคุณสมบัติเชิงหมวดหมู่สำหรับการถดถอยเชิงเส้นมีกฎ: จำนวนของหุ่นควรน้อยกว่าหนึ่งในจำนวนทั้งหมดของระดับ (เพื่อหลีกเลี่ยงการ collinearity) มีกฎที่คล้ายกันสำหรับต้นไม้การตัดสินใจ (ถุง, เพิ่มขึ้น) หรือไม่? ฉันถามสิ่งนี้เพราะการฝึกฝนมาตรฐานใน Python ดูเหมือนว่าจะเพิ่มnระดับเป็นnหุ่น (sklearns ' OneHotEncoderหรือ Pandas' pd.get_dummies) ซึ่งดูเหมือนจะไม่ดีสำหรับฉัน สิ่งที่คุณจะแนะนำเป็นแนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติหมวดหมู่สำหรับต้นไม้การตัดสินใจ?

3
เหตุใดการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวต่อค่าผิดปกติ
ฉันพบบทความจำนวนมากที่ระบุว่าวิธีการส่งเสริมมีความอ่อนไหวต่อค่าผิดปกติ แต่ไม่มีบทความอธิบายว่าเพราะเหตุใด ในค่าประสบการณ์ของฉันไม่ดีสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง แต่ทำไมวิธีการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวเป็นพิเศษ อัลกอริธึมต่อไปนี้จะจัดอันดับในแง่ของความไวต่อค่าผิดปกติ: boost-tree, ป่าสุ่ม, เครือข่ายประสาท, SVM และวิธีการถดถอยแบบง่ายเช่นการถดถอยแบบโลจิสติกอย่างไร

1
ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี
ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี ฉันกำลังพยายามใช้ฟอเรสต์แบบสุ่มใน Clojure

1
ความแตกต่างในการใช้งานของการแยกไบนารีในต้นไม้การตัดสินใจ
ผมอยากรู้เกี่ยวกับการดำเนินการในทางปฏิบัติของการแยกไบนารีในต้นไม้ตัดสินใจ - เป็นที่เกี่ยวกับระดับของเด็ดขาดทำนาย{J}XjXjX{j} โดยเฉพาะฉันมักจะใช้รูปแบบการสุ่มตัวอย่างบางอย่าง (เช่นการบรรจุถุงการใส่ตัวอย่างมากเกินไป) เมื่อสร้างแบบจำลองการทำนายโดยใช้ต้นไม้การตัดสินใจ - เพื่อปรับปรุงความแม่นยำและความมั่นคงของการทำนาย ในระหว่างขั้นตอนการสุ่มตัวอย่างเหล่านี้เป็นไปได้ที่ตัวแปรหมวดหมู่จะถูกนำเสนอไปยังอัลกอริทึมการปรับแต่งแบบต้นไม้ที่น้อยกว่าชุดระดับที่สมบูรณ์ พูดตัวแปร X {A,B,C,D,E}จะใช้เวลาในระดับ ในตัวอย่างอาจจะเพียงระดับ{A,B,C,D}ที่มีอยู่ จากนั้นเมื่อมีการใช้ต้นไม้ผลลัพธ์สำหรับการทำนายอาจจะมีชุดเต็ม ต่อจากตัวอย่างนี้พูดต้นไม้แยกบน X และส่ง{A,B}ไปทางซ้ายและ{C,D}ไปทางขวา ฉันคาดว่าตรรกะของการแบ่งไบนารีจะพูดเมื่อต้องเผชิญกับข้อมูลใหม่: "ถ้า X มีค่า A หรือ B ให้ส่งไปทางซ้ายมิฉะนั้นส่งกรณีนี้ไปทางขวา" สิ่งที่ดูเหมือนจะเกิดขึ้นในการนำไปใช้งานบางอย่างคือ "ถ้า X มีค่า A หรือ B ส่งไปทางซ้ายถ้า X มีค่า C หรือ D ส่งไปทางขวา" เมื่อกรณีนี้ใช้กับค่า E อัลกอริธึมจะพังลง วิธี "ถูกต้อง" สำหรับการแยกแบบไบนารีที่จะจัดการคืออะไร? ดูเหมือนว่าจะมีการใช้วิธีที่มีประสิทธิภาพมากกว่านี้ แต่ไม่เสมอไป (ดู Rpart ด้านล่าง) …

2
อัลกอริทึมการเรียนรู้ของเครื่องสำหรับข้อมูลพาเนล
ในคำถามนี้ - มีวิธีการสร้างต้นไม้การตัดสินใจที่คำนึงถึงตัวทำนายที่มีโครงสร้าง / ลำดับชั้น / หลายระดับหรือไม่? - พวกเขาพูดถึงวิธีการข้อมูลแผงสำหรับต้นไม้ มีวิธีข้อมูลพาเนลเฉพาะสำหรับการสนับสนุน Vector Machines และ Neural Networks หรือไม่? ถ้าเป็นเช่นนั้นคุณสามารถอ้างอิงเอกสารสำหรับอัลกอริทึมและ (ถ้ามี) แพ็คเกจ R ที่ใช้งานได้หรือไม่

2
ป่าสุ่มแสดงการตั้งค่าการทำนายหรือไม่?
ฉันคิดว่านี่เป็นคำถามที่ตรงไปตรงมาแม้ว่าการให้เหตุผลว่าทำไมหรือทำไมไม่อาจเป็นเช่นนั้น เหตุผลที่ผมถามคือว่าผมได้เขียนเมื่อเร็ว ๆ นี้การดำเนินการของตัวเองของ RF และแม้ว่ามันจะมีประสิทธิภาพดีมันไม่ได้มีประสิทธิภาพค่อนข้างเช่นเดียวกับที่ผมคาดหวัง (ตามKaggle ภาพคุณภาพสูงของการทำนายการแข่งขันชุดข้อมูลที่คะแนนชนะและบางส่วนของ ข้อมูลที่ตามมาซึ่งมีเกี่ยวกับเทคนิคที่ใช้) สิ่งแรกที่ฉันทำในสถานการณ์เช่นนี้คือข้อผิดพลาดในการทำนายพล็อตสำหรับแบบจำลองของฉันดังนั้นสำหรับแต่ละค่าการทำนายที่กำหนดฉันจะกำหนดความลำเอียงเฉลี่ย (หรือส่วนเบี่ยงเบน) จากค่าเป้าหมายที่ถูกต้อง สำหรับ RF ของฉันฉันได้พล็อตนี้: ฉันสงสัยว่านี่เป็นรูปแบบความเอนเอียงที่สังเกตได้โดยทั่วไปสำหรับ RF หรือไม่หากเป็นเช่นนั้นอาจเป็นสิ่งที่เฉพาะเจาะจงกับชุดข้อมูลและ / หรือการนำไปใช้ของฉัน แน่นอนว่าฉันสามารถใช้พล็อตนี้เพื่อปรับปรุงการทำนายได้โดยใช้มันเพื่อชดเชยอคติ แต่ฉันสงสัยว่ามีข้อผิดพลาดพื้นฐานหรือข้อบกพร่องในโมเดล RF ที่ต้องการแก้ไขปัญหาหรือไม่ ขอบคุณ. == ADDENDUM == การตรวจสอบเบื้องต้นของฉันอยู่ที่บล็อกนี้Random Forest Bias - Update

1
วิธีใช้ตอการตัดสินใจในฐานะผู้เรียนที่อ่อนแอใน Adaboost
ฉันต้องการใช้ Adaboost โดยใช้ Decision Stump ถูกต้องหรือไม่ที่จะทำการตัดสินใจตอให้มากที่สุดเท่าที่คุณสมบัติของชุดข้อมูลของเราในแต่ละการซ้ำของ Adaboost ตัวอย่างเช่นถ้าฉันมีชุดข้อมูลที่มี 24 คุณลักษณะฉันควรมีตัวแยกประเภทตอการตัดสินใจ 24 ครั้งในการวนซ้ำแต่ละครั้งหรือไม่ หรือฉันควรเลือกคุณสมบัติบางอย่างแบบสุ่มและสร้างตัวจําแนกพวกมันแทนคุณสมบัติทั้งหมดหรือไม่

2
ต้นไม้การตัดสินใจและการถดถอย - ค่าที่ทำนายได้นั้นอาจอยู่นอกช่วงของข้อมูลการฝึกอบรมหรือไม่?
เมื่อพูดถึงต้นไม้ตัดสินใจค่าที่ทำนายได้จะอยู่นอกขอบเขตของข้อมูลการฝึกอบรมหรือไม่? ตัวอย่างเช่นหากช่วงชุดข้อมูลการฝึกอบรมของตัวแปรเป้าหมายคือ 0-100 เมื่อฉันสร้างแบบจำลองของฉันและนำไปใช้กับสิ่งอื่นค่าของฉันจะเป็น -5 หรือไม่ หรือ 150 เนื่องจากความเข้าใจของฉันเกี่ยวกับการตัดสินใจต้นไม้ถดถอยก็ยังคงเป็นกฎพื้นฐาน - ความก้าวหน้าทางซ้าย / ขวาและที่ด้านล่างของต้นไม้ในชุดฝึกอบรมไม่สามารถมองเห็นคุณค่านอกช่วงที่กำหนดได้มันจะไม่สามารถทำได้ ทำนายมันได้หรือ

1
เมื่อใดที่ต้องใช้สิ่งเจือปน Gini และเมื่อใดที่จะใช้ข้อมูลได้รับ?
บางคนช่วยอธิบายให้ฉันทราบได้เมื่อใดที่จะใช้สิ่งเจือปนและข้อมูลที่ได้จากการตัดสินใจของ Gini? คุณสามารถให้สถานการณ์ / ตัวอย่างแก่ฉันเมื่อใดดีที่สุดที่จะใช้

3
รูปแบบการจัดประเภทสำหรับการทำนายเรตภาพยนตร์
ฉันค่อนข้างใหม่ในการขุดข้อมูลและฉันกำลังทำงานกับรูปแบบการจัดหมวดหมู่สำหรับการทำนายการจัดอันดับภาพยนตร์ ฉันได้รวบรวมชุดข้อมูลจาก IMDB และฉันวางแผนที่จะใช้ต้นไม้ตัดสินใจและแนวทางเพื่อนบ้านที่ใกล้ที่สุดสำหรับแบบจำลองของฉัน ฉันต้องการที่จะรู้ว่าเครื่องมือการขุดข้อมูลที่สามารถใช้งานได้อย่างอิสระสามารถให้การทำงานที่ฉันต้องการ

2
การสุ่มตัวอย่าง MCMC ของพื้นที่ต้นไม้การตัดสินใจเทียบกับป่าแบบสุ่ม
ป่าสุ่มคือชุดของต้นไม้ตัดสินใจที่เกิดขึ้นจากการสุ่มเลือกคุณสมบัติบางอย่างเท่านั้นที่จะสร้างต้นไม้แต่ละต้นด้วย (และบางครั้งการรวบข้อมูลการฝึกอบรม) เห็นได้ชัดว่าพวกเขาเรียนรู้และพูดคุยได้ดี มีใครทำการสุ่มตัวอย่าง MCMC ของพื้นที่ต้นไม้การตัดสินใจหรือเปรียบเทียบกับป่าสุ่ม? ฉันรู้ว่ามันอาจมีราคาแพงกว่าการคำนวณ MCMC และบันทึกต้นไม้ตัวอย่างทั้งหมด แต่ฉันสนใจคุณสมบัติทางทฤษฎีของรุ่นนี้ไม่ใช่ค่าใช้จ่ายในการคำนวณ สิ่งที่ฉันหมายถึงคือสิ่งนี้: สร้างแผนผังการตัดสินใจแบบสุ่ม (มันอาจจะทำงานได้อย่างน่ากลัว) โอกาส Compute ของต้นไม้กับสิ่งที่ต้องการหรือบางทีอาจจะเพิ่มระยะP P R ฉันo R ( T R อีอี)P( Tr e e | D a t a ) ∝ P( D a t a | Tr e e )P(TRอีอี|Daเสื้อa)αP(Daเสื้อa|TRอีอี)P(Tree|Data) \propto P(Data|Tree)Pp r i o r( …

2
จัดระเบียบแผนภูมิการจัดหมวดหมู่ (ใน rpart) เป็นชุดของกฎหรือไม่
มีวิธีที่เมื่อต้นไม้การจำแนกที่ซับซ้อนถูกสร้างขึ้นโดยใช้ rpart (ใน R) เพื่อจัดระเบียบกฎการตัดสินใจสำหรับแต่ละชั้นหรือไม่? ดังนั้นแทนที่จะได้รับต้นไม้ใหญ่หนึ่งต้นเราจะได้ชุดของกฎสำหรับแต่ละชั้นเรียน (ถ้าเป็นเช่นนั้นได้อย่างไร) นี่คือตัวอย่างรหัสง่ายๆที่จะแสดงตัวอย่างใน: fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) ขอบคุณ
11 r  classification  cart  rpart 

3
มีห้องสมุดใดบ้างสำหรับวิธีการแบบ CART ที่ใช้ตัวทำนายและการตอบสนองแบบกระจัดกระจาย?
ฉันกำลังทำงานกับชุดข้อมูลขนาดใหญ่บางอย่างโดยใช้แพ็คเกจ gbm ในอาร์ทั้งเมทริกซ์ตัวทำนายของฉันและเวกเตอร์การตอบสนองของฉันค่อนข้างเบาบาง (เช่นรายการส่วนใหญ่เป็นศูนย์) ฉันหวังว่าจะสร้างแผนภูมิการตัดสินใจโดยใช้อัลกอริทึมที่ใช้ประโยชน์จากความกระจัดกระจายตามที่ทำไว้ที่นี่ ) ในบทความดังกล่าวในสถานการณ์ของฉันรายการส่วนใหญ่มีคุณลักษณะที่เป็นไปได้เพียงไม่กี่รายการเท่านั้นดังนั้นพวกเขาจึงสามารถหลีกเลี่ยงการคำนวณจำนวนมากที่สูญเสียไปโดยสมมติว่ารายการของพวกเขาขาดคุณสมบัติที่กำหนดเว้นแต่ข้อมูลจะระบุอย่างชัดเจน ความหวังของฉันคือฉันสามารถเร่งความเร็วที่คล้ายกันโดยใช้อัลกอริทึมแบบนี้ (จากนั้นจึงใส่อัลกอริทึมการเร่งรอบ ๆ มันเพื่อปรับปรุงความแม่นยำในการทำนายของฉัน) เนื่องจากพวกเขาดูเหมือนจะไม่เผยแพร่รหัสของพวกเขาฉันสงสัยว่ามีแพ็คเกจโอเพนซอร์ซหรือไลบรารี (ในภาษาใด ๆ ) ที่ได้รับการปรับให้เหมาะกับกรณีนี้หรือไม่ เป็นการดีที่ฉันต้องการบางอย่างที่Matrixสามารถดึงเมทริกซ์แบบเบาบางได้โดยตรงจากแพ็คเกจของ R แต่ฉันจะทำตามที่ฉันจะได้ ฉันได้ดูไปรอบ ๆ และดูเหมือนว่าสิ่งนี้ควรจะอยู่ที่นั่น: นักเคมีดูเหมือนจะพบปัญหานี้มาก (กระดาษที่ฉันเชื่อมโยงข้างต้นเกี่ยวกับการเรียนรู้ที่จะหาสารประกอบยาใหม่) แต่การใช้งานที่ฉันพบได้นั้นเป็นกรรมสิทธิ์หรือมีความเชี่ยวชาญสูงสำหรับการวิเคราะห์ทางเคมี เป็นไปได้ว่าหนึ่งในนั้นอาจถูกนำมาใช้ซ้ำได้ การจัดหมวดหมู่เอกสารดูเหมือนจะเป็นพื้นที่ที่การเรียนรู้จากการเว้นช่องว่างคุณลักษณะมีประโยชน์ (เอกสารส่วนใหญ่ไม่มีคำมากที่สุด) ตัวอย่างเช่นมีการอ้างอิงแบบเอียงในการใช้งาน C4.5 (อัลกอริทึมคล้าย CART) ในเอกสารนี้แต่ไม่มีรหัส จากรายการส่งจดหมาย WEKA สามารถรับข้อมูลที่กระจัดกระจายได้ แต่ไม่เหมือนกับวิธีการในเอกสารที่ฉันลิงก์ด้านบน WEKA ไม่ได้รับการปรับให้เหมาะสมเพื่อใช้ประโยชน์จากมันจริง ๆ ในแง่ของการหลีกเลี่ยงวงจร CPU ที่สิ้นเปลือง ขอบคุณล่วงหน้า!

2
ทำไมต้นไม้ที่ถูกถุง / ต้นไม้ป่าสุ่มมีอคติสูงกว่าต้นไม้ตัดสินใจเดี่ยว?
หากเราพิจารณาแผนภูมิการตัดสินใจที่โตเต็มที่ (เช่นแผนผังการตัดสินใจที่ไม่มีการแบ่ง) มันมีความแปรปรวนสูงและมีอคติต่ำ การบรรจุถุงและป่าสุ่มใช้โมเดลความแปรปรวนสูงเหล่านี้และรวมเข้าด้วยกันเพื่อลดความแปรปรวนและเพิ่มความแม่นยำในการทำนาย ทั้งการบรรจุถุงและการสุ่มป่าใช้การสุ่มตัวอย่าง Bootstrap และตามที่อธิบายไว้ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" สิ่งนี้จะเพิ่มความลำเอียงในต้นไม้ต้นเดียว นอกจากนี้เนื่องจากวิธีการสุ่มฟอเรสต์ จำกัด ตัวแปรที่อนุญาตให้แยกในแต่ละโหนดอคติสำหรับฟอเรสต์แบบสุ่มเดียวจะเพิ่มมากขึ้น ดังนั้นความแม่นยำในการทำนายจะเพิ่มขึ้นหากการเพิ่มขึ้นของอคติของต้นไม้ต้นเดียวในการบรรจุหีบห่อและการสุ่มป่าไม่ได้ "เกินความจริง" การลดความแปรปรวน สิ่งนี้นำฉันไปสู่คำถามสองข้อต่อไปนี้: 1) ฉันรู้ว่าด้วยการสุ่มตัวอย่าง bootstrap เราจะ (เกือบทุกครั้ง) มีการสังเกตแบบเดียวกันในตัวอย่าง bootstrap แต่ทำไมสิ่งนี้นำไปสู่การเพิ่มอคติของต้นไม้แต่ละต้นในป่าที่ห่อหุ้ม / สุ่ม 2) นอกจากนี้ทำไมข้อ จำกัด ของตัวแปรที่มีให้แยกในแต่ละการแยกทำให้มีอคติสูงกว่าในต้นไม้แต่ละต้นในป่าสุ่ม

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.