สถิติและข้อมูลขนาดใหญ่ cart

2

แนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติที่เป็นหมวดหมู่สำหรับต้นไม้การตัดสินใจ

เมื่อการเข้ารหัสคุณสมบัติเชิงหมวดหมู่สำหรับการถดถอยเชิงเส้นมีกฎ: จำนวนของหุ่นควรน้อยกว่าหนึ่งในจำนวนทั้งหมดของระดับ (เพื่อหลีกเลี่ยงการ collinearity) มีกฎที่คล้ายกันสำหรับต้นไม้การตัดสินใจ (ถุง, เพิ่มขึ้น) หรือไม่? ฉันถามสิ่งนี้เพราะการฝึกฝนมาตรฐานใน Python ดูเหมือนว่าจะเพิ่มnระดับเป็นnหุ่น (sklearns ' OneHotEncoderหรือ Pandas' pd.get_dummies) ซึ่งดูเหมือนจะไม่ดีสำหรับฉัน สิ่งที่คุณจะแนะนำเป็นแนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติหมวดหมู่สำหรับต้นไม้การตัดสินใจ?

13 categorical-data random-forest cart boosting

3

เหตุใดการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวต่อค่าผิดปกติ

ฉันพบบทความจำนวนมากที่ระบุว่าวิธีการส่งเสริมมีความอ่อนไหวต่อค่าผิดปกติ แต่ไม่มีบทความอธิบายว่าเพราะเหตุใด ในค่าประสบการณ์ของฉันไม่ดีสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง แต่ทำไมวิธีการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวเป็นพิเศษ อัลกอริธึมต่อไปนี้จะจัดอันดับในแง่ของความไวต่อค่าผิดปกติ: boost-tree, ป่าสุ่ม, เครือข่ายประสาท, SVM และวิธีการถดถอยแบบง่ายเช่นการถดถอยแบบโลจิสติกอย่างไร

12 machine-learning svm outliers cart boosting

1

ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี

ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี ฉันกำลังพยายามใช้ฟอเรสต์แบบสุ่มใน Clojure

12 classification random-forest cart

1

ความแตกต่างในการใช้งานของการแยกไบนารีในต้นไม้การตัดสินใจ

ผมอยากรู้เกี่ยวกับการดำเนินการในทางปฏิบัติของการแยกไบนารีในต้นไม้ตัดสินใจ - เป็นที่เกี่ยวกับระดับของเด็ดขาดทำนาย{J}XjXjX{j} โดยเฉพาะฉันมักจะใช้รูปแบบการสุ่มตัวอย่างบางอย่าง (เช่นการบรรจุถุงการใส่ตัวอย่างมากเกินไป) เมื่อสร้างแบบจำลองการทำนายโดยใช้ต้นไม้การตัดสินใจ - เพื่อปรับปรุงความแม่นยำและความมั่นคงของการทำนาย ในระหว่างขั้นตอนการสุ่มตัวอย่างเหล่านี้เป็นไปได้ที่ตัวแปรหมวดหมู่จะถูกนำเสนอไปยังอัลกอริทึมการปรับแต่งแบบต้นไม้ที่น้อยกว่าชุดระดับที่สมบูรณ์ พูดตัวแปร X {A,B,C,D,E}จะใช้เวลาในระดับ ในตัวอย่างอาจจะเพียงระดับ{A,B,C,D}ที่มีอยู่ จากนั้นเมื่อมีการใช้ต้นไม้ผลลัพธ์สำหรับการทำนายอาจจะมีชุดเต็ม ต่อจากตัวอย่างนี้พูดต้นไม้แยกบน X และส่ง{A,B}ไปทางซ้ายและ{C,D}ไปทางขวา ฉันคาดว่าตรรกะของการแบ่งไบนารีจะพูดเมื่อต้องเผชิญกับข้อมูลใหม่: "ถ้า X มีค่า A หรือ B ให้ส่งไปทางซ้ายมิฉะนั้นส่งกรณีนี้ไปทางขวา" สิ่งที่ดูเหมือนจะเกิดขึ้นในการนำไปใช้งานบางอย่างคือ "ถ้า X มีค่า A หรือ B ส่งไปทางซ้ายถ้า X มีค่า C หรือ D ส่งไปทางขวา" เมื่อกรณีนี้ใช้กับค่า E อัลกอริธึมจะพังลง วิธี "ถูกต้อง" สำหรับการแยกแบบไบนารีที่จะจัดการคืออะไร? ดูเหมือนว่าจะมีการใช้วิธีที่มีประสิทธิภาพมากกว่านี้ แต่ไม่เสมอไป (ดู Rpart ด้านล่าง) …

12 cart rpart partitioning

2

อัลกอริทึมการเรียนรู้ของเครื่องสำหรับข้อมูลพาเนล

ในคำถามนี้ - มีวิธีการสร้างต้นไม้การตัดสินใจที่คำนึงถึงตัวทำนายที่มีโครงสร้าง / ลำดับชั้น / หลายระดับหรือไม่? - พวกเขาพูดถึงวิธีการข้อมูลแผงสำหรับต้นไม้ มีวิธีข้อมูลพาเนลเฉพาะสำหรับการสนับสนุน Vector Machines และ Neural Networks หรือไม่? ถ้าเป็นเช่นนั้นคุณสามารถอ้างอิงเอกสารสำหรับอัลกอริทึมและ (ถ้ามี) แพ็คเกจ R ที่ใช้งานได้หรือไม่

12 r machine-learning svm panel-data cart

2

ป่าสุ่มแสดงการตั้งค่าการทำนายหรือไม่?

ฉันคิดว่านี่เป็นคำถามที่ตรงไปตรงมาแม้ว่าการให้เหตุผลว่าทำไมหรือทำไมไม่อาจเป็นเช่นนั้น เหตุผลที่ผมถามคือว่าผมได้เขียนเมื่อเร็ว ๆ นี้การดำเนินการของตัวเองของ RF และแม้ว่ามันจะมีประสิทธิภาพดีมันไม่ได้มีประสิทธิภาพค่อนข้างเช่นเดียวกับที่ผมคาดหวัง (ตามKaggle ภาพคุณภาพสูงของการทำนายการแข่งขันชุดข้อมูลที่คะแนนชนะและบางส่วนของ ข้อมูลที่ตามมาซึ่งมีเกี่ยวกับเทคนิคที่ใช้) สิ่งแรกที่ฉันทำในสถานการณ์เช่นนี้คือข้อผิดพลาดในการทำนายพล็อตสำหรับแบบจำลองของฉันดังนั้นสำหรับแต่ละค่าการทำนายที่กำหนดฉันจะกำหนดความลำเอียงเฉลี่ย (หรือส่วนเบี่ยงเบน) จากค่าเป้าหมายที่ถูกต้อง สำหรับ RF ของฉันฉันได้พล็อตนี้: ฉันสงสัยว่านี่เป็นรูปแบบความเอนเอียงที่สังเกตได้โดยทั่วไปสำหรับ RF หรือไม่หากเป็นเช่นนั้นอาจเป็นสิ่งที่เฉพาะเจาะจงกับชุดข้อมูลและ / หรือการนำไปใช้ของฉัน แน่นอนว่าฉันสามารถใช้พล็อตนี้เพื่อปรับปรุงการทำนายได้โดยใช้มันเพื่อชดเชยอคติ แต่ฉันสงสัยว่ามีข้อผิดพลาดพื้นฐานหรือข้อบกพร่องในโมเดล RF ที่ต้องการแก้ไขปัญหาหรือไม่ ขอบคุณ. == ADDENDUM == การตรวจสอบเบื้องต้นของฉันอยู่ที่บล็อกนี้Random Forest Bias - Update

12 algorithms random-forest cart

1

วิธีใช้ตอการตัดสินใจในฐานะผู้เรียนที่อ่อนแอใน Adaboost

ฉันต้องการใช้ Adaboost โดยใช้ Decision Stump ถูกต้องหรือไม่ที่จะทำการตัดสินใจตอให้มากที่สุดเท่าที่คุณสมบัติของชุดข้อมูลของเราในแต่ละการซ้ำของ Adaboost ตัวอย่างเช่นถ้าฉันมีชุดข้อมูลที่มี 24 คุณลักษณะฉันควรมีตัวแยกประเภทตอการตัดสินใจ 24 ครั้งในการวนซ้ำแต่ละครั้งหรือไม่ หรือฉันควรเลือกคุณสมบัติบางอย่างแบบสุ่มและสร้างตัวจําแนกพวกมันแทนคุณสมบัติทั้งหมดหรือไม่

12 machine-learning classification cart boosting

2

ต้นไม้การตัดสินใจและการถดถอย - ค่าที่ทำนายได้นั้นอาจอยู่นอกช่วงของข้อมูลการฝึกอบรมหรือไม่?

เมื่อพูดถึงต้นไม้ตัดสินใจค่าที่ทำนายได้จะอยู่นอกขอบเขตของข้อมูลการฝึกอบรมหรือไม่? ตัวอย่างเช่นหากช่วงชุดข้อมูลการฝึกอบรมของตัวแปรเป้าหมายคือ 0-100 เมื่อฉันสร้างแบบจำลองของฉันและนำไปใช้กับสิ่งอื่นค่าของฉันจะเป็น -5 หรือไม่ หรือ 150 เนื่องจากความเข้าใจของฉันเกี่ยวกับการตัดสินใจต้นไม้ถดถอยก็ยังคงเป็นกฎพื้นฐาน - ความก้าวหน้าทางซ้าย / ขวาและที่ด้านล่างของต้นไม้ในชุดฝึกอบรมไม่สามารถมองเห็นคุณค่านอกช่วงที่กำหนดได้มันจะไม่สามารถทำได้ ทำนายมันได้หรือ

11 regression predictive-models random-forest cart

1

เมื่อใดที่ต้องใช้สิ่งเจือปน Gini และเมื่อใดที่จะใช้ข้อมูลได้รับ?

บางคนช่วยอธิบายให้ฉันทราบได้เมื่อใดที่จะใช้สิ่งเจือปนและข้อมูลที่ได้จากการตัดสินใจของ Gini? คุณสามารถให้สถานการณ์ / ตัวอย่างแก่ฉันเมื่อใดดีที่สุดที่จะใช้

11 machine-learning classification data-mining cart

3

รูปแบบการจัดประเภทสำหรับการทำนายเรตภาพยนตร์

ฉันค่อนข้างใหม่ในการขุดข้อมูลและฉันกำลังทำงานกับรูปแบบการจัดหมวดหมู่สำหรับการทำนายการจัดอันดับภาพยนตร์ ฉันได้รวบรวมชุดข้อมูลจาก IMDB และฉันวางแผนที่จะใช้ต้นไม้ตัดสินใจและแนวทางเพื่อนบ้านที่ใกล้ที่สุดสำหรับแบบจำลองของฉัน ฉันต้องการที่จะรู้ว่าเครื่องมือการขุดข้อมูลที่สามารถใช้งานได้อย่างอิสระสามารถให้การทำงานที่ฉันต้องการ

11 classification cart

2

การสุ่มตัวอย่าง MCMC ของพื้นที่ต้นไม้การตัดสินใจเทียบกับป่าแบบสุ่ม

ป่าสุ่มคือชุดของต้นไม้ตัดสินใจที่เกิดขึ้นจากการสุ่มเลือกคุณสมบัติบางอย่างเท่านั้นที่จะสร้างต้นไม้แต่ละต้นด้วย (และบางครั้งการรวบข้อมูลการฝึกอบรม) เห็นได้ชัดว่าพวกเขาเรียนรู้และพูดคุยได้ดี มีใครทำการสุ่มตัวอย่าง MCMC ของพื้นที่ต้นไม้การตัดสินใจหรือเปรียบเทียบกับป่าสุ่ม? ฉันรู้ว่ามันอาจมีราคาแพงกว่าการคำนวณ MCMC และบันทึกต้นไม้ตัวอย่างทั้งหมด แต่ฉันสนใจคุณสมบัติทางทฤษฎีของรุ่นนี้ไม่ใช่ค่าใช้จ่ายในการคำนวณ สิ่งที่ฉันหมายถึงคือสิ่งนี้: สร้างแผนผังการตัดสินใจแบบสุ่ม (มันอาจจะทำงานได้อย่างน่ากลัว) โอกาส Compute ของต้นไม้กับสิ่งที่ต้องการหรือบางทีอาจจะเพิ่มระยะP P R ฉันo R ( T R อีอี)P( Tr e e | D a t a ) ∝ P( D a t a | Tr e e )P(TRอีอี|Daเสื้อa)αP(Daเสื้อa|TRอีอี)P(Tree|Data) \propto P(Data|Tree)Pp r i o r( …

11 mcmc monte-carlo random-forest cart

2

จัดระเบียบแผนภูมิการจัดหมวดหมู่ (ใน rpart) เป็นชุดของกฎหรือไม่

มีวิธีที่เมื่อต้นไม้การจำแนกที่ซับซ้อนถูกสร้างขึ้นโดยใช้ rpart (ใน R) เพื่อจัดระเบียบกฎการตัดสินใจสำหรับแต่ละชั้นหรือไม่? ดังนั้นแทนที่จะได้รับต้นไม้ใหญ่หนึ่งต้นเราจะได้ชุดของกฎสำหรับแต่ละชั้นเรียน (ถ้าเป็นเช่นนั้นได้อย่างไร) นี่คือตัวอย่างรหัสง่ายๆที่จะแสดงตัวอย่างใน: fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) ขอบคุณ

11 r classification cart rpart

3

มีห้องสมุดใดบ้างสำหรับวิธีการแบบ CART ที่ใช้ตัวทำนายและการตอบสนองแบบกระจัดกระจาย?

ฉันกำลังทำงานกับชุดข้อมูลขนาดใหญ่บางอย่างโดยใช้แพ็คเกจ gbm ในอาร์ทั้งเมทริกซ์ตัวทำนายของฉันและเวกเตอร์การตอบสนองของฉันค่อนข้างเบาบาง (เช่นรายการส่วนใหญ่เป็นศูนย์) ฉันหวังว่าจะสร้างแผนภูมิการตัดสินใจโดยใช้อัลกอริทึมที่ใช้ประโยชน์จากความกระจัดกระจายตามที่ทำไว้ที่นี่ ) ในบทความดังกล่าวในสถานการณ์ของฉันรายการส่วนใหญ่มีคุณลักษณะที่เป็นไปได้เพียงไม่กี่รายการเท่านั้นดังนั้นพวกเขาจึงสามารถหลีกเลี่ยงการคำนวณจำนวนมากที่สูญเสียไปโดยสมมติว่ารายการของพวกเขาขาดคุณสมบัติที่กำหนดเว้นแต่ข้อมูลจะระบุอย่างชัดเจน ความหวังของฉันคือฉันสามารถเร่งความเร็วที่คล้ายกันโดยใช้อัลกอริทึมแบบนี้ (จากนั้นจึงใส่อัลกอริทึมการเร่งรอบ ๆ มันเพื่อปรับปรุงความแม่นยำในการทำนายของฉัน) เนื่องจากพวกเขาดูเหมือนจะไม่เผยแพร่รหัสของพวกเขาฉันสงสัยว่ามีแพ็คเกจโอเพนซอร์ซหรือไลบรารี (ในภาษาใด ๆ ) ที่ได้รับการปรับให้เหมาะกับกรณีนี้หรือไม่ เป็นการดีที่ฉันต้องการบางอย่างที่Matrixสามารถดึงเมทริกซ์แบบเบาบางได้โดยตรงจากแพ็คเกจของ R แต่ฉันจะทำตามที่ฉันจะได้ ฉันได้ดูไปรอบ ๆ และดูเหมือนว่าสิ่งนี้ควรจะอยู่ที่นั่น: นักเคมีดูเหมือนจะพบปัญหานี้มาก (กระดาษที่ฉันเชื่อมโยงข้างต้นเกี่ยวกับการเรียนรู้ที่จะหาสารประกอบยาใหม่) แต่การใช้งานที่ฉันพบได้นั้นเป็นกรรมสิทธิ์หรือมีความเชี่ยวชาญสูงสำหรับการวิเคราะห์ทางเคมี เป็นไปได้ว่าหนึ่งในนั้นอาจถูกนำมาใช้ซ้ำได้ การจัดหมวดหมู่เอกสารดูเหมือนจะเป็นพื้นที่ที่การเรียนรู้จากการเว้นช่องว่างคุณลักษณะมีประโยชน์ (เอกสารส่วนใหญ่ไม่มีคำมากที่สุด) ตัวอย่างเช่นมีการอ้างอิงแบบเอียงในการใช้งาน C4.5 (อัลกอริทึมคล้าย CART) ในเอกสารนี้แต่ไม่มีรหัส จากรายการส่งจดหมาย WEKA สามารถรับข้อมูลที่กระจัดกระจายได้ แต่ไม่เหมือนกับวิธีการในเอกสารที่ฉันลิงก์ด้านบน WEKA ไม่ได้รับการปรับให้เหมาะสมเพื่อใช้ประโยชน์จากมันจริง ๆ ในแง่ของการหลีกเลี่ยงวงจร CPU ที่สิ้นเปลือง ขอบคุณล่วงหน้า!

11 r regression machine-learning classification cart

2

ทำไมต้นไม้ที่ถูกถุง / ต้นไม้ป่าสุ่มมีอคติสูงกว่าต้นไม้ตัดสินใจเดี่ยว?

หากเราพิจารณาแผนภูมิการตัดสินใจที่โตเต็มที่ (เช่นแผนผังการตัดสินใจที่ไม่มีการแบ่ง) มันมีความแปรปรวนสูงและมีอคติต่ำ การบรรจุถุงและป่าสุ่มใช้โมเดลความแปรปรวนสูงเหล่านี้และรวมเข้าด้วยกันเพื่อลดความแปรปรวนและเพิ่มความแม่นยำในการทำนาย ทั้งการบรรจุถุงและการสุ่มป่าใช้การสุ่มตัวอย่าง Bootstrap และตามที่อธิบายไว้ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" สิ่งนี้จะเพิ่มความลำเอียงในต้นไม้ต้นเดียว นอกจากนี้เนื่องจากวิธีการสุ่มฟอเรสต์ จำกัด ตัวแปรที่อนุญาตให้แยกในแต่ละโหนดอคติสำหรับฟอเรสต์แบบสุ่มเดียวจะเพิ่มมากขึ้น ดังนั้นความแม่นยำในการทำนายจะเพิ่มขึ้นหากการเพิ่มขึ้นของอคติของต้นไม้ต้นเดียวในการบรรจุหีบห่อและการสุ่มป่าไม่ได้ "เกินความจริง" การลดความแปรปรวน สิ่งนี้นำฉันไปสู่คำถามสองข้อต่อไปนี้: 1) ฉันรู้ว่าด้วยการสุ่มตัวอย่าง bootstrap เราจะ (เกือบทุกครั้ง) มีการสังเกตแบบเดียวกันในตัวอย่าง bootstrap แต่ทำไมสิ่งนี้นำไปสู่การเพิ่มอคติของต้นไม้แต่ละต้นในป่าที่ห่อหุ้ม / สุ่ม 2) นอกจากนี้ทำไมข้อ จำกัด ของตัวแปรที่มีให้แยกในแต่ละการแยกทำให้มีอคติสูงกว่าในต้นไม้แต่ละต้นในป่าสุ่ม

11 variance random-forest cart bias bagging

1

R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน

mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

คำถามติดแท็ก cart