สถิติและข้อมูลขนาดใหญ่ random-forest

3

PCA กับข้อมูลตัวอักษรมิติสูงก่อนการจำแนกป่าแบบสุ่ม?

มันเหมาะสมหรือไม่ที่จะทำ PCA ก่อนที่จะทำการจำแนกป่าแบบสุ่ม? ฉันกำลังจัดการกับข้อมูลข้อความมิติสูงและฉันต้องการลดฟีเจอร์เพื่อช่วยหลีกเลี่ยงการสาปแช่งของมิติ แต่ไม่ป่าสุ่มไปแล้วเพื่อลดขนาด

14 classification pca random-forest dimensionality-reduction high-dimensional

5

อัลกอริธึมป่าไม้และต้นไม้ตัดสินใจแบบสุ่ม

ป่าสุ่มคือชุดของต้นไม้ตัดสินใจตามแนวคิดการบรรจุถุง เมื่อเราย้ายจากต้นไม้ตัดสินใจหนึ่งไปสู่ต้นไม้ตัดสินใจถัดไปข้อมูลที่เรียนรู้จากต้นไม้ตัดสินใจสุดท้ายจะเลื่อนไปข้างหน้าอย่างไร เพราะตามความเข้าใจของฉันไม่มีอะไรเหมือนแบบฝึกที่ถูกสร้างขึ้นสำหรับต้นไม้การตัดสินใจทุกครั้งและจากนั้นโหลดก่อนต้นไม้การตัดสินใจครั้งต่อไปเริ่มเรียนรู้จากข้อผิดพลาดที่ผิดประเภท แล้วมันทำงานอย่างไร

14 machine-learning random-forest cart bagging

1

ในฟอเรสต์ฟอเรสต์ทำไมคุณสมบัติย่อยบางส่วนของคุณสมบัติแบบสุ่มจึงถูกเลือกที่ระดับโหนดแทนที่จะเป็นระดับต้นไม้

คำถามของฉัน:ทำไมป่าสุ่มพิจารณาย่อยสุ่มของคุณสมบัติสำหรับการแยกในระดับโหนดภายในแต่ละต้นไม้มากกว่าในระดับต้นไม้ ? ข้อมูลประกอบ:นี่เป็นคำถามเชิงประวัติ ดีบุกกามโฮตีพิมพ์บทความนี้เกี่ยวกับการสร้าง "ป่าตัดสินใจ" โดยการสุ่มเลือกชุดย่อยของคุณสมบัติที่จะใช้สำหรับการเติบโตในแต่ละต้นไม้ในปี 1998 หลายปีต่อมาในปี 2001 ลีโอเบรแมนตีพิมพ์สุ่มป่าเขาน้ำเชื้อกระดาษประเด็นเซตคุณลักษณะแบบสุ่ม เลือกที่แต่ละโหนดภายในแต่ละต้นไม่ใช่ที่แต่ละต้น ในขณะที่ Breiman อ้างถึง Ho เขาไม่ได้อธิบายการย้ายจากระดับต้นไม้ไปเป็นการเลือกคุณลักษณะแบบสุ่มในระดับโหนด ฉันสงสัยว่าอะไรเป็นแรงจูงใจในการพัฒนานี้โดยเฉพาะ ดูเหมือนว่าการเลือกชุดย่อยคุณลักษณะที่ระดับต้นไม้จะยังคงบรรลุความสัมพันธ์ที่ต้องการของต้นไม้ ทฤษฎีของฉัน:ฉันไม่ได้เห็นสิ่งนี้พูดชัดแจ้งที่อื่น แต่ดูเหมือนว่าวิธีการย่อยแบบสุ่มจะมีประสิทธิภาพน้อยกว่าในแง่ของการประเมินความสำคัญของคุณลักษณะ เพื่อให้ได้การประมาณค่าความสำคัญของตัวแปรสำหรับต้นไม้แต่ละต้นคุณลักษณะจะได้รับการพิจารณาแบบสุ่มทีละตัวและการเพิ่มขึ้นของการจำแนกประเภทหรือเพิ่มข้อผิดพลาดสำหรับการสำรวจนอกถุงจะถูกบันทึก ตัวแปรที่การจำแนกประเภทผิดพลาดหรือเพิ่มข้อผิดพลาดเป็นผลมาจากการเปลี่ยนแปลงแบบสุ่มนี้มีค่าสูงคือตัวแปรที่มีความสำคัญที่สุด ถ้าเราใช้วิธีการสุ่มสเปซสำหรับแต่ละต้นไม้เราเป็นเพียงการพิจารณาของพีคุณลักษณะ มันอาจใช้เวลาหลายต้นที่จะต้องพิจารณาทุกหน้าทำนายแม้แต่ครั้งเดียว ในทางกลับกันถ้าเราพิจารณาส่วนย่อยที่แตกต่างกันมผมของพีให้บริการในแต่ละโหนดเราจะพิจารณาแต่ละคุณลักษณะครั้งมากขึ้นหลังจากที่ต้นไม้น้อยลงทำให้เราประมาณการที่แข็งแกร่งมากขึ้นมีความสำคัญคุณลักษณะmmmppppppmimim_ippp สิ่งที่ฉันได้ดูไปแล้ว:จนถึงตอนนี้ฉันได้อ่านกระดาษของ Breiman และกระดาษของ Ho แล้วทำการค้นหาออนไลน์แบบกว้าง ๆ เพื่อเปรียบเทียบวิธีต่างๆโดยไม่ต้องค้นหาคำตอบที่ชัดเจน โปรดทราบว่าคำถามที่คล้ายกันถูกถามก่อน คำถามนี้จะเพิ่มเติมอีกเล็กน้อยโดยรวมถึงการเก็งกำไรของฉัน / ทำงานเพื่อแก้ไขปัญหาที่เป็นไปได้ ฉันจะสนใจคำตอบการอ้างอิงที่เกี่ยวข้องหรือการศึกษาแบบจำลองเปรียบเทียบสองแนวทาง หากไม่มีการเตรียมพร้อมฉันวางแผนที่จะทำการจำลองสถานการณ์ของตัวเองโดยเปรียบเทียบทั้งสองวิธี

14 machine-learning feature-selection random-forest importance history

3

สิ่งที่ควรเป็นพารามิเตอร์ที่ดีที่สุดสำหรับลักษณนามป่าสุ่ม?

ขณะนี้ฉันกำลังใช้กล่องเครื่องมือ RF บน MATLAB สำหรับปัญหาการจำแนกเลขฐานสอง ชุดข้อมูล: ตัวอย่าง 50,000 ตัวอย่างและคุณสมบัติมากกว่า 250 รายการ ดังนั้นควรมีจำนวนต้นไม้และคุณลักษณะที่เลือกแบบสุ่มในแต่ละแยกเพื่อปลูกต้นไม้อย่างไร พารามิเตอร์อื่นใดสามารถส่งผลอย่างมากต่อผลลัพธ์หรือไม่

14 machine-learning classification random-forest

4

เราควรกังวลเกี่ยวกับความหลากหลายเชิงเส้นเมื่อใช้โมเดลที่ไม่ใช่เชิงเส้นหรือไม่?

สมมติว่าเรามีปัญหาการจำแนกเลขฐานสองที่มีคุณสมบัติการจัดหมวดหมู่เป็นส่วนใหญ่ เราใช้โมเดลที่ไม่ใช่เชิงเส้น (เช่น XGBoost หรือ Random Forests) เพื่อเรียนรู้ หนึ่งควรยังคงกังวลเกี่ยวกับความหลากหลาย collinearity? ทำไม? หากคำตอบข้างต้นเป็นจริงเราจะต่อสู้กับมันอย่างไรเมื่อพิจารณาว่ามีการใช้โมเดลที่ไม่ใช่เชิงเส้นประเภทนี้อย่างไร

13 classification random-forest multicollinearity xgboost

1

ประเมิน Random Forest: OOB กับ CV

เมื่อเราประเมินคุณภาพของป่าสุ่มตัวอย่างเช่นใช้ AUC มีความเหมาะสมกว่าหรือไม่ในการคำนวณปริมาณเหล่านี้ผ่านตัวอย่าง Out of Bag หรือชุดตรวจสอบข้ามที่ถูกระงับไว้? ฉันได้ยินมาว่าการคำนวณมันผ่านตัวอย่าง OOB ให้การประเมินในแง่ร้ายมากกว่า แต่ฉันไม่เห็นสาเหตุ

13 cross-validation random-forest auc

3

ป่าสุ่มและการส่งเสริมพารามิเตอร์หรือไม่ใช่พารามิเตอร์หรือไม่

จากการอ่านการสร้างแบบจำลองทางสถิติที่ยอดเยี่ยม: ทั้งสองวัฒนธรรม (Breiman 2001)เราสามารถยึดความแตกต่างทั้งหมดระหว่างแบบจำลองทางสถิติแบบดั้งเดิม (เช่นการถดถอยเชิงเส้น) และอัลกอริทึมการเรียนรู้ของเครื่องจักร (เช่นการห่อป่าแบบสุ่ม Breiman วิพากษ์วิจารณ์แบบจำลองข้อมูล (พารามิเตอร์) เพราะพวกเขาอยู่บนพื้นฐานของข้อสันนิษฐานว่าการสังเกตนั้นถูกสร้างขึ้นโดยแบบจำลองที่เป็นทางการซึ่งเป็นที่รู้จักซึ่งกำหนดโดยนักสถิติซึ่งอาจเลียนแบบธรรมชาติได้ไม่ดี ในทางตรงกันข้าม ML algos จะไม่ถือว่าแบบจำลองที่เป็นทางการใด ๆ และเรียนรู้การเชื่อมโยงโดยตรงระหว่างตัวแปรอินพุตและเอาต์พุตจากข้อมูล ฉันตระหนักว่าบรรจุถุง / RF และการส่งเสริมการนอกจากนี้ยังมีการจัดเรียงของพารา: ยกตัวอย่างเช่นntree , mtryใน RF, อัตราการเรียนรู้ , ส่วนถุง , ซับซ้อนต้นไม้ใน Stochastic ไล่โทนสีต้นไม้เพิ่มขึ้นมีการปรับจูนทุกพารามิเตอร์ นอกจากนี้เรายังประมาณค่าพารามิเตอร์เหล่านี้จากข้อมูลเนื่องจากเราใช้ข้อมูลเพื่อค้นหาค่าที่ดีที่สุดของพารามิเตอร์เหล่านี้ ดังนั้นความแตกต่างคืออะไร? RF และ Boosted Trees เป็นโมเดลพาราเมตริกหรือไม่?

13 machine-learning data-mining random-forest boosting bagging

3

ฟอเรสต์แบบสุ่มในข้อมูลที่มีโครงสร้างหลายระดับ / ลำดับชั้น

ฉันค่อนข้างใหม่กับการเรียนรู้ด้วยเครื่องจักรเทคนิคของ CART และสิ่งที่คล้ายกันและฉันหวังว่าไร้เดียงสาของฉันจะไม่ชัดเจนเกินไป Random Forest จัดการโครงสร้างข้อมูลหลายระดับ / ลำดับชั้นได้อย่างไร (ตัวอย่างเช่นเมื่อการโต้ตอบข้ามระดับเป็นที่สนใจ) นั่นคือชุดข้อมูลที่มีหน่วยการวิเคราะห์ในหลายระดับชั้น ( เช่นนักเรียนซ้อนกันภายในโรงเรียนพร้อมข้อมูลเกี่ยวกับทั้งนักเรียนและโรงเรียน) ยกตัวอย่างเช่นพิจารณาชุดข้อมูลหลายระดับที่มีบุคคลในระดับแรก ( เช่นข้อมูลพฤติกรรมการลงคะแนนประชากร ฯลฯ ) ซ้อนกันภายในประเทศในระดับที่สอง (พร้อมข้อมูลระดับประเทศเช่นประชากร): ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 …

13 machine-learning random-forest multilevel-analysis cart

2

เมื่อใดที่จะเข้าสู่ระบบ / ขยายตัวแปรของคุณเมื่อใช้โมเดลฟอเรสต์แบบสุ่ม?

ฉันกำลังถดถอยด้วยการสุ่มป่าเพื่อทำนายราคาตามคุณลักษณะหลายอย่าง โค้ดถูกเขียนเป็น Python โดยใช้ Scikit-learn คุณจะตัดสินใจว่าคุณควรแปลงตัวแปรของคุณโดยใช้exp/ logก่อนที่จะใช้เพื่อให้พอดีกับรูปแบบการถดถอยอย่างไร จำเป็นหรือไม่เมื่อใช้วิธี Ensemble เช่น Random Forest?

13 regression machine-learning predictive-models python random-forest

6

ฟอเรสต์แบบสุ่ม: จะจัดการระดับปัจจัยใหม่ในชุดทดสอบอย่างไร

ฉันกำลังพยายามทำนายโดยใช้โมเดลฟอเรสต์แบบสุ่มในอาร์ อย่างไรก็ตามฉันได้รับข้อผิดพลาดเนื่องจากปัจจัยบางอย่างมีค่าแตกต่างกันในชุดทดสอบมากกว่าในชุดฝึกอบรม ตัวอย่างเช่นปัจจัยCat_2มีค่า34, 68, 76ฯลฯ ในชุดทดสอบที่ไม่ปรากฏในชุดฝึกอบรม น่าเสียดายที่ฉันไม่สามารถควบคุมชุดทดสอบ ... ฉันต้องใช้มันตามที่เป็นอยู่ as.numeric()วิธีแก้ปัญหาเดียวของฉันคือการแปลงปัจจัยที่มีปัญหากลับไปเป็นค่าตัวเลขที่ใช้ มันใช้งานได้แต่ฉันไม่พอใจมากเนื่องจากค่าเหล่านี้เป็นรหัสที่ไม่มีความรู้สึกเชิงตัวเลข ... คุณคิดว่าจะมีวิธีแก้ไขปัญหาอื่นหรือไม่เพื่อลดค่าใหม่จากชุดทดสอบ แต่ไม่มีการลบค่าปัจจัยอื่น ๆ ทั้งหมด (เช่นค่าการบอกกล่าว1, 2, 14, 32ฯลฯ ) ซึ่งมีทั้งในการฝึกอบรมและการทดสอบและมีข้อมูลที่อาจเป็นประโยชน์สำหรับการคาดการณ์

13 r categorical-data random-forest

3

มีสูตรหรือกฎสำหรับการกำหนด sampSize ที่ถูกต้องสำหรับ randomForest หรือไม่?

ฉันกำลังเล่นกับป่าสุ่มและพบว่าโดยทั่วไปการเพิ่ม sampSize จะนำไปสู่ประสิทธิภาพที่ดีขึ้น มีกฎ / สูตร / ฯลฯ ที่แนะนำว่า sampSize ที่ดีที่สุดควรเป็นอะไรหรือมันเป็นการทดลองและข้อผิดพลาดหรือไม่? ฉันเดาอีกวิธีหนึ่งในการใช้ถ้อยคำ อะไรคือความเสี่ยงของฉันที่มีขนาดเล็กเกินไปของ sampSize หรือใหญ่เกินไป (overfitting?) คำถามนี้อ้างถึงการนำ R ฟอเรสต์มาใช้ในrandomForestแพคเกจแบบสุ่ม ฟังก์ชั่นrandomForestมีพารามิเตอร์sampSizeซึ่งอธิบายไว้ในเอกสารประกอบดังนี้ ขนาดตัวอย่างที่จะวาด สำหรับการจำแนกประเภทหาก sampsize เป็นเวกเตอร์ที่มีความยาวจำนวนชั้นการสุ่มตัวอย่างจะแบ่งเป็นชั้น ๆ และองค์ประกอบของ sampsize จะระบุจำนวนที่จะดึงออกมาจากชั้น

13 r random-forest

1

Kinect ใช้ป่าสุ่มอย่างไร

ฉันอ่านในเว็บไซต์นี้ซึ่งเห็นได้ชัดว่า Kinect ใช้อัลกอริทึมป่าสุ่มสำหรับการเรียนรู้ของเครื่องในทางใดทางหนึ่ง ใครสามารถอธิบายสิ่งที่มันใช้ป่าสุ่มสำหรับและวิธีการทำงานของพวกเขา?

13 machine-learning random-forest application

2

Random Forest เหมาะสมกับชุดข้อมูลที่มีขนาดเล็กมากหรือไม่?

ฉันมีชุดข้อมูลซึ่งประกอบด้วยข้อมูล 24 แถวทุกเดือน คุณลักษณะคือ GDP การมาถึงสนามบินรายเดือนและอื่น ๆ ตัวแปรตามคือจำนวนผู้เข้าชมปลายทางการท่องเที่ยวที่เป็นที่นิยม ป่าสุ่มจะเหมาะสำหรับปัญหานี้หรือไม่? ข้อมูลนั้นไม่ใช่ข้อมูลสาธารณะดังนั้นฉันจึงไม่สามารถโพสต์ตัวอย่างได้

13 random-forest small-sample

2

ความใกล้ชิดในป่าสุ่มมีความหมายอย่างไร

ฉันเจอคำศัพท์ใกล้เคียงในป่าสุ่ม แต่ฉันไม่เข้าใจว่ามันทำอะไรในป่าสุ่ม มันช่วยในการจำแนกประเภทได้อย่างไร?

13 machine-learning random-forest

2

แนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติที่เป็นหมวดหมู่สำหรับต้นไม้การตัดสินใจ

เมื่อการเข้ารหัสคุณสมบัติเชิงหมวดหมู่สำหรับการถดถอยเชิงเส้นมีกฎ: จำนวนของหุ่นควรน้อยกว่าหนึ่งในจำนวนทั้งหมดของระดับ (เพื่อหลีกเลี่ยงการ collinearity) มีกฎที่คล้ายกันสำหรับต้นไม้การตัดสินใจ (ถุง, เพิ่มขึ้น) หรือไม่? ฉันถามสิ่งนี้เพราะการฝึกฝนมาตรฐานใน Python ดูเหมือนว่าจะเพิ่มnระดับเป็นnหุ่น (sklearns ' OneHotEncoderหรือ Pandas' pd.get_dummies) ซึ่งดูเหมือนจะไม่ดีสำหรับฉัน สิ่งที่คุณจะแนะนำเป็นแนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติหมวดหมู่สำหรับต้นไม้การตัดสินใจ?

13 categorical-data random-forest cart boosting

คำถามติดแท็ก random-forest