คำถามติดแท็ก boosting

ตระกูลของอัลกอริธึมที่รวมโมเดลการทำนายที่อ่อนแอเข้ากับโมเดลการทำนายที่แข็งแกร่ง วิธีที่ใช้กันมากที่สุดเรียกว่าการไล่ระดับสีแบบไล่ระดับและแบบจำลองที่อ่อนแอที่ใช้กันมากที่สุดคือการจำแนกต้นไม้ / การถดถอย

2
ส่งเสริมเครือข่ายประสาท
เมื่อเร็ว ๆ นี้ฉันกำลังทำงานเกี่ยวกับการเรียนรู้อัลกอริทึมการส่งเสริมเช่น adaboost, การไล่ระดับสีและฉันได้ทราบความจริงที่ว่าผู้เรียนอ่อนแอที่ใช้กันมากที่สุดคือต้นไม้ ฉันอยากรู้ว่ามีตัวอย่างที่ประสบความสำเร็จเมื่อเร็ว ๆ นี้ (ฉันหมายถึงบางบทความหรือบทความ) สำหรับการใช้เครือข่ายประสาทในฐานะผู้เรียนพื้นฐาน

4
“ การเรียนรู้แบบมีผู้ควบคุมกึ่ง” - การทำเกินนี้หรือไม่
ฉันอ่านรายงานเกี่ยวกับวิธีแก้ปัญหาการชนะของการแข่งขัน Kaggle ( การจำแนกประเภทมัลแวร์ ) รายงานสามารถพบได้ในโพสต์ฟอรั่มนี้ ปัญหาคือปัญหาการจัดหมวดหมู่ (เก้าคลาสตัวชี้วัดคือการสูญเสียลอการิทึม) ที่มี 10,000 องค์ประกอบในชุดรถไฟ 10,000 ชิ้นส่วนในชุดทดสอบ ในระหว่างการแข่งขันแบบจำลองจะถูกประเมินเทียบกับ 30% ของชุดทดสอบ องค์ประกอบที่สำคัญอีกประการหนึ่งคือโมเดลมีประสิทธิภาพดีมาก (ใกล้เคียงกับความแม่นยำ 100%) ผู้เขียนใช้เทคนิคต่อไปนี้: อีกเทคนิคที่สำคัญที่เราเกิดขึ้นคือการเรียนรู้แบบ Semisupervised ก่อนอื่นเราสร้างฉลากเทียมของชุดทดสอบโดยเลือกความน่าจะเป็นสูงสุดของแบบจำลองที่ดีที่สุดของเรา จากนั้นเราคาดการณ์ชุดการทดสอบอีกครั้งในรูปแบบการตรวจสอบความถูกต้องทั้งข้อมูลรถไฟและข้อมูลการทดสอบ ตัวอย่างเช่นชุดข้อมูลการทดสอบแบ่งออกเป็น 4 ส่วน A, B, C และ D เราใช้ข้อมูลการฝึกอบรมทั้งหมดและทดสอบข้อมูล A, B, C พร้อมป้ายกำกับหลอกของพวกเขาพร้อมกันเป็นชุดฝึกอบรมใหม่และเราทำนายการทดสอบ ชุด D วิธีเดียวกันนี้ใช้ในการทำนาย A, B และ C วิธีการนี้คิดค้นโดย Xiaozhou ทำงานได้ดีอย่างน่าประหลาดใจและช่วยลดการสูญเสียการตรวจสอบข้ามท้องถิ่นการสูญเสีย LB สาธารณะและการสูญเสีย LB …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
AdaBoost น้อยลงหรือคว่ำง่ายกว่า
ฉันได้อ่านข้อความที่ขัดแย้งกัน (ดูเหมือน) หลายฉบับว่า AdaBoost (หรือเทคนิคการส่งเสริมอื่น ๆ ) นั้นมีความเป็นไปได้น้อยหรือมีแนวโน้มที่จะมีน้ำหนักเกินกว่าวิธีการเรียนรู้อื่น ๆ มีเหตุผลที่ดีที่จะเชื่ออย่างใดอย่างหนึ่งหรือไม่? ถ้ามันขึ้นอยู่กับว่ามันขึ้นอยู่กับอะไร? อะไรคือสาเหตุที่ AdaBoost มีแนวโน้มน้อยลง / มากขึ้นที่จะทำให้อ้วนมากเกินไป?

3
XGBoost vs Python Sklearn ทำให้ต้นไม้ดีขึ้น
ฉันพยายามเข้าใจว่า XGBoost ทำงานอย่างไร ฉันเข้าใจอยู่แล้วว่าต้นไม้ที่ถูกไล่ระดับสีนั้นทำงานบน Python sklearn ได้อย่างไร สิ่งที่ไม่ชัดเจนสำหรับฉันคือถ้า XGBoost ทำงานในลักษณะเดียวกัน แต่เร็วกว่าหรือหากมีความแตกต่างพื้นฐานระหว่างมันกับการใช้งานของหลาม เมื่อฉันอ่านเอกสารนี้ http://learningsys.org/papers/LearningSys_2015_paper_32.pdf ฉันดูเหมือนว่าผลลัพธ์สุดท้ายที่ออกมาจาก XGboost จะเหมือนกับในการใช้งาน Python แต่ความแตกต่างที่สำคัญคือวิธีที่ XGboost พบว่าการแยกที่ดีที่สุดที่จะทำในต้นไม้การถดถอยแต่ละต้น โดยพื้นฐานแล้ว XGBoost ให้ผลลัพธ์เหมือนกัน แต่เร็วกว่า ถูกต้องหรือมีอย่างอื่นที่ฉันหายไปหรือไม่

1
การอภิปรายเกี่ยวกับ overfit ใน xgboost
การตั้งค่าของฉันมีดังต่อไปนี้: ฉันกำลังติดตามแนวทางใน "การทำนายแบบจำลองประยุกต์" ดังนั้นฉันได้กรองคุณสมบัติที่เกี่ยวข้องและจบลงด้วยสิ่งต่อไปนี้: จุดข้อมูล 4900 ในชุดฝึกอบรมและ 1600 จุดข้อมูลในชุดทดสอบ ฉันมีคุณสมบัติ 26 อย่างและเป้าหมายเป็นตัวแปรต่อเนื่อง ฉันใช้ crossvalidation 5 เท่ากับโมเดลรถไฟโดยใช้caretแพ็คเกจ เมื่อฉันใช้แบบจำลอง MARS ฉันจะได้รับข้อผิดพลาดแบบสัมบูรณ์ (MAE) ประมาณ 4 ในชุดฝึกอบรมและชุดทดสอบ อย่างไรก็ตามการใช้ xgboost (เป็นอัลกอริทึมแบบต้นไม้หรือแบบเชิงเส้น) ฉันได้รับบางอย่างเช่น 0.32 (!) ในชุดการฝึกอบรมและ 2.4 ในชุดทดสอบ ดังนั้นหากข้อผิดพลาดการทดสอบเป็น 8 เท่าของข้อผิดพลาดในการฝึกอบรมฉันจะบอกว่า: ฉันมีข้อมูลการฝึกอบรมมากเกินไป ฉันยังได้รับข้อผิดพลาดเล็กน้อยในการทดสอบอย่างไรก็ตาม ฉันใช้พารามิเตอร์ต่อไปนี้ใน xgboost: nrounds = 1000และeta = 0.01(การเพิ่ม nrounds และการลดลงของกทพ. สามารถช่วยได้ แต่ฉันมีหน่วยความจำไม่เพียงพอและเวลาในการรันนานเกินไป) max_depth = …

3
การตัดสินใจเป็นตอแบบจำลองเชิงเส้นหรือไม่?
ตอการตัดสินใจเป็นต้นไม้การตัดสินใจที่มีเพียงหนึ่งแยก นอกจากนี้ยังสามารถเขียนเป็นฟังก์ชั่นตามเข็มนาฬิกา ตัวอย่างเช่นสมมติว่าเป็นเวกเตอร์และเป็นองค์ประกอบแรกของในการตั้งค่าการถดถอยการตัดสินใจบางอย่างอาจทำให้ตอx 1 xxxxx1x1x_1xxx ฉ( x ) = { 35x1≤ 2x1> 2ฉ(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} แต่มันเป็นโมเดลเชิงเส้นหรือไม่? สามารถเขียนเป็นที่ไหน คำถามนี้อาจฟังดูแปลกเพราะดังที่ได้กล่าวไว้ในคำตอบและความคิดเห็นหากเราพล็อตฟังก์ชั่นตามลำดับมันไม่ใช่เส้น โปรดดูหัวข้อถัดไปสำหรับสาเหตุที่ฉันถามคำถามนี้ฉ( x ) = βTxฉ(x)=βTxf(x)=\beta^T x แก้ไข: เหตุผลที่ฉันถามคำถามนี้คือการถดถอยโลจิสติกเป็นโมเดลเชิงเส้น (ทั่วไป) และขอบเขตการตัดสินใจเป็นเส้นเช่นกันสำหรับตอการตัดสินใจ หมายเหตุเรามีคำถามนี้ด้วย: เหตุใดการถดถอยแบบลอจิสติกจึงเป็นโมเดลเชิงเส้น . ในทางกลับกันดูเหมือนว่าไม่เป็นความจริงที่ตอการตัดสินใจเป็นแบบจำลองเชิงเส้น อีกเหตุผลที่ฉันถามนี้เนื่องจากคำถามนี้: ในการส่งเสริมหากผู้เรียนพื้นฐานเป็นแบบจำลองเชิงเส้นแบบจำลองสุดท้ายเป็นเพียงแบบจำลองเชิงเส้นอย่างง่ายหรือไม่? โดยที่ถ้าเราใช้โมเดลเชิงเส้นเป็นผู้เรียนพื้นฐานเราจะไม่ได้อะไรมากไปกว่าการถดถอยเชิงเส้น แต่ถ้าเราเลือกผู้เรียนพื้นฐานเป็นตอการตัดสินใจเราจะได้แบบจำลองที่น่าสนใจมาก นี่คือตัวอย่างหนึ่งของการตัดสินใจตอการส่งเสริมการถดถอยด้วย 2 คุณสมบัติและ 1 …

2
การส่งเสริม: เหตุใดอัตราการเรียนรู้จึงเรียกว่าพารามิเตอร์การทำให้เป็นมาตรฐาน
อัตราการเรียนรู้พารามิเตอร์ ( ) ในการไล่โทนสีการส่งเสริมการมีส่วนร่วมของ shrinks รุ่นแต่ละฐานใหม่ -typically tree- ตื้นที่จะถูกเพิ่มในซีรีส์ มันแสดงให้เห็นถึงการเพิ่มความแม่นยำของชุดการทดสอบอย่างมากซึ่งเป็นที่เข้าใจได้เช่นเดียวกับขั้นตอนที่เล็กกว่าขั้นต่ำของฟังก์ชั่นการสูญเสียสามารถบรรลุได้อย่างแม่นยำมากขึ้น ν∈[0,1]ν∈[0,1]\nu \in [0,1] ฉันไม่เข้าใจว่าทำไมอัตราการเรียนรู้จึงถือเป็นพารามิเตอร์ในการทำให้เป็นมาตรฐาน? อ้างถึงองค์ประกอบของการเรียนรู้สถิติส่วนที่ 10.12.1, p.364: การควบคุมจำนวนต้นไม้ไม่ได้เป็นเพียงกลยุทธ์การทำให้เป็นมาตรฐานเท่านั้น เช่นเดียวกับการถดถอยของสันเขาและโครงข่ายประสาทเทียมสามารถใช้เทคนิคการหดตัวได้เช่นกัน ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำM ดังนั้นทั้งνและM จึงควบคุมความเสี่ยงในการทำนายข้อมูลการฝึกอบรมνν\nuMMMνν\nuMMM การทำให้เป็นมาตรฐานหมายถึง "วิธีหลีกเลี่ยงการทำให้อ้วนมากเกินไป" ดังนั้นจึงเป็นที่ชัดเจนว่าจำนวนการวนซ้ำเป็นสิ่งสำคัญในการเคารพนั้น ( Mที่สูงเกินไปที่จะนำไปสู่การล้น) แต่:MMMMMM ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำMνν\nuMMM เพียงหมายความว่าด้วยอัตราการเรียนรู้ต่ำจำเป็นต้องมีการทำซ้ำมากขึ้นเพื่อให้ได้ความถูกต้องเหมือนกันในชุดฝึกอบรม แล้วมันเกี่ยวข้องอย่างไรกับการบรรจุมากเกินไป?

1
ช่วงเวลาการทำนายขึ้นอยู่กับการตรวจสอบข้าม (CV)
ในหนังสือข้อความและการบรรยาย youtube ฉันได้เรียนรู้มากมายเกี่ยวกับแบบจำลองซ้ำ ๆ เช่นการส่งเสริม แต่ฉันไม่เคยเห็นอะไรเลยเกี่ยวกับช่วงเวลาการทำนาย การตรวจสอบความถูกต้องไขว้ถูกใช้สำหรับสิ่งต่อไปนี้: การเลือกรุ่น : ลองใช้รุ่นที่แตกต่างกันและเลือกรุ่นที่เหมาะสมที่สุด ในกรณีของการส่งเสริมให้ใช้ CV เพื่อเลือกพารามิเตอร์การปรับ การประเมินโมเดล : ประเมินประสิทธิภาพของโมเดลที่เลือก พารามิเตอร์หลายตัวมีความสำคัญต่อการประเมินแบบจำลองโดยหนึ่งในนั้นคือข้อผิดพลาดในการทำนายที่คาดหวัง การตรวจสอบความถูกต้องของข้อมูลให้การประมาณที่ดีของข้อผิดพลาดในการทำนายเช่นเดียวกับที่อธิบายไว้ในหนังสือ "องค์ประกอบของการเรียนรู้ทางสถิติ" แต่เราจะใช้ข้อผิดพลาดการคาดการณ์เพื่อสร้างช่วงเวลาการทำนายได้อย่างไร และถ้าคุณทำนายราคาของบ้านตัวอย่างเช่นช่วงเวลาการทำนายจะสูงกว่าสำหรับบ้านที่ 500,000 ยูโรเมื่อเทียบกับบ้านที่มี 200,000 ยูโร เราจะประเมินช่วงเวลาการทำนายเหล่านี้โดยใช้การตรวจสอบความถูกต้องไขว้ได้อย่างไร

1
ปรับเทียบลักษณนามเพิ่มหลายคลาส
ฉันได้อ่านอเล็กซาน Niculescu-Mizil และรวย Caruana กระดาษ " ได้รับการสอบเทียบความน่าจะเป็นจากการส่งเสริม " และการอภิปรายในนี้ด้าย อย่างไรก็ตามฉันยังคงมีปัญหาในการทำความเข้าใจและใช้งานโลจิสติกส์หรือการปรับขนาดของแพลตต์เพื่อปรับเทียบผลลัพธ์ของตัวแยกประเภทการเพิ่มคลาสหลายระดับของฉัน ฉันค่อนข้างคุ้นเคยกับโมเดลเชิงเส้นทั่วไปและฉันคิดว่าฉันเข้าใจว่าวิธีการสอบเทียบของโลจิสติกและแพลตทำงานอย่างไรในกรณีไบนารี แต่ฉันไม่แน่ใจว่าฉันรู้วิธีขยายวิธีที่อธิบายไว้ในกระดาษไปยังกรณีหลายระดับ ตัวจําแนกฉันใช้ผลลัพธ์ต่อไปนี้: = จำนวนคะแนนโหวตที่ลักษณนามใช้สำหรับคลาส jสำหรับตัวอย่าง iที่ถูกจัดประเภทฉฉันเจฉผมJf_{ij}JJjผมผมi YผมYผมy_i = คลาสโดยประมาณ ณ จุดนี้ฉันมีคำถามต่อไปนี้: คำถามที่ 1:ฉันจำเป็นต้องใช้ logom หลายค่าเพื่อประมาณความน่าจะเป็นหรือไม่? หรือฉันยังสามารถทำได้ด้วยการถดถอยโลจิสติก (เช่นใน 1-vs-all )? Q2:ฉันจะกำหนดตัวแปรเป้าหมายระดับกลางได้อย่างไร (เช่นในการปรับขนาดของแพลต) สำหรับกรณีที่มีหลายระดับ คำถามที่3:ฉันเข้าใจว่าอาจเป็นเรื่องที่ถามบ่อย แต่ทุกคนจะยินดีที่จะร่างรหัสหลอกสำหรับปัญหานี้หรือไม่? (ในระดับปฏิบัติมากขึ้นฉันสนใจในโซลูชันใน Matlab)

3
เมื่อใดที่ฉันไม่ควรใช้ตัวจําแนกทั้งหมดของ ensemble
โดยทั่วไปแล้วในปัญหาการจำแนกประเภทที่เป้าหมายคือการทำนายการเป็นสมาชิกคลาสนอกกลุ่มตัวอย่างได้อย่างถูกต้องเมื่อใดฉันจึงไม่ควรใช้ตัวจําแนก ensemble คำถามนี้เกี่ยวข้องกับทำไมไม่ใช้การเรียนรู้ทั้งมวลเสมอไป . คำถามนั้นถามว่าทำไมเราไม่ใช้วงดนตรีตลอดเวลา ฉันต้องการที่จะรู้ว่ามีบางกรณีที่วงดนตรีเป็นที่รู้กันว่าแย่กว่านี้ (ไม่ใช่แค่ "ไม่ดีขึ้นและเสียเวลา") มากกว่ากลุ่มที่ไม่ใช่ทั้งมวล และโดย "ensemble ลักษณนาม" ฉันหมายถึงตัวแยกประเภทเช่น AdaBoost และฟอเรสต์แบบสุ่มโดยเฉพาะซึ่งตรงกันข้ามกับเครื่องเวกเตอร์สนับสนุนแบบม้วนของคุณเอง

1
การส่งเสริมและห่อต้นไม้ (XGBoost, LightGBM)
มีโพสต์บล็อกมากมายวิดีโอ YouTube และอื่น ๆ เกี่ยวกับแนวคิดของการห่อ หรือ เพิ่มต้นไม้ ความเข้าใจทั่วไปของฉันคือรหัสหลอกสำหรับแต่ละคือ: บรรจุถุง: นำตัวอย่างแบบสุ่มจำนวน N% ของตัวอย่างและ y% ของฟีเจอร์ ปรับโมเดลของคุณ (เช่นแผนผังการตัดสินใจ) ในแต่ละ N ทำนายผลด้วยแต่ละ N เฉลี่ยการคาดการณ์เพื่อให้ได้คำทำนายสุดท้าย การส่งเสริมการ: ปรับโมเดลของคุณ (เช่นแผนผังการตัดสินใจ) กับข้อมูล รับส่วนที่เหลือ พอดีกับโมเดลของคุณกับของเหลือ ไปที่ 2 เพื่อเพิ่มรอบ N การทำนายขั้นสุดท้ายคือผลรวมถ่วงน้ำหนักของเครื่องทำนายลำดับ ฉันจะขอชี้แจงความเข้าใจของฉันด้านบน แต่คำถามที่ฉันตั้งใจไว้มีดังนี้: ทั้ง XGBoost และ LightGBM มี params ที่อนุญาตให้ใส่ถุงได้ แอปพลิเคชันไม่ได้บรรจุถุงหรือเพิ่มประสิทธิภาพ (ซึ่งเป็นสิ่งที่ทุกโพสต์ในบล็อกพูดถึง) แต่เป็นการบรรจุและเพิ่มประสิทธิภาพ รหัสหลอกสำหรับสถานที่และเวลาที่รวมถุงและการเพิ่มกำลังเกิดขึ้นคืออะไร? ฉันคาดว่ามันจะเป็น "ต้นไม้ที่ถูกกระตุ้นให้มีต้นไม้เพิ่มขึ้น" แต่ดูเหมือนว่ามันจะเป็น ความแตกต่างดูเหมือนมาก ต้นไม้ที่ได้รับการเสริมถุง: …

2
การจำแนกประเภทด้วยการไล่ระดับสีแบบไล่ระดับ: วิธีการทำนายใน [0,1]
คำถาม ฉันกำลังดิ้นรนเพื่อทำความเข้าใจว่าการทำนายนั้นจะอยู่ในช่วง[0,1][0,1][0,1]เมื่อทำการจำแนกไบนารีด้วยการไล่ระดับสีแบบค่อยเป็นค่อยไป สมมติว่าเรากำลังทำงานกับปัญหาการจำแนกเลขฐานสองและฟังก์ชันวัตถุประสงค์ของเราคือการสูญเสียบันทึก−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))โดยที่yyyคือตัวแปรเป้าหมาย∈{0,1}∈{0,1}\in \{0,1\}และHHHคือโมเดลปัจจุบันของเรา เมื่อการฝึกอบรมผู้เรียนที่อ่อนแอต่อไปhihih_iดังกล่าวว่ารูปแบบใหม่ของเราคือHi=Hi−1+hiHi=Hi−1+hiH_i = H_{i-1} + h_iสิ่งที่เป็นกลไกที่ควรจะให้Hi∈[0,1]Hi∈[0,1]H_i \in [0,1] ? หรืออาจเป็นคำถามที่เกี่ยวข้องมากกว่านี้มีกลไกแบบนี้หรือไม่? ข้อมูลเพิ่มเติมเกี่ยวกับสิ่งที่ฉันทำ ฉันกำลังพยายามเพิ่มการไล่ระดับสีโดยใช้ต้นไม้การถดถอย สิ่งที่ฉันทำเพื่อหลีกเลี่ยงมันคือการคูณด้วยปัจจัยc ∈ [ 0 , c max ]เช่นนี้H + c max hไม่ไปต่ำกว่าศูนย์หรือสูงกว่าหนึ่งและฉันเลือกcในช่วงนี้ที่ย่อเล็กสุด ฟังก์ชั่นการสูญเสียhihih_ic∈[0,cmax]c∈[0,cmax]c \in [0,c_{\text{max}}]H+cmaxhH+cmaxhH + c_{\text{max}}hccc นี่ทำให้เกิดปัญหาต่อไปนี้: หลังจากรอบฉันมีจุดหนึ่งที่จำแนกอย่างสมบูรณ์และแบ่งที่ดีที่สุดที่มีการผลักลักษณนามในทิศทางของการไล่ระดับสีต้องการผลักดันจุดนี้เหนือจุดหนึ่งซึ่งฉันแน่ใจว่าจะไม่เกิดขึ้นโดย การตั้งค่า 0 ดังนั้นการวนซ้ำครั้งถัดไปทั้งหมดจะเลือกการแบ่งที่เหมือนกันและc = 0 ที่เหมือนกันc=0c=0c = 0c=0c=0c = 0 ฉันลองใช้ระเบียบปฏิบัติทั่วไป …

2
เครื่องเพิ่มระดับความลาดชันมีเงื่อนไขใดที่มีประสิทธิภาพเหนือกว่าป่าสุ่ม
เครื่องจักรเพิ่มระดับความลาดชันของ Friedmanสามารถทำงานได้ดีกว่าป่าสุ่มของ Breimanหรือไม่? ถ้าเป็นเช่นนั้นเงื่อนไขหรือชุดข้อมูลใดที่สามารถทำให้ gbm ดีขึ้นได้?

2
การจำแนกประเภท GBM ประสบกับขนาดคลาสที่ไม่สมดุลหรือไม่?
ฉันกำลังจัดการกับปัญหาการจำแนกประเภทไบนารีภายใต้การดูแล ฉันต้องการใช้แพคเกจ GBM เพื่อจัดประเภทบุคคลเป็นไม่ติดเชื้อ / ติดเชื้อ ฉันติดเชื้อมากกว่าคนที่ติดเชื้อ 15 เท่า ฉันสงสัยว่ารุ่น GBM ประสบปัญหาในกรณีที่ขนาดไม่สมดุลหรือไม่? ฉันไม่พบการอ้างอิงใด ๆ ที่ตอบคำถามนี้ ฉันพยายามปรับน้ำหนักโดยการกำหนดน้ำหนัก 1 ให้กับบุคคลที่ไม่ได้รับเชื้อและน้ำหนัก 15 ถึงผู้ติดเชื้อ แต่ฉันได้รับผลลัพธ์ที่ไม่ดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.