แหล่งข้อมูลสำหรับการเรียนรู้วิธีการใช้วิธีการทั้งมวล


13

ฉันเข้าใจในทางทฤษฎี (เรียงลำดับ) ว่าพวกเขาจะทำงานอย่างไร แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไรโดยใช้วิธีการรวมกลุ่ม (เช่นการออกเสียงลงคะแนนการผสมน้ำหนัก ฯลฯ )

  • แหล่งข้อมูลที่ดีสำหรับการใช้วิธีการทั้งมวลคืออะไร
  • มีทรัพยากรเฉพาะเกี่ยวกับการนำไปใช้ใน Python หรือไม่?

แก้ไข:

เพื่อให้ชัดเจนขึ้นจากการอภิปรายในความคิดเห็นฉันไม่ได้มองหาอัลกอริทึมทั้งมวลเช่น randomForest เป็นต้น แต่ฉันสงสัยว่าคุณจะรวมการจำแนกประเภทที่แตกต่างจากอัลกอริทึมที่แตกต่างกันได้อย่างไร

ตัวอย่างเช่นสมมติว่ามีคนใช้การถดถอยแบบลอจิสติก SVM และวิธีการอื่นในการทำนายระดับการสังเกตการณ์ เป็นวิธีที่ดีที่สุดในการไปเกี่ยวกับการประเมินที่ดีที่สุดของชั้นเรียนตามการคาดการณ์เหล่านี้คืออะไร?

คำตอบ:


12

จุดเริ่มต้นที่ดีคือการรับภาพรวมของการเรียนรู้ทั้งมวล โดยเฉพาะอย่างยิ่งที่คุณจะต้องการที่จะดูที่การส่งเสริมและการบรรจุถุง อีกวิธีหนึ่งคือการที่ใช้โดย "วง" ทีมงานใน Netflix รางวัลจะเรียกว่าทั้ง"ผสม" หรือคุณลักษณะซ้อน

จากนั้นเพียงค้นหาห้องสมุดที่นำมาใช้และทำงานจากที่นั่น googling ที่รวดเร็วเปลี่ยนเป็นscikitและorangeซึ่งทั้งสองอย่างนี้ควรมีการใส่ถุงและเพิ่ม (และเป็น Python ทั้งคู่)

หากนอกเหนือจากการใช้วิธีการรวมกลุ่มคุณต้องการเรียนรู้ทฤษฎีสักหน่อยฉันคิดว่าบทความนี้น่าจะเป็นจุดกระโดดที่ดี

ไชโย


(+1) woa อ้างอิงที่ดีที่นี่: O!
steffen

ขอบคุณ แค่พยายามมีส่วนร่วมบางอย่างเกี่ยวกับหนึ่งในไม่กี่หัวข้อที่ฉันรู้อะไรเกี่ยวกับ
Stumpy Joe Pete

4

'วิธีการทั้งมวลในการทำเหมืองข้อมูล: การปรับปรุงความแม่นยำด้วยการรวมการคาดการณ์' Seni และผู้อาวุโส - การอ้างอิงที่ดีเยี่ยมเกี่ยวกับทฤษฎีวงดนตรีในทางปฏิบัติและการนำไปใช้งาน แต่รหัสประกอบขึ้นอยู่กับ R

'การเรียนรู้ของเครื่อง: มุมมองของอัลกอริทึม,' S. Marsland - ข้อความที่เป็นประโยชน์จาก Python ที่ยอดเยี่ยม แต่ไม่ได้ทุ่มเทให้กับแนวคิดวงดนตรีล้วนๆเป็นข้อมูลอ้างอิงครั้งแรก


2

Stumpy Joe Pete ตอบสนองได้อย่างสมบูรณ์แบบ แต่เนื่องจากคุณพูดถึงการใช้ Python ฉันต้องการพูดถึงโครงการชงจาก Universidade Federal de Pernambuco

https://github.com/viisar/brew

from brew.base import Ensemble
from brew.base import EnsembleClassifier
from brew.combination import import Combiner

# create your Ensemble
clfs = your_list_of_classifiers # [clf1, clf2]
ens = Ensemble(classifiers = clfs)

# create your Combiner
# the rules can be 'majority_vote', 'max', 'min', 'mean' or 'median'
comb = Combiner(rule='majority_vote')

# now create your ensemble classifier
ensemble_clf = EnsembleClassifier(ensemble=ens, combiner=comb)
ensemble_clf.predict(X)

เมื่อมาถึงจุดนี้พวกเขามีทั้งการเลือกการสร้างการผสมผสานการตัดและการเลือกแบบไดนามิก

ข้อ จำกัด : การจัดประเภทเท่านั้น; ไม่มีการสแต็กในเวอร์ชันสาธารณะปัจจุบัน เอกสารไม่มาก


0

ซัลฟอร์ดซิสเต็มมีแพ็คเกจซอฟแวร์ที่เรียกว่าป่าสุ่มซึ่งใช้สำหรับการจัดหมวดหมู่และการถดถอยต้นไม้ตระการตา ฉันไม่มีแพ็กเกจ R ฟรีให้ ฉันคิดว่าพวกเขามีคู่มือผู้ใช้ที่จะอธิบายการใช้งานของพวกเขา โดยการเปรียบเทียบคุณอาจคิดได้ว่าจะทำอย่างไรกับวิธีอื่น ๆ


2
มีแพ็คเกจ R ที่ยอดเยี่ยมมากมายสำหรับตระการตาของต้นไม้: เช่น randomForest (อัลกอริทึมแบบดั้งเดิม), ปาร์ตี้ :: cforest (ป่าสุ่มโดยใช้ต้นไม้อนุมานตามเงื่อนไข), gbm (การไล่ระดับสีของต้นไม้) เพื่อชื่อไม่กี่ ฉันอ่าน OP ว่าต้องการใช้ตระการตาลักษณนาม / การถดถอยแบบไม่เชื่อเรื่องพระเจ้า ขั้นตอนที่ง่ายที่สุดคือการคาดการณ์โดยเฉลี่ย
B_Miner

@B_Miner เป็นเรื่องดีที่ได้ทราบว่ามีการใช้งานในอาร์อาจจะมีใครบางคนสามารถอธิบายกับฉันได้ว่าทำไมการใช้งานเฉพาะใน Python จึงเป็นเรื่องที่น่าพอใจ ฉันอ่าน OP เพื่อต้องการทราบแหล่งที่อธิบายถึงวิธีการใช้วิธีการทั้งมวล แพ็คเกจ Salford เป็นแพ็คเกจที่ฉันรู้ว่าอาจมีเอกสารบางส่วน
Michael R. Chernick

ในขณะที่ใช้กระดาษเพิ่ม Freund และ Schapire โดยทั่วไปเท่าที่ฉันรู้ว่าผลลัพธ์ที่ดีที่สุดได้มาจากการใช้ตัวจําแนกทรี
Michael R. Chernick

ฉันเองได้รับผลลัพธ์ที่ดีจริงๆโดยการหาค่าความน่าจะเป็นแบบง่าย ๆ - แต่โดเมนของฉันสนใจในความน่าจะเป็นมากกว่าการเลือกเลเบลของคลาส
B_Miner

@MichaelChernick หากคุณกำลังทำผลงานการทำนายที่รุนแรงจริงๆ (เช่น ... การแข่งขัน Kaggle) คุณจะไม่ได้รับทั้งการส่งเสริมหรือป่าสุ่ม คุณจะต้องการรวมโมเดลให้ได้มากที่สุดเท่าที่จะเป็นไปได้ (ซึ่งโดยทั่วไปจะมากกว่าหนึ่ง) ดังนั้นในบริบทนั้นวิธีการวงดนตรีอื่น ๆ จะมีความสำคัญแม้ว่าป่าแบบสุ่มนั้นน่ากลัวกว่าสิ่งอื่นใด
Stumpy Joe Pete


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.