คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

4
KNN เป็นอัลกอริทึมการเรียนรู้ที่เลือกปฏิบัติหรือไม่?
ดูเหมือนว่า KNN เป็นอัลกอริทึมการเรียนรู้แบบเลือกปฏิบัติ แต่ฉันไม่พบแหล่งข้อมูลออนไลน์ใด ๆ ยืนยันสิ่งนี้ KNN เป็นอัลกอริทึมการเรียนรู้ที่เลือกปฏิบัติหรือไม่?

5
สำหรับการจำแนกประเภทด้วยป่าสุ่มใน R เราควรปรับขนาดคลาสที่ไม่สมดุลได้อย่างไร
ฉันกำลังสำรวจวิธีการจำแนกประเภทที่แตกต่างกันสำหรับโครงการที่ฉันกำลังดำเนินการอยู่และสนใจลองใช้การสุ่มป่า ฉันพยายามที่จะให้การศึกษาตัวเองในขณะที่ฉันไปตามและจะขอบคุณความช่วยเหลือจากชุมชน CV ฉันแบ่งข้อมูลของฉันออกเป็นชุดฝึกอบรม / ทดสอบ จากการทดลองกับป่าสุ่มใน R (โดยใช้แพ็คเกจแบบสุ่มป่าไม้) ฉันมีปัญหากับอัตราการจำแนกผิดพลาดสูงสำหรับชั้นเรียนขนาดเล็กของฉัน ฉันได้อ่านบทความนี้เกี่ยวกับประสิทธิภาพของป่าสุ่มบนข้อมูลที่ไม่สมดุลและผู้เขียนเสนอวิธีการสองวิธีในการจัดการกับความไม่สมดุลของระดับเมื่อใช้ป่าสุ่ม 1. ป่าไม้แบบถ่วงน้ำหนัก 2. ป่าไม้แบบสมดุล แพคเกจ R ไม่อนุญาตให้มีน้ำหนักของคลาส (จากฟอรัมช่วยเหลือ R ฉันได้อ่านพารามิเตอร์ classwt ทำงานไม่ถูกต้องและกำหนดเวลาเป็นการแก้ไขข้อบกพร่องในอนาคต) ดังนั้นฉันจึงเหลือตัวเลือก 2 ฉันสามารถระบุได้ จำนวนวัตถุที่สุ่มตัวอย่างจากแต่ละคลาสสำหรับการวนซ้ำแต่ละครั้งของฟอเรสต์แบบสุ่ม ฉันรู้สึกไม่สบายใจเกี่ยวกับการตั้งค่าขนาดตัวอย่างที่เท่ากันสำหรับป่าแบบสุ่มเนื่องจากฉันรู้สึกว่าฉันจะสูญเสียข้อมูลมากเกินไปเกี่ยวกับชั้นเรียนขนาดใหญ่ที่นำไปสู่ประสิทธิภาพที่ไม่ดีกับข้อมูลในอนาคต อัตราการจำแนกประเภทเมื่อลดขนาดกลุ่มที่ใหญ่กว่าได้แสดงให้เห็นว่าดีขึ้น แต่ฉันสงสัยว่ามีวิธีอื่นในการจัดการกับขนาดชั้นเรียนที่ไม่สมดุลในป่าสุ่มหรือไม่

2
ป่าสุ่มที่มีผลผลิตหลายรายการจะเป็นไปได้ / ในทางปฏิบัติหรือไม่?
ป่าสุ่ม (RFs) เป็นการสร้างแบบจำลองข้อมูลการแข่งขัน / วิธีการขุด RF model มีหนึ่งเอาต์พุต - ตัวแปรเอาต์พุต / การทำนาย วิธีการที่ไร้เดียงสาในการสร้างแบบจำลองเอาต์พุตจำนวนมากที่มี RFs คือการสร้าง RF สำหรับตัวแปรเอาต์พุตแต่ละตัว ดังนั้นเราจึงมีโมเดลอิสระ N และที่ใดที่มีความสัมพันธ์ระหว่างตัวแปรเอาต์พุตเราจะมีโครงสร้างโมเดลซ้ำซ้อน / ซ้ำกัน นี่อาจสิ้นเปลืองอย่างมากแน่นอน นอกจากนี้ในฐานะที่เป็นกฎทั่วไปมากขึ้นตัวแปรรูปแบบหมายถึงรูปแบบ overfit มากขึ้น (การวางหลักเกณฑ์ทั่วไปน้อยกว่า) ไม่แน่ใจว่าสิ่งนี้ใช้ที่นี่ แต่อาจเป็นไปได้ โดยหลักการแล้วเราอาจมี RF ที่มีเอาต์พุตหลายตัว ตัวแปรการทำนายตอนนี้เป็นเวกเตอร์ (n-tuple) โหนดการตัดสินใจในต้นไม้การตัดสินใจแต่ละชุดจะแยกชุดของเวกเตอร์เป้าหมาย / การทำนายโดยใช้เวกเตอร์จุดเริ่มต้นฉันคิดว่าเกณฑ์นี้ถูกนำมาใช้เป็นระนาบในพื้นที่ n- มิติดังนั้นเราจึงสามารถกำหนดด้านใดของเกณฑ์ เวกเตอร์เป้าหมายแต่ละตัวเปิดอยู่ ค่าการทำนายที่เหมาะสมที่สุดสำหรับแต่ละด้านของการแยกการตัดสินใจคือค่าเฉลี่ย (centroid) ที่คำนวณสำหรับเวกเตอร์ในแต่ละด้าน การค้นหาจุดแยกที่เหมาะสมที่สุดเมื่อทำงานกับตัวแปรเดี่ยวนั้นมีความสำคัญและรวดเร็ว / มีประสิทธิภาพในการคำนวณ สำหรับ n-tuple เราไม่สามารถหาการแยกที่ดีที่สุด (หรืออย่างน้อยก็กลายเป็น …

5
ฉันเรียนรู้จากการจดจำรูปแบบและการเรียนรู้ของเครื่องจักร Chris Bishop เป็นแหล่งข้อมูลที่ดีใช่หรือไม่
มีวิดีโอหรือหนังสือ / บันทึกอื่น ๆ ที่ทุกคนเคยพบเจอตามการจดจำรูปแบบและการเรียนรู้ของ Machine โดย Chris Bishop หรือไม่ ฉันซื้อหนังสือเล่มนี้เพื่อเรียนรู้การเรียนรู้ของเครื่องและฉันประสบปัญหาในการผ่านมัน

4
การตีความความเหมือนโคไซน์เชิงลบ
คำถามของฉันอาจจะโง่ ดังนั้นฉันจะขออภัยล่วงหน้า ฉันพยายามใช้แบบจำลอง GLOVE ที่ผ่านการฝึกอบรมโดยกลุ่ม Stanford NLP ( ลิงก์ ) อย่างไรก็ตามฉันสังเกตเห็นว่าผลลัพธ์ที่คล้ายคลึงกันของฉันแสดงจำนวนลบ นั่นทำให้ฉันดูไฟล์ข้อมูล word-vector ทันที เห็นได้ชัดว่าค่าในคำว่าเวกเตอร์ได้รับอนุญาตให้เป็นค่าลบ นั่นอธิบายว่าทำไมฉันเห็นความเหมือนโคไซน์ลบ ฉันคุ้นเคยกับแนวคิดของความเหมือนโคไซน์ของความถี่เวกเตอร์ซึ่งค่าถูก จำกัด อยู่ใน [0, 1] ฉันรู้สำหรับความจริงที่ว่าดอทโปรดัคและฟังก์ชันโคไซน์สามารถเป็นบวกหรือลบได้ขึ้นอยู่กับมุมระหว่างเวกเตอร์ แต่ฉันมีความเข้าใจยากมากและตีความความคล้ายคลึงเชิงลบโคไซน์นี้ ตัวอย่างเช่นถ้าฉันมีคู่ของคำที่ให้ความเหมือนกันของ -0.1 พวกเขาจะคล้ายกันน้อยกว่าคู่อื่นที่มีความคล้ายคลึงกันคือ 0.05? วิธีการเปรียบเทียบความคล้ายคลึงกันของ -0.9 ถึง 0.8? หรือฉันควรดูที่ค่าสัมบูรณ์ของความแตกต่างมุมน้อยที่สุดจาก ? ค่าสัมบูรณ์ของคะแนน?n πnπn\pi ขอบคุณมาก ๆ

3
สาเหตุที่กำหนดทางคณิตศาสตร์เป็นอย่างไร?
คำจำกัดความทางคณิตศาสตร์ของความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรสุ่มสองตัวคืออะไร ได้รับตัวอย่างจากการจัดจำหน่ายร่วมกันของสองตัวแปรสุ่มและเมื่อเราจะพูดทำให้เกิด ?XXXYYYXXXYYY สำหรับบริบทฉันกำลังอ่านบทความนี้เกี่ยวกับการค้นพบสาเหตุ

1
การเรียนรู้แบบมีผู้สอนเป็นส่วนหนึ่งของการเรียนรู้เสริมหรือไม่?
ดูเหมือนว่าคำจำกัดความของการเรียนรู้แบบมีผู้เรียนเป็นส่วนหนึ่งของการเรียนรู้การเสริมแรงโดยมีฟังก์ชั่นการให้รางวัลประเภทหนึ่งซึ่งอยู่บนพื้นฐานของข้อมูลที่ติดฉลาก (ตรงข้ามกับข้อมูลอื่น ๆ ในสภาพแวดล้อม) นี่เป็นภาพที่ถูกต้องหรือไม่?

2
จะเกิดอะไรขึ้นที่นี่เมื่อฉันใช้การสูญเสียกำลังสองในการตั้งค่าการถดถอยโลจิสติก
ฉันกำลังพยายามใช้การสูญเสียกำลังสองเพื่อทำการจำแนกเลขฐานสองบนชุดข้อมูลของเล่น ฉันกำลังใช้mtcarsชุดข้อมูลใช้ไมล์ต่อแกลลอนและน้ำหนักเพื่อทำนายประเภทการส่ง เนื้อเรื่องด้านล่างแสดงข้อมูลประเภทการส่งข้อมูลสองชนิดในสีที่ต่างกันและขอบเขตการตัดสินใจที่สร้างขึ้นโดยฟังก์ชั่นการสูญเสียที่แตกต่างกัน การสูญเสียกำลังสองคือ ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2โดยที่yiyiy_iคือเลเยอร์ความจริงพื้นดิน (0 หรือ 1) และpipip_iคือความน่าจะเป็นที่คาดการณ์pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i). กล่าวคือฉันแทนที่การสูญเสียโลจิสติกด้วยการสูญเสียกำลังสองในการตั้งค่าการจัดหมวดหมู่ส่วนอื่น ๆ เหมือนกัน สำหรับตัวอย่างของเล่นที่มีmtcarsข้อมูลในหลาย ๆ กรณีฉันได้แบบจำลอง "คล้ายกัน" กับการถดถอยโลจิสติก (ดูรูปต่อไปนี้โดยมีเมล็ดสุ่ม 0) แต่ในบางสิ่ง (ถ้าเราทำset.seed(1)) การสูญเสียกำลังสองดูเหมือนจะไม่ได้ผล เกิดอะไรขึ้นที่นี่ การเพิ่มประสิทธิภาพไม่ได้มาบรรจบกัน? การสูญเสียโลจิสติกส์นั้นง่ายกว่าเมื่อเทียบกับการสูญเสียกำลังสอง? ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม รหัส d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- …

1
เหตุใดเกณฑ์ข้อมูล Akaike จึงไม่ใช้ในการเรียนรู้ของเครื่องมากกว่า
ฉันเพิ่งพบกับ "เกณฑ์ข้อมูล Akaike" และฉันสังเกตเห็นวรรณคดีจำนวนมากเกี่ยวกับการเลือกแบบจำลอง (เช่นสิ่งที่ดูเหมือน BIC มีอยู่) เหตุใดจึงไม่วิธีการเรียนรู้ด้วยเครื่องจักรร่วมสมัยใช้ประโยชน์จากเกณฑ์การเลือกรูปแบบ BIC และ AIC เหล่านี้

5
วิธีการวงดนตรีมีประสิทธิภาพดีกว่าองค์ประกอบทั้งหมดของพวกเขาได้อย่างไร
ฉันสับสนเล็กน้อยเกี่ยวกับการเรียนรู้ทั้งมวล โดยสรุปมันรันโมเดล k และรับค่าเฉลี่ยของโมเดล k เหล่านี้ จะรับประกันได้อย่างไรว่าค่าเฉลี่ยของโมเดล k จะดีกว่ารุ่นใด ๆ ด้วยตัวเอง? ฉันเข้าใจว่าอคติ "กระจาย" หรือ "เฉลี่ย" อย่างไรก็ตามจะเกิดอะไรขึ้นถ้ามีสองรุ่นในชุด (เช่น k = 2) และหนึ่งในนั้นแย่กว่าอีกรุ่นหนึ่ง - ชุดนั้นจะไม่แย่กว่ารุ่นที่ดีกว่าหรือไม่

1
ทฤษฎีใดที่ฉันควรรู้
ฉันควรทราบวิธีการเชิงทฤษฎีเกี่ยวกับเวรกรรมในฐานะนักสถิติประยุกต์ / เศรษฐมิติ ฉันรู้ (เล็กน้อยมาก) Neyman – Rubin โมเดลเชิงสาเหตุ (และRoy , Haavelmoเป็นต้น) ผลงานของ Pearl ในเรื่องเวรกรรม Granger Causality (เน้นการรักษาน้อยกว่า) ฉันควรพลาดแนวคิดใดหรือควรระวัง ที่เกี่ยวข้อง: ทฤษฎีใดบ้างที่เป็นรากฐานสำหรับเวรกรรมในการเรียนรู้ของเครื่อง? ฉันได้อ่านคำถามที่น่าสนใจและคำตอบ ( 1 , 2 , 3 ) แต่ฉันคิดว่าเป็นคำถามที่แตกต่าง และฉันรู้สึกประหลาดใจมากที่จะเห็นว่า "เวรกรรม" ยกตัวอย่างเช่นไม่ได้กล่าวถึงในองค์ประกอบของการเรียนรู้ทางสถิติ

1
จำนวนแผนที่คุณลักษณะในเครือข่ายประสาทเทียม
เมื่อเรียนรู้โครงข่ายประสาทเทียมฉันมีคำถามเกี่ยวกับรูปต่อไปนี้ 1) C1 ในเลเยอร์ 1 มีแผนที่คุณลักษณะ 6 รูปแบบนั่นหมายความว่ามีเมล็ดหก convolutional หรือไม่? เคอร์เนล Convolutional แต่ละตัวใช้ในการสร้างแผนที่คุณลักษณะตามอินพุต 2) S1 ในเลเยอร์ 2 มี 6 แผนที่คุณลักษณะ, C2 มี 16 คุณสมบัติแผนที่ กระบวนการดูเหมือนจะได้รับแผนที่คุณลักษณะทั้ง 16 เหล่านี้จากแผนที่คุณลักษณะ 6 แห่งใน S1 หรือไม่

2
วิธีการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อเลือกอัลกอริทึมการเรียนรู้ของเครื่องที่เหมาะสม
เรากำลังศึกษาการเรียนรู้ของเครื่องผ่านการเรียนรู้ของเครื่อง: มุมมองที่น่าจะเป็น (เควินเมอร์ฟี่) ในขณะที่ข้อความอธิบายรากฐานทางทฤษฎีของอัลกอริทึมแต่ละอันมันไม่ค่อยบอกว่าในกรณีใดอัลกอริทึมที่ดีกว่าและเมื่อมันเป็นเช่นนั้นก็ไม่ได้บอกว่าจะบอกได้อย่างไรว่าฉันอยู่ที่ไหน ตัวอย่างเช่นสำหรับตัวเลือกของเคอร์เนลฉันถูกบอกให้ทำการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อวัดความซับซ้อนของข้อมูลของฉัน ในข้อมูลสองมิติอย่างง่ายฉันสามารถวางแผนและดูว่าเคอร์เนลเชิงเส้นหรือเรเดียนเหมาะสมหรือไม่ แต่จะทำอย่างไรในมิติที่สูงขึ้น? โดยทั่วไปผู้คนหมายถึงอะไรเมื่อพวกเขาพูดว่า "ทำความรู้จักข้อมูลของคุณ" ก่อนที่จะเลือกอัลกอริทึม ตอนนี้ฉันสามารถแยกแยะความแตกต่างระหว่างอัลกอริธึมการจำแนกและอัลกอริธึมเชิงเส้น VS และไม่เชิงเส้น (ซึ่งฉันไม่สามารถตรวจสอบได้) แก้ไข: แม้ว่าคำถามเดิมของฉันเกี่ยวกับกฎทั่วไป แต่ฉันได้รับแจ้งให้ให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาเฉพาะของฉัน ข้อมูล: แผงที่มีแต่ละแถวเป็นเดือนในประเทศ (รวมแถวทั้งหมด 30,000 แถวครอบคลุม ~ 165 ประเทศในช่วง ~ 15 ปี) การตอบสนอง: 5 ตัวแปรไบนารีที่น่าสนใจ (เช่นการประท้วง / รัฐประหาร / วิกฤต ฯลฯ เกิดขึ้นในเดือนนั้น) คุณสมบัติ: ~ 400 ตัวแปร (การผสมผสานอย่างต่อเนื่อง, การจัดหมวดหมู่, ไบนารี) โดยมีรายละเอียดมากมายของลักษณะของ 2 ประเทศก่อนหน้าเดือน เราใช้ตัวแปรล้าหลังเนื่องจากเป้าหมายคือการคาดการณ์ ตัวอย่าง …

3
พื้นที่ใต้เส้นโค้ง ROC หรือพื้นที่ใต้เส้นโค้ง PR สำหรับข้อมูลที่ไม่สมดุล?
ฉันมีข้อสงสัยเกี่ยวกับการวัดประสิทธิภาพที่จะใช้พื้นที่ภายใต้เส้นโค้ง ROC (TPR เป็นฟังก์ชันของ FPR) หรือพื้นที่ใต้เส้นโค้งความแม่นยำ - การเรียกคืน (ความแม่นยำเป็นฟังก์ชันการเรียกคืน) ข้อมูลของฉันไม่สมดุลนั่นคือจำนวนอินสแตนซ์เชิงลบมีขนาดใหญ่กว่าอินสแตนซ์บวกมาก ฉันกำลังใช้การทำนายผลลัพธ์ของ weka ตัวอย่างคือ: inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 และฉันใช้ห้องสมุด pROC และ ROCR

2
เครื่องเพิ่มระดับความลาดชันมีเงื่อนไขใดที่มีประสิทธิภาพเหนือกว่าป่าสุ่ม
เครื่องจักรเพิ่มระดับความลาดชันของ Friedmanสามารถทำงานได้ดีกว่าป่าสุ่มของ Breimanหรือไม่? ถ้าเป็นเช่นนั้นเงื่อนไขหรือชุดข้อมูลใดที่สามารถทำให้ gbm ดีขึ้นได้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.