คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

5
ทรัพยากรที่ดีที่มีการเปรียบเทียบข้อดีข้อเสียของตัวแยกประเภทที่แตกต่างกันคืออะไร?
ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดคืออะไร? ใช่ฉันเดาว่าเป็นคำถามล้านดอลลาร์และใช่ฉันรู้ว่าไม่มีทฤษฎีอาหารกลางวันฟรีและฉันได้อ่านคำถามก่อนหน้านี้ด้วย: ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดสำหรับการใช้งานของคุณคืออะไร? และลักษณนามที่เลวร้ายที่สุด แต่ถึงกระนั้นฉันสนใจที่จะอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ แหล่งข้อมูลที่ดีที่มีการเปรียบเทียบลักษณะทั่วไปประโยชน์และคุณสมบัติของตัวแยกประเภทที่แตกต่างกันคืออะไร

1
การทำคลัสเตอร์: ฉันควรใช้ Jensen-Shannon Divergence หรือจตุรัสของมันหรือไม่?
ฉันจัดกลุ่มการแจกแจงความน่าจะเป็นโดยใช้อัลกอริธึมการขยายความสัมพันธ์และฉันวางแผนที่จะใช้ Jensen-Shannon Divergence เป็นตัวชี้วัดระยะทางของฉัน มันถูกต้องหรือไม่ที่จะใช้ JSD เป็นระยะทางหรือ JSD กำลังสอง? ทำไม? ความแตกต่างอะไรจะเป็นผลมาจากการเลือกอย่างใดอย่างหนึ่ง?

5
การประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่องในการศึกษาทางคลินิกตัวอย่างขนาดเล็ก
คุณคิดอย่างไรเกี่ยวกับการใช้เทคนิคการเรียนรู้ของเครื่องเช่นป่าสุ่มหรือการลงโทษที่ถูกลงโทษ (ด้วยการลงโทษ L1 หรือ L2 หรือการรวมกัน) ในการศึกษาทางคลินิกตัวอย่างขนาดเล็กเมื่อมีวัตถุประสงค์เพื่อแยกตัวทำนายที่น่าสนใจในบริบทการจำแนกประเภท ไม่ใช่คำถามเกี่ยวกับการเลือกแบบจำลองและฉันไม่ถามเกี่ยวกับวิธีการหาค่าประมาณที่เหมาะสมที่สุดของเอฟเฟกต์ / ความสำคัญของตัวแปร ฉันไม่ได้วางแผนที่จะทำการอนุมานที่แข็งแกร่ง แต่ใช้การสร้างแบบจำลองหลายตัวแปรดังนั้นหลีกเลี่ยงการทดสอบตัวทำนายแต่ละตัวต่อผลลัพธ์ที่น่าสนใจในแต่ละครั้งและคำนึงถึงความสัมพันธ์ของพวกเขาด้วย ฉันแค่สงสัยว่าวิธีการดังกล่าวถูกนำไปใช้แล้วในกรณีที่รุนแรงนี้โดยเฉพาะพูด 20-30 วิชาที่มีข้อมูลเกี่ยวกับ 10-15 หมวดหมู่หรือตัวแปรต่อเนื่อง มันไม่ได้ตรงกรณีและฉันคิดว่านี่คือปัญหาที่เกี่ยวข้องกับจำนวนของชั้นเรียนที่เราพยายามที่จะอธิบาย (ซึ่งมักจะไม่สมดุลกัน) และ (มาก) n ขนาดเล็ก ฉันตระหนักถึงวรรณกรรมจำนวนมากในหัวข้อนี้ในบริบทของชีวสารสนเทศศาสตร์ แต่ฉันไม่พบการอ้างอิงใด ๆ ที่เกี่ยวข้องกับการศึกษาทางชีวการแพทย์ที่มีฟีโนไทป์ที่วัดทางจิตวิทยา (เช่นตลอดแบบสอบถามทางประสาทวิทยา)n≪pn≪pn\ll p คำแนะนำหรือพอยน์เตอร์ไปยังเอกสารที่เกี่ยวข้อง? ปรับปรุง ฉันเปิดให้โซลูชั่นอื่น ๆ สำหรับการวิเคราะห์ข้อมูลประเภทนี้เช่นอัลกอริทึม C4.5 หรืออนุพันธ์วิธีการกฎการเชื่อมโยงและเทคนิคการขุดข้อมูลสำหรับการจำแนกประเภทแบบมีผู้ควบคุมหรือกึ่งมีผู้ดูแล

10
ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดสำหรับการใช้งานของคุณคืออะไร? [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา กฎ: หนึ่งลักษณนามต่อคำตอบ ลงคะแนนถ้าคุณเห็นด้วย downvote / ลบรายการที่ซ้ำ ใส่ใบสมัครของคุณในความคิดเห็น

4
เครือข่ายประสาทเทียมคืออะไร *
เมื่อเราเจาะลึกลงไปในวรรณกรรมของNeural Networksเราจะหาวิธีอื่น ๆ ด้วยโทโพโลยีของนิวโรมอร์ฟิค (สถาปัตยกรรมแบบ "Neural-Network") และฉันไม่ได้พูดคุยเกี่ยวกับยูนิเวอร์แซประมาณทฤษฎีบท ตัวอย่างได้รับด้านล่าง จากนั้นมันทำให้ฉันสงสัยว่า: อะไรคือความหมายของเครือข่ายประสาทเทียม? โทโพโลยีของมันดูเหมือนจะครอบคลุมทุกอย่าง ตัวอย่าง: หนึ่งในการระบุตัวแรกที่เราทำคือระหว่าง PCA และ Linear Autoencoder ที่มีตุ้มน้ำหนักในตัวเข้ารหัสและตัวถอดรหัส นอกจากนี้ยังมีการระบุร่วมกันระหว่างตัวแบบเชิงเส้น (การถดถอยแบบโลจิสติกส์ในแบบพิเศษ) และแบบโครงข่ายประสาทเทียมโดยไม่มีเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทเดี่ยว การระบุนี้เปิดหลายประตู ซีรี่ส์ฟูริเยร์และเทย์เลอร์? ANNs SVM ? ANN กระบวนการแบบเกาส์ ANN (พร้อมเลเยอร์ที่ซ่อนเดี่ยวพร้อมยูนิตที่ซ่อนไม่ จำกัด ) และเช่นเดียวกับที่ง่าย ๆ เราสามารถรวมเวอร์ชันปกติโดยพลการกับฟังก์ชั่นการสูญเสียพิเศษของอัลกอริทึมเหล่านี้ลงในกรอบโครงข่ายประสาทเทียม แต่ยิ่งเราขุดมากเท่าไหร่ ฉันเพิ่งเข้าสู่Deep Neural Decision Treesซึ่งทำให้การระบุสถาปัตยกรรม ANN ที่เฉพาะเจาะจงกับต้นไม้การตัดสินใจทำให้สามารถเรียนรู้สิ่งเหล่านี้ได้ด้วยวิธีการของ ANN (เช่นการไล่ระดับสีย้อนกลับของ Gradient Descent) จากนี้เราสามารถสร้างป่าสุ่มและต้นไม้ตัดสินใจเพิ่มไล่โทนสีจากทอพอโลยีโครงข่ายประสาทเทียมเพียงอย่างเดียว หากทุกอย่างสามารถแสดงเป็นโครงข่ายใยประสาทเทียมอะไรคือตัวกำหนดเครือข่ายประสาทเทียม

2
โครงข่ายประสาทเทียมเทียบกับทุกอย่างอื่น
ฉันไม่ได้พบคำตอบที่น่าพอใจนี้จากGoogle แน่นอนถ้าข้อมูลที่ฉันมีนั้นเป็นของคำสั่งซื้อหลายล้านรายการการเรียนรู้อย่างลึกซึ้งเป็นวิธี และฉันได้อ่านว่าเมื่อฉันไม่มีข้อมูลขนาดใหญ่แล้วอาจเป็นการดีกว่าถ้าใช้วิธีอื่นในการเรียนรู้ของเครื่อง เหตุผลที่ได้รับคือความพอดี การเรียนรู้ของเครื่อง: เช่นการดูข้อมูลการแยกคุณลักษณะการสร้างฟีเจอร์ใหม่จากสิ่งที่รวบรวม ฯลฯ สิ่งต่าง ๆ เช่นการลบตัวแปรที่มีความสัมพันธ์สูง ฯลฯ การเรียนรู้ของเครื่องทั้งหมด 9 หลา และฉันสงสัยว่า: ทำไมเครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นนั้นไม่ใช่ยาครอบจักรวาลเพื่อแก้ไขปัญหาการเรียนรู้ของเครื่อง? พวกมันคือตัวประมาณสากลการจัดการที่มากเกินไปสามารถจัดการได้ด้วย dropout, l2 normalization, l1 normalization, batch-normalization ความเร็วการฝึกอบรมไม่ใช่ปัญหาถ้าเรามีตัวอย่างการฝึกอบรมเพียง 50,000 ตัวอย่าง เวลาทดสอบดีกว่าให้เราบอกว่าป่าสุ่ม ดังนั้นทำไมไม่ - ทำความสะอาดข้อมูล, กำหนดค่าที่หายไปตามปกติ, จัดทำข้อมูล, จัดทำมาตรฐานข้อมูล, โยนมันไปยังเครือข่ายประสาทเทียมโดยใช้เลเยอร์ที่ซ่อนอยู่หนึ่งชั้นและใช้การทำให้เป็นมาตรฐานจนกว่าคุณจะเห็นว่า พวกเขาไปยังจุดสิ้นสุด ไม่มีปัญหาเรื่องการไล่ระดับสีหรือการไล่ระดับสีหายไปเนื่องจากเป็นเพียงเครือข่าย 2 ชั้น หากต้องการเลเยอร์ลึกนั่นหมายความว่าจะต้องเรียนรู้คุณลักษณะแบบลำดับชั้นและอัลกอริธึมการเรียนรู้ของเครื่องอื่นก็ไม่ดีเช่นกัน ตัวอย่างเช่น SVM เป็นเครือข่ายประสาทเทียมที่มีการสูญเสียบานพับเท่านั้น ตัวอย่างที่บางอัลกอริทึมการเรียนรู้ของเครื่องอื่นจะมีประสิทธิภาพสูงกว่าเครือข่ายนิวรัล 2 ชั้น (อาจจะ 3? คุณสามารถให้ลิงค์กับปัญหาและฉันจะฝึกอบรมโครงข่ายประสาทเทียมที่ดีที่สุดที่ฉันสามารถทำได้และเราสามารถดูได้ว่าเครือข่ายประสาท 2 ชั้นหรือ …

3
ปรีชาสำหรับ Support Vector Machines และไฮเปอร์เพลน
ในโครงการของฉันฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกสำหรับการทำนายการจำแนกเลขฐานสอง (1 หรือ 0) ฉันมีตัวแปร 15 ตัวโดยแบ่งเป็น 2 ตัวแปรในขณะที่ส่วนที่เหลือเป็นส่วนผสมของตัวแปรต่อเนื่องและไม่ต่อเนื่อง เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติกฉันได้รับคำแนะนำให้ตรวจสอบความสามารถในการแยกเชิงเส้นโดยใช้ SVM, perceptron หรือการเขียนโปรแกรมเชิงเส้น สิ่งนี้เชื่อมโยงกับคำแนะนำที่เกิดขึ้นที่นี่เกี่ยวกับการทดสอบความสามารถในการแยกเชิงเส้น ในฐานะที่เป็นมือใหม่ในการเรียนรู้ของเครื่องจักรฉันเข้าใจแนวคิดพื้นฐานเกี่ยวกับอัลกอริทึมที่กล่าวถึงข้างต้น แต่แนวคิดฉันพยายามที่จะจินตนาการว่าเราสามารถแยกข้อมูลที่มีมิติมากมายเช่น 15 ในกรณีของฉันได้อย่างไร ตัวอย่างทั้งหมดในวัสดุออนไลน์มักแสดงพล็อต 2 มิติของตัวแปรตัวเลขสองตัว (ความสูงน้ำหนัก) ซึ่งแสดงช่องว่างที่ชัดเจนระหว่างหมวดหมู่และทำให้เข้าใจง่ายขึ้น แต่ในโลกแห่งความเป็นจริงข้อมูลมักจะมีมิติที่สูงกว่ามาก ฉันยังคงถูกดึงกลับไปที่ชุดข้อมูลของ Iris และพยายามที่จะใส่ไฮเปอร์เพลนผ่านสามสายพันธุ์และมันเป็นเรื่องยากโดยเฉพาะอย่างยิ่งถ้าเป็นไปไม่ได้ที่จะทำเช่นนั้นระหว่างสองสปีชีส์ เราจะบรรลุสิ่งนี้ได้อย่างไรเมื่อเรามีคำสั่งเกี่ยวกับมิติที่สูงขึ้นมันสันนิษฐานว่าเมื่อเรามีคุณสมบัติเกินจำนวนที่เราใช้เมล็ดเพื่อแมปไปยังพื้นที่มิติที่สูงขึ้นเพื่อให้ได้การแยกนี้ นอกจากนี้เพื่อทดสอบการแยกเชิงเส้นตัวชี้วัดที่ใช้คืออะไร มันเป็นความถูกต้องของรุ่น SVM หรือไม่เช่นความถูกต้องตามเมทริกซ์ความสับสน? ความช่วยเหลือใด ๆ ในการทำความเข้าใจหัวข้อนี้จะได้รับการชื่นชมอย่างมาก ด้านล่างเป็นตัวอย่างของพล็อตของตัวแปรสองตัวในชุดข้อมูลของฉันซึ่งแสดงให้เห็นว่าการซ้อนทับของตัวแปรทั้งสองนี้เพียงใด

4
ทำไมต้นไม้การตัดสินใจมีอคติต่ำ & ความแปรปรวนสูง
คำถาม มันขึ้นอยู่กับว่าต้นไม้จะตื้นหรือลึก? หรือเราจะพูดสิ่งนี้โดยไม่คำนึงถึงความลึก / ระดับของต้นไม้? ทำไมอคติต่ำและความแปรปรวนสูง โปรดอธิบายโดยสังหรณ์ใจและเชิงคณิตศาสตร์

3
จำนวนเลเยอร์ขั้นต่ำในเครือข่ายประสาทลึก
เราจะเริ่มจำแนกประเภทเครือข่ายประสาทหลายชั้นเป็นเครือข่ายประสาทลึกหรือในอีกทางหนึ่ง 'จำนวนชั้นต่ำสุดในเครือข่ายประสาทลึกคืออะไร'

3
สำหรับตัวแยกประเภทแบบเชิงเส้นสัมประสิทธิ์ขนาดใหญ่แสดงถึงคุณสมบัติที่สำคัญกว่านี้ไหม
ฉันเป็นวิศวกรซอฟต์แวร์ที่ทำงานเกี่ยวกับการเรียนรู้ของเครื่อง จากความเข้าใจของฉันการถดถอยเชิงเส้น (เช่น OLS) และการ จำแนกเชิงเส้น (เช่นการถดถอยโลจิสติกและ SVM) ทำให้การคาดการณ์ขึ้นอยู่กับผลิตภัณฑ์ภายในระหว่างค่าสัมประสิทธิ์การฝึกอบรม และตัวแปรคุณลักษณะ→ x :W⃗ W→\vec{w}x⃗ x→\vec{x} Y^= f( ด้วย⃗ ⋅ x⃗ ) = f( ∑ผมWผมxผม)Y^=ฉ(W→⋅x→)=ฉ(ΣผมWผมxผม) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) คำถามของฉันคือ: หลังจากแบบจำลองได้รับการฝึกอบรม (นั่นคือหลังจากสัมประสิทธิ์คำนวณแล้ว) เป็นกรณีที่สัมประสิทธิ์จะมีขนาดใหญ่กว่าสำหรับตัวแปรคุณลักษณะที่สำคัญกว่าสำหรับแบบจำลองที่จะทำนายได้แม่นยำกว่าหรือไม่WผมWผมw_i ในคำอื่น ๆ ฉันถามว่าขนาดสัมพัทธ์ของสัมประสิทธิ์สามารถใช้สำหรับการเลือกคุณสมบัติโดยเพียงแค่สั่งตัวแปรตามค่าสัมประสิทธิ์แล้วเลือกคุณสมบัติที่มีสัมประสิทธิ์สูงสุดหรือไม่ หากวิธีการนี้ถูกต้องแล้วทำไมถึงไม่กล่าวถึงการเลือกคุณสมบัติ (รวมถึงวิธีการหุ้มและตัวกรอง ฯลฯ ) เหตุผลที่ฉันถามสิ่งนี้เพราะฉันได้พบกับการอภิปรายเกี่ยวกับการทำให้เป็นมาตรฐานL1 กับ L2 มีการประกาศแจ้งความว่า: การเลือกคุณสมบัติในตัวถูกกล่าวถึงบ่อยครั้งว่าเป็นคุณสมบัติที่มีประโยชน์ของ L1-norm ซึ่ง …

2
ข้อผิดพลาดของการฝึกอบรมที่ต้องรายงานสำหรับป่าสุ่มคืออะไร
ขณะนี้ฉันกำลังปรับฟอเรสต์แบบสุ่มสำหรับปัญหาการจำแนกประเภทโดยใช้randomForestแพ็คเกจใน R และไม่แน่ใจเกี่ยวกับวิธีรายงานข้อผิดพลาดในการฝึกอบรมสำหรับโมเดลเหล่านี้ ข้อผิดพลาดในการฝึกอบรมของฉันใกล้เคียงกับ 0% เมื่อฉันคำนวณโดยใช้การคาดการณ์ที่ฉันได้รับจากคำสั่ง: predict(model, data=X_train) ที่X_trainเป็นข้อมูลการฝึกอบรม ในคำตอบของคำถามที่เกี่ยวข้องฉันอ่านว่าควรใช้ข้อผิดพลาดการฝึกอบรมนอกกระเป๋า (OOB) เป็นตัวชี้วัดข้อผิดพลาดการฝึกอบรมสำหรับฟอเรสต์แบบสุ่ม ปริมาณนี้คำนวณจากการทำนายที่ได้จากคำสั่ง: predict(model) ในกรณีนี้ข้อผิดพลาดในการฝึกอบรมของ OOB นั้นใกล้กับข้อผิดพลาดในการทดสอบ 10-CV เฉลี่ยซึ่งมากถึง 11% ฉันสงสัย: เป็นที่ยอมรับกันโดยทั่วไปในการรายงานข้อผิดพลาดการฝึกอบรมของ OOB ว่าเป็นข้อผิดพลาดในการฝึกอบรมสำหรับป่าสุ่มหรือไม่? ความจริงที่ว่าข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมนั้นต่ำเกินจริงหรือไม่? หากข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมอยู่ในระดับต่ำมาก ๆ ฉันจะเปรียบเทียบได้สองวิธีเพื่อตรวจสอบว่า RF กำลังเกินขนาดหรือไม่

5
เคอร์เนล SVM: ฉันต้องการความเข้าใจที่เข้าใจง่ายเกี่ยวกับการแมปไปยังพื้นที่คุณลักษณะมิติที่สูงขึ้นและวิธีนี้ทำให้การแยกเชิงเส้นเป็นไปได้
ฉันพยายามที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังเคอร์เนล SVM ตอนนี้ฉันเข้าใจวิธีการทำงานของ SVM แบบเส้นตรงโดยที่บรรทัดการตัดสินใจจะแยกข้อมูลออกมาให้ดีที่สุดเท่าที่จะทำได้ ฉันยังเข้าใจหลักการที่อยู่เบื้องหลังการย้ายข้อมูลไปยังพื้นที่มิติที่สูงขึ้นและวิธีนี้จะทำให้การค้นหาเส้นการตัดสินใจเชิงเส้นในพื้นที่ใหม่นี้ง่ายขึ้น สิ่งที่ฉันไม่เข้าใจก็คือวิธีที่เคอร์เนลใช้ในการฉายจุดข้อมูลไปยังพื้นที่ใหม่นี้ สิ่งที่ฉันรู้เกี่ยวกับเคอร์เนลคือมันแสดงถึง "ความคล้ายคลึงกัน" ได้อย่างมีประสิทธิภาพระหว่างจุดข้อมูลสองจุด แต่สิ่งนี้เกี่ยวข้องกับการฉายภาพอย่างไร

1
จะเป็นอย่างไรถ้าความแม่นยำในการตรวจสอบความถูกต้องสูง แต่ความแม่นยำในการทดสอบต่ำในการวิจัย
ฉันมีคำถามเฉพาะเกี่ยวกับการตรวจสอบความถูกต้องในการวิจัยการเรียนรู้ของเครื่อง ดังที่เราทราบระบอบการเรียนรู้ของเครื่องขอให้นักวิจัยฝึกแบบจำลองของพวกเขาในข้อมูลการฝึกอบรมเลือกจากแบบจำลองผู้สมัครตามชุดการตรวจสอบและรายงานความแม่นยำในชุดการทดสอบ ในการศึกษาที่เข้มงวดมากชุดทดสอบสามารถใช้ได้เพียงครั้งเดียว อย่างไรก็ตามมันไม่สามารถเป็นสถานการณ์การวิจัยได้เพราะเราต้องปรับปรุงประสิทธิภาพของเราจนกว่าความแม่นยำในการทดสอบจะดีกว่าผลการทดสอบที่ทันสมัยก่อนที่เราจะสามารถเผยแพร่ (หรือแม้แต่ส่ง) กระดาษ ตอนนี้ปัญหามา สมมติว่า 50% เป็นผลลัพธ์ที่ทันสมัยที่สุดและรุ่นของฉันสามารถบรรลุความแม่นยำ 50--51 ซึ่งดีกว่าโดยเฉลี่ย อย่างไรก็ตามความแม่นยำในการตรวจสอบที่ดีที่สุดของฉัน (52%) ให้ความแม่นยำในการทดสอบต่ำมากเช่น 49% จากนั้นฉันต้องรายงาน 49% ว่าเป็นประสิทธิภาพโดยรวมของฉันถ้าฉันไม่สามารถปรับปรุงมาตรฐานการตรวจสอบความถูกต้องซึ่งฉันคิดว่าไม่มีความหวัง สิ่งนี้ช่วยป้องกันฉันจากการศึกษาปัญหา แต่ไม่สำคัญกับเพื่อนของฉันเพราะพวกเขาไม่เห็น ACC 52% ซึ่งฉันคิดว่าเป็นเรื่องผิดปกติ ดังนั้นคนมักจะทำในการวิจัยของพวกเขาได้อย่างไร การตรวจสอบ ps k-fold ไม่ได้ช่วยอะไรเพราะสถานการณ์เดียวกันอาจยังคงเกิดขึ้นได้

4
คุณต้องการข้อมูลเท่าไหร่สำหรับเครือข่ายประสาทเทียม?
หากฉันมีโครงข่ายประสาทเทียม (CNN) ซึ่งมีพารามิเตอร์ประมาณ 1,000,000 พารามิเตอร์จำเป็นต้องใช้ข้อมูลการฝึกอบรมจำนวนเท่าใด (สมมติว่าฉันกำลังทำโคตรลาดแบบสุ่ม) มีกฎง่ายๆไหม? หมายเหตุเพิ่มเติม: เมื่อฉันทำ stochastic gradient descent (เช่น 64 patch สำหรับ 1 การวนซ้ำ) หลังจาก ~ 10,000 iterations ความแม่นยำของตัวจําแนกสามารถเข้าถึงค่าคงที่หยาบ) นี่หมายถึงไม่จำเป็นต้องใช้ข้อมูลจำนวนมาก? เช่นเดียวกับข้อมูล 100k-1,000k

1
CNN หลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร
ฉันอ่านมากเกี่ยวกับเครือข่ายประสาทการสนทนาและสงสัยว่าพวกเขาจะหลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร ฉันรู้ว่าเครือข่ายที่มีความเชื่อลึกนั้นมีกองเข้ารหัสอัตโนมัติระดับเดียวหรือเครือข่ายตื้น ๆ ที่ผ่านการฝึกอบรมล่วงหน้าและสามารถหลีกเลี่ยงปัญหานี้ได้ แต่ฉันไม่รู้ว่ามันจะหลีกเลี่ยงได้อย่างไรใน CNNs ตามที่Wikipedia : แม้จะมีปัญหาการไล่ระดับสีที่หายไป แต่พลังการประมวลผลที่เหนือกว่าของ GPU ทำให้การเผยแพร่กลับเป็นไปได้อย่างง่ายดายสำหรับเครือข่ายประสาทที่มีการป้อนลึกแบบหลายชั้น ฉันไม่เข้าใจว่าทำไมการประมวลผล GPU จะลบปัญหานี้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.