คำถามติดแท็ก machine-learning

คำถามเกี่ยวกับอัลกอริทึมของคอมพิวเตอร์ที่ค้นพบรูปแบบข้อมูลโดยอัตโนมัติและทำการตัดสินใจที่ดีตามพวกเขา

2
ตัวจําแนกข้อความที่อธิบายการตัดสินใจ
ฉันกำลังสร้างตัวจัดหมวดหมู่ข้อความสำหรับประโยคสั้น ๆ นอกเหนือจากการบอกผู้ใช้ว่า "หมวดหมู่ของข้อความที่คุณป้อนคือ C" ฉันต้องการอธิบายได้ว่าทำไมฉันจึงตัดสินใจนี้ด้วยวิธีที่สั้นและเข้าใจง่าย ตัวอย่างเช่นฉันไม่ต้องการบอกผู้ใช้ว่า "ฉันใส่ประโยคของคุณลงในเครือข่ายนิวรัล 3 ชั้นที่ซับซ้อนและนั่นคือคำตอบที่ให้คะแนนดีที่สุด"; ฉันต้องการคำอธิบายเช่น "ประโยคของคุณมีคำว่า U, V และ W ซึ่งเป็นลักษณะของหมวดหมู่นี้เนื่องจากประโยคเช่น X, Y และ Z ที่ปรากฏในข้อมูลการฝึกอบรม" คำถามของฉันคือ: อัลกอริธึมการจำแนกประเภทใดที่เหมาะที่สุดสำหรับแอปพลิเคชันดังกล่าว k- เพื่อนบ้านที่อยู่ใกล้ที่สุดดูเหมือนจะเป็นผู้สมัครที่ดีเพราะฉันสามารถบอกผู้ใช้ "ประโยคของคุณมีหมวดหมู่ C เพราะมันคล้ายกับประโยค X, Y และ Z ที่มีหมวดหมู่เดียวกัน แต่ประสิทธิภาพของปัญหาการจัดหมวดหมู่ข้อความเป็นที่รู้จักกัน ไม่ดีฉันกำลังมองหา classifie ที่ถ่วงดุลประสิทธิภาพด้วยความสามารถในการอธิบาย แก้ไข: หลังจากใช้เวลามากในการค้นหาตัวจําแนกเช่นนี้ฉันเริ่มสร้างไลบรารี่การเรียนรู้ของเครื่องที่เรียกว่าlimduซึ่งช่วยให้ตัวแยกประเภทอธิบายการตัดสินใจของพวกเขา มันยังอยู่ระหว่างการพัฒนา แต่มันช่วยฉันอธิบายตัวเองและเพื่อนร่วมงานแล้วทำไมตัวจําแนกของเราล้มเหลวบ่อยครั้ง ...

1
การแยกประเภทการปรับแต่ง
ที่ทำงานฉันได้รับมอบหมายให้อนุมานข้อมูลบางประเภทเกี่ยวกับภาษาแบบไดนามิก ฉันเขียนลำดับของข้อความไปยังletนิพจน์ที่ซ้อนกันเช่น: return x; Z => x var x; Z => let x = undefined in Z x = y; Z => let x = y in Z if x then T else F; Z => if x then { T; Z } else { F; Z } เนื่องจากฉันเริ่มต้นจากข้อมูลประเภททั่วไปและพยายามอนุมานประเภทที่เฉพาะเจาะจงมากขึ้นตัวเลือกที่เป็นธรรมชาติคือประเภทการปรับแต่ง ตัวอย่างเช่นตัวดำเนินการตามเงื่อนไขส่งคืนการรวมของประเภทของสาขาที่เป็นจริงและเท็จ …
11 programming-languages  logic  type-theory  type-inference  machine-learning  data-mining  clustering  order-theory  reference-request  information-theory  entropy  algorithms  algorithm-analysis  space-complexity  lower-bounds  formal-languages  computability  formal-grammars  context-free  parsing  complexity-theory  time-complexity  terminology  turing-machines  nondeterminism  programming-languages  semantics  operational-semantics  complexity-theory  time-complexity  complexity-theory  reference-request  turing-machines  machine-models  simulation  graphs  probability-theory  data-structures  terminology  distributed-systems  hash-tables  history  terminology  programming-languages  meta-programming  terminology  formal-grammars  compilers  algorithms  search-algorithms  formal-languages  regular-languages  complexity-theory  satisfiability  sat-solvers  factoring  algorithms  randomized-algorithms  streaming-algorithm  in-place  algorithms  numerical-analysis  regular-languages  automata  finite-automata  regular-expressions  algorithms  data-structures  efficiency  coding-theory  algorithms  graph-theory  reference-request  education  books  formal-languages  context-free  proof-techniques  algorithms  graph-theory  greedy-algorithms  matroids  complexity-theory  graph-theory  np-complete  intuition  complexity-theory  np-complete  traveling-salesman  algorithms  graphs  probabilistic-algorithms  weighted-graphs  data-structures  time-complexity  priority-queues  computability  turing-machines  automata  pushdown-automata  algorithms  graphs  binary-trees  algorithms  algorithm-analysis  spanning-trees  terminology  asymptotics  landau-notation  algorithms  graph-theory  network-flow  terminology  computability  undecidability  rice-theorem  algorithms  data-structures  computational-geometry 

2
วิธีการที่ไม่ใช้พารามิเตอร์เช่น K- เพื่อนบ้านที่ใกล้ที่สุดในพื้นที่คุณลักษณะมิติสูง
แนวคิดหลักของk- ใกล้เคียงที่สุด - เพื่อนบ้านจะคำนึงถึงคะแนนใกล้ที่สุดและตัดสินการจำแนกข้อมูลโดยการโหวตเสียงข้างมาก ถ้าเป็นเช่นนั้นไม่ควรมีปัญหาในข้อมูลมิติที่สูงขึ้นเนื่องจากวิธีการเช่นการแฮชที่มีความละเอียดอ่อนในพื้นที่สามารถค้นหาเพื่อนบ้านที่ใกล้ที่สุดได้อย่างมีประสิทธิภาพkkk นอกจากนี้การเลือกคุณสมบัติด้วยเครือข่ายแบบเบย์สามารถลดขนาดของข้อมูลและทำให้การเรียนรู้ง่ายขึ้น อย่างไรก็ตามการทบทวนรายงานนี้โดย John Lafferty ในการเรียนรู้ทางสถิติชี้ให้เห็นว่าการเรียนรู้ที่ไม่ใช่พารามิเตอร์ในพื้นที่คุณลักษณะมิติสูงยังคงเป็นความท้าทายและยังไม่แก้ เกิดอะไรขึ้น?

2
DFA ที่เล็กที่สุดที่ยอมรับสตริงที่กำหนดและปฏิเสธสตริงที่กำหนดอื่น ๆ
ป.ร. ให้ไว้สองชุด, Bของสตริงมากกว่าตัวอักษรΣเราสามารถคำนวณที่เล็กที่สุดที่กำหนดขอบเขตของรัฐหุ่นยนต์ (DFA) Mเช่นว่า⊆ L ( M )และL ( M ) ⊆ Σ * ∖ B ?A,BA,BA,BΣΣ\SigmaMMMA⊆L(M)A⊆L(M)A \subseteq L(M)L(M)⊆Σ∗∖BL(M)⊆Σ∗∖BL(M) \subseteq \Sigma^*\setminus B กล่าวอีกนัยหมายถึงชุดตัวอย่างเชิงบวก สตริงทั้งหมดในAต้องได้รับการยอมรับจาก DFA Bหมายถึงชุดตัวอย่างเชิงลบ DFA ไม่ควรยอมรับสตริงในBAAAAAABBBBBB มีวิธีแก้ปัญหานี้หรือไม่อาจใช้เทคนิคการย่อขนาด DFAหรือไม่ ฉันนึกภาพได้ว่าการสร้างหุ่นยนต์คล้าย DFA ที่มีสถานะอยู่สามแบบ: ยอมรับสถานะปฏิเสธสถานะและ "ไม่สนใจ" (ข้อมูลใด ๆ ที่ลงท้ายด้วยสถานะ "ไม่สนใจ" สามารถยอมรับได้ หรือถูกปฏิเสธ) แต่เราสามารถหาวิธีที่จะลดสิ่งนี้ให้เป็น DFA สามัญได้หรือไม่? คุณอาจคิดว่านี่เป็นปัญหาของการเรียนรู้ DFA โดยให้ตัวอย่างที่เป็นบวกและลบ นี่คือแรงบันดาลใจจาก สนามกอล์ฟ …

1
การเขียนโปรแกรมทางพันธุกรรมที่เกี่ยวข้องในวันนี้?
ความกังวลหลักของฉันคือการเขียนโปรแกรมทางพันธุกรรมเป็นสาขาการวิจัยที่มีการใช้งานจริงหรือไม่ ดูเหมือนว่าในด้านการเรียนรู้ของเครื่องเครือข่ายประสาทเทียมเป็นคำศัพท์หลักที่มีการกล่าวถึงในข่าวกระแสหลักในวันนี้ แต่ฉันไม่เคยได้ยินเกี่ยวกับการเขียนโปรแกรมทางพันธุกรรมที่คล้ายกัน "เรื่องราวความสำเร็จ"

1
การใช้งาน Naive Bayes
ฉันใช้อัลกอริทึม Naive Bayes สำหรับการจัดหมวดหมู่ข้อความด้วยการปรับให้เรียบ Laplacian ปัญหาที่ฉันมีอยู่คือความน่าจะเป็นเป็นศูนย์เพราะฉันคูณเศษส่วนเล็ก ๆ จำนวนมาก ดังนั้นความน่าจะเป็นในที่สุดให้ผลเป็นศูนย์ เนื่องจากมีหลายคำในเอกสารและชุดฝึกอบรม ด้วยเหตุนี้ฉันจึงไม่สามารถจัดหมวดหมู่ข้อความได้ มีวิธีที่ฉันสามารถแก้ไขปัญหานี้ได้หรือไม่? ฉันกำลังทำสิ่งผิดปกติในการติดตั้งหรือไม่?

4
การพัฒนาโครงข่ายประสาทเทียมเพื่อแก้ปัญหา NP
ฉันเพิ่งอ่านรายการบล็อกที่น่าสนใจจาก Google Research Blog ที่พูดถึงเครือข่ายประสาท โดยพื้นฐานแล้วพวกเขาใช้เครือข่ายประสาทเทียมนี้เพื่อแก้ปัญหาต่าง ๆ เช่นการจดจำภาพ พวกเขาใช้อัลกอริทึมทางพันธุกรรมเพื่อ "พัฒนา" น้ำหนักของซอน ดังนั้นโดยพื้นฐานแล้วความคิดของฉันคือ ถ้าฉันควรจะเขียนโปรแกรมที่รับรู้ตัวเลขฉันจะไม่รู้วิธีเริ่มต้น (ฉันอาจมีความคิดที่คลุมเครือ แต่ประเด็นของฉันคือ: มันไม่สำคัญหรือไม่ง่าย) แต่โดยใช้เครือข่ายประสาทฉันไม่จำเป็นต้องทำ โดยการสร้างบริบทที่เหมาะสมเพื่อให้โครงข่ายประสาทเทียมวิวัฒนาการเครือข่ายประสาทของฉันจะ "ค้นหาอัลกอริทึมที่ถูกต้อง" ด้านล่างฉันอ้างถึงส่วนที่น่าสนใจจริงๆของบทความที่พวกเขาอธิบายว่าแต่ละเลเยอร์มีบทบาทที่แตกต่างกันในกระบวนการรับรู้ภาพอย่างไร หนึ่งในความท้าทายของโครงข่ายประสาทคือการเข้าใจว่าเกิดอะไรขึ้นในแต่ละเลเยอร์ เรารู้ว่าหลังจากการฝึกฝนแต่ละเลเยอร์จะดึงคุณสมบัติที่สูงขึ้นและระดับสูงของภาพออกมาเรื่อย ๆ จนกระทั่งเลเยอร์สุดท้ายทำการตัดสินใจเกี่ยวกับภาพที่แสดง ตัวอย่างเช่นเลเยอร์แรกอาจมองหาขอบหรือมุม เลเยอร์กลางตีความคุณสมบัติพื้นฐานเพื่อค้นหารูปร่างหรือส่วนประกอบโดยรวมเช่นประตูหรือใบไม้ เลเยอร์ไม่กี่ขั้นสุดท้ายรวบรวมสิ่งเหล่านั้นไว้ในการตีความที่สมบูรณ์ - เซลล์ประสาทเหล่านี้เปิดใช้งานเพื่อตอบสนองต่อสิ่งที่ซับซ้อนมากเช่นอาคารหรือต้นไม้ทั้งหมด ดังนั้นโดยทั่วไปคำถามของฉันคือ: เราไม่สามารถใช้อัลกอริธึมเชิงพันธุกรรม + เครือข่ายประสาทเพื่อแก้ไขปัญหา NP ทุกข้อได้หรือไม่ เราเพิ่งสร้างบริบทวิวัฒนาการที่เหมาะสมและปล่อยให้ "ธรรมชาติ" หาทางออก การลงทะเบียนเรียน: จะลึกเข้าไปในเครือข่ายประสาท แก้ไข: ฉันรู้ว่าเราสามารถใช้ Brute-Force หรือค้นหาโซลูชันที่ไม่มีประสิทธิภาพในหลายกรณี นั่นคือเหตุผลที่ฉันพยายามเน้นการพัฒนาโครงข่ายประสาทเทียม ดังที่ฉันพูดในความคิดเห็น: ให้เวลาเพียงพอและอัตราการกลายพันธุ์ที่เหมาะสมเราสามารถหาทางออกที่ดีที่สุด (หรืออย่างน้อยนั่นคือสิ่งที่ฉันคิด)

2
ลักษณนามใดที่มีความแม่นยำมากกว่าสำหรับการจำแนกประเภท SVM
ฉันกำลังเรียนรู้การจำแนกประเภท SVM และพบปัญหา ฉันไม่แน่ใจว่าภาวะที่กลืนไม่เข้าคายไม่ออกนี้มีคำศัพท์สำหรับมัน สมมติว่าเราต้องการจำแนกผู้ป่วยโดย SVM เนื่องจากกลุ่มตัวอย่างของคนที่มีสุขภาพ (ทั้งเพศชาย) และคนที่เป็นมะเร็งตับ (ทั้งสองเพศ) ถ้าเราติดป้ายกลุ่มคนที่มีสุขภาพเป็นคลาส 1 และผู้ที่เป็นโรคมะเร็งเป็นคลาส 2 เราสามารถฝึก SVM แบบไบนารีและรับลักษณนาม 1 เพื่อทำนายผู้ป่วยรายใหม่ ตอนนี้ภาพสถานการณ์อื่น สมมติว่าเราแบ่งตัวอย่างทั้งหมดตามเพศก่อนการจำแนกประเภท SVM สำหรับแต่ละเพศเรายังติดป้ายชื่อผู้ป่วยที่มีสุขภาพดีและผู้ป่วยมะเร็งออกเป็น 2 ชั้นและฝึกไบนารี SVM เพื่อรับตัวแยกประเภท 2 และตัวแยกประเภท 3 สำหรับตัวอย่างหญิงและชายตามลำดับ คำถามคือหากมีผู้ป่วยเพศหญิงใหม่ซึ่งตัวจําแนกประเภท 1 หรือ 2 ควรใช้เพื่อให้ได้การทำนายที่แม่นยำมากขึ้นหรือไม่ นี่คือภาวะที่กลืนไม่เข้าคายไม่ออกสำหรับข้อโต้แย้งที่ฉันมี (1) เมื่อจำนวนตัวอย่างมีขนาดใหญ่การคาดการณ์ควรแม่นยำยิ่งขึ้น จากการโต้แย้งนี้ลักษณนาม 1 ดูเหมือนจะเป็นตัวเลือกที่ดี (2) อย่างไรก็ตามหากเราแบ่งกลุ่มตัวอย่างออกเป็นกลุ่มหญิงและชายกลุ่มแรกตัวจําแนก 2 ดูเหมือนจะเป็นทางเลือกที่ดีกว่าเนื่องจากผู้ป่วยรายใหม่ (ตัวอย่างทดสอบที่ไม่รู้จัก) เป็นเพศหญิง ภาวะที่กลืนไม่เข้าคายไม่ออกแบบนี้มีคำศัพท์หรือไม่มีใครรู้ข้อมูลเพิ่มเติมหรือวิธีการแก้ปัญหาเช่นนี้? ฉันไม่แน่ใจด้วยซ้ำว่านี่เป็นคำถามที่ถูกกฎหมายและขออภัยสำหรับคำถามที่ไร้เดียงสาล่วงหน้า …

2
ฉันจะจำแนกปัญหาการเพิ่มประสิทธิภาพของตัวจำลองข้อมูลได้อย่างไรและฉันควรเข้าใกล้อัลกอริทึมใด
เนื่องจากลักษณะของคำถามฉันต้องรวมข้อมูลพื้นหลังจำนวนมาก (เพราะคำถามของฉันคือ: ฉันจะ จำกัด ให้แคบลงได้อย่างไร) ที่กล่าวว่ามันสามารถสรุปได้ (ที่ดีที่สุดของความรู้ของฉัน) เป็น: มีวิธีการใดบ้างในการค้นหาสิ่งที่ดีที่สุดในพื้นที่บนพื้นที่การค้นหาเชิงผสมที่มีขนาดใหญ่มาก? พื้นหลัง ในชุมชน superplay ที่ได้รับการช่วยเหลือจากเครื่องมือเราพยายามจัดหาอินพุตที่สร้างขึ้นมาเป็นพิเศษ (ไม่ได้สร้างขึ้นตามเวลาจริง) ไปยังคอนโซลวิดีโอเกมหรืออีมูเลเตอร์เพื่อลดค่าใช้จ่ายบางส่วน วิธีที่ทำได้ในขณะนี้คือการเล่นเกมแบบเฟรมต่อเฟรมและระบุอินพุตสำหรับแต่ละเฟรมมักจะทำซ้ำส่วนของการวิ่งหลายครั้ง (ตัวอย่างเช่นการรันที่เผยแพร่ล่าสุดสำหรับThe Legend of Zelda: Ocarina of Timeได้ รวมการลองใหม่ทั้งหมด 198,590 ครั้ง) การทำให้การวิ่งเหล่านี้บรรลุเป้าหมายโดยทั่วไปนั้นมีสองปัจจัยหลักคือการวางแผนเส้นทางและการข้ามเส้นทาง อดีตคือ "ความคิดสร้างสรรค์" มากกว่าสิ่งอื่น ๆ การวางแผนเส้นทางกำลังพิจารณาว่าผู้เล่นควรสำรวจเส้นทางโดยรวมเพื่อเล่นเกมอย่างไรและมักจะเป็นส่วนที่สำคัญที่สุดของการวิ่ง นี่คือการเลือกวิธีการเรียงลำดับที่จะใช้เช่น การเรียงลำดับฟองที่ดีที่สุดในโลกเพียงแค่ไม่ได้มีประสิทธิภาพสูงกว่าการเรียงลำดับอย่างรวดเร็วในองค์ประกอบ 1 ล้าน อย่างไรก็ตามในความปรารถนาเพื่อความสมบูรณ์แบบการสำรวจเส้นทาง (วิธีการขนถ่ายเส้นทาง) ก็เป็นปัจจัยใหญ่เช่นกัน การเปรียบเทียบแบบต่อเนื่องนี่คือวิธีการใช้อัลกอริทึมการเรียงลำดับ บางเส้นทางไม่สามารถทำได้แม้จะไม่มีเฟรมที่เฉพาะเจาะจงมาก นี่เป็นกระบวนการที่น่าเบื่อที่สุดของการช่วยเหลือเครื่องมือและเป็นสิ่งที่ทำให้การผลิตที่เสร็จสมบูรณ์ใช้เวลาเป็นเดือนหรือเป็นปี มันไม่ใช่กระบวนการที่ยาก (สำหรับมนุษย์) เพราะมันลงไปลองใช้รูปแบบที่แตกต่างกันของความคิดเดียวกันจนกว่าจะถือว่าดีที่สุด แต่มนุษย์สามารถลองใช้รูปแบบต่าง ๆ มากมายในช่วงความสนใจของพวกเขา การประยุกต์ใช้เครื่องจักรกับงานนี้ดูเหมือนจะเหมาะสมที่นี่ เป้าหมายของฉันตอนนี้คือการพยายามที่จะทำให้กระบวนการสำรวจเส้นทางโดยทั่วไปสำหรับระบบนินเทน …

1
ทำนายลำดับแบบสุ่มหลอก
ข้อจำกัดความรับผิดชอบ: ฉันเป็นนักชีววิทยาดังนั้นขออภัยสำหรับคำถามพื้นฐาน (อาจ) ที่ใช้ถ้อยคำในเงื่อนไขที่หยาบเช่นนั้น ฉันไม่แน่ใจว่าฉันควรถามคำถามนี้ที่นี่หรือใน DS / SC แต่ CS นั้นใหญ่ที่สุดในสามดังนั้นที่นี่จะไป (หลังจากที่ฉันโพสต์มันเกิดขึ้นกับฉันว่าการตรวจสอบข้ามอาจเป็นสถานที่ที่ดีกว่าสำหรับมัน แต่อนิจจา) ลองนึกภาพว่ามีเอเจนต์ผู้ทำการตัดสินใจไบนารี และสภาพแวดล้อมซึ่งสำหรับการตัดสินใจของตัวแทนแต่ละคน ("การทดลอง") จะให้รางวัลแก่ตัวแทนหรือไม่ เกณฑ์การให้รางวัลการตัดสินใจของตัวแทนที่มีจะไม่ง่าย ในเกณฑ์ทั่วไปจะสุ่ม แต่มีข้อ จำกัด ตัวอย่างเช่นสิ่งแวดล้อมจะไม่ให้รางวัลมากกว่า 3 ครั้งสำหรับการตัดสินใจเดียวกันและไม่เคยสลับการตัดสินใจที่ให้รางวัลมากกว่า 4 ครั้งในแถว ลำดับของเกณฑ์อาจมีลักษณะเช่นนี้ 0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ... แต่ไม่เคย 0 0 0 …

1
ข้อขัดแย้งผลักดันให้เกิดการเรียนรู้การทำให้ชัดเจนย้อนรอย
ในหน้าวิกิพีเดียที่นี่มันอธิบายอัลกอริธึม CDCL ได้ค่อนข้างดี (และดูเหมือนว่าภาพจะถูกถ่ายจากสไลด์ที่สร้างโดย Sharad Malik ที่ Princeton) อย่างไรก็ตามเมื่ออธิบายถึงวิธีการย้อนรอยทั้งหมดมันบอกว่าเป็น "ไปยังจุดที่เหมาะสม" MiniSAT ยังใช้อัลกอริทึมชุด CDCL ที่แตกต่างกันดังนั้นฉันอ่านบทความนี้. สิ่งที่พวกเขาดูเหมือนจะพูดคือคุณควรย้อนกลับจนกว่าประโยคที่เรียนรู้จะเป็นประโยคย่อย นั่นเป็นการชี้แจงอย่างชัดเจน แต่มันก็ไม่สมเหตุสมผลสำหรับฉัน การมอบหมายครั้งสุดท้ายจะเป็นส่วนหนึ่งของประโยคความขัดแย้งที่เรียนรู้เท่าที่ฉันสามารถบอกได้ (บางทีฉันผิดที่นี่?) ดังนั้นเมื่อคุณย้อนกลับไปหนึ่งขั้นตอนคุณจะสร้างหน่วยการเรียนรู้ทันทีค่าที่มอบหมายสุดท้ายจะพลิก และอัลกอริทึมจะดำเนินการตรงตาม DPLL โดยไม่ต้องย้อนรอยย้อนกลับไปไกลพอสมควร นอกจากนี้หน้าวิกิพีเดียไม่ปฏิบัติตามกฎนี้มันย้อนรอยมากขึ้นตามที่ต้องการ ไกลแค่ไหนที่ควรจะย้อนรอย?

1
คำว่าโมเมนตัมสำหรับอัลกอริธึม backpropagation ทำงานอย่างไร
เมื่ออัปเดตน้ำหนักของเครือข่ายนิวรัลโดยใช้อัลกอริธึม backpropagation กับโมเมนตัมอัตราการเรียนรู้ควรถูกนำไปใช้กับเทอมโมเมนตัมเช่นกันหรือไม่? ข้อมูลส่วนใหญ่ที่ฉันพบเกี่ยวกับการใช้โมเมนตัมมีสมการที่มีลักษณะดังนี้: W'ผม=Wผม- อัลฟ่าΔWผม+ μ ΔWฉัน- 1Wi′=Wi−αΔWi+μΔWi−1W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1} โดยที่คืออัตราการเรียนรู้และคือศัพท์โมเมนตัมαα\alphaμμ\mu หากคำว่ามีขนาดใหญ่กว่าคำว่าดังนั้นในการทำซ้ำครั้งถัดไปจากการทำซ้ำครั้งก่อนหน้าจะมีผลต่อน้ำหนักมากกว่าที่เป็นอยู่ในปัจจุบันμμ\muαα\alphaΔ W.ΔW\Delta W นี่คือจุดประสงค์ของคำว่าโมเมนตัมหรือไม่? หรือสมการควรมีลักษณะเช่นนี้มากกว่านี้หรือไม่ W′i=Wi−α(ΔWi+μΔWi−1)Wi′=Wi−α(ΔWi+μΔWi−1)W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1}) กล่าวคือ ปรับขนาดทุกอย่างตามอัตราการเรียนรู้?

3
เคล็ดลับเคอร์เนลสำหรับเครือข่ายประสาท
ฉันได้เรียนรู้เกี่ยวกับโครงข่ายประสาทและ SVM แล้ว บทเรียนที่ฉันอ่านได้เน้นว่าการสร้างเคอร์เนลมีความสำคัญเพียงใดสำหรับ SVM หากไม่มีฟังก์ชั่นเคอร์เนล SVMs เป็นเพียงลักษณนามเชิงเส้น ด้วยการสร้างเคอร์เนล SVM สามารถรวมคุณสมบัติที่ไม่ใช่เชิงเส้นซึ่งทำให้ตัวแยกประเภทมีประสิทธิภาพมากขึ้น ดูเหมือนว่าฉันจะใช้เคอร์เนลกับเครือข่ายประสาทได้ แต่ไม่มีบทเรียนเกี่ยวกับโครงข่ายประสาทเทียมที่ฉันเคยเห็นมาแล้ว คนทั่วไปมักจะใช้เคล็ดลับเคอร์เนลกับเครือข่ายประสาทเทียมหรือไม่? ฉันคิดว่าบางคนต้องทดลองกับมันเพื่อดูว่ามันสร้างความแตกต่างใหญ่หรือไม่ การแบ่งเคอร์เนลช่วยเครือข่ายประสาทเทียมได้มากเท่ากับ SVM หรือไม่? ทำไมหรือทำไมไม่? (ฉันสามารถจินตนาการได้หลายวิธีในการรวมเคล็ดลับเคอร์เนลลงในเครือข่ายประสาทเทียมวิธีหนึ่งคือการใช้ฟังก์ชันเคอร์เนลที่เหมาะสมเพื่อประมวลผลอินพุตล่วงหน้าซึ่งเป็นเวกเตอร์ใน RnRn\mathbb{R}^nลงในอินพุตที่มีมิติสูงกว่าเวกเตอร์ใน Rม.Rm\mathbb{R}^{m} สำหรับ ม≥ nm≥nm\ge n. สำหรับตาข่ายหลายชั้นเลเยอร์อีกทางเลือกหนึ่งคือการใช้ฟังก์ชันเคอร์เนลในแต่ละระดับของเครือข่ายประสาท)

1
ทำไมน้ำหนักของ Neural Networks เริ่มต้นด้วยตัวเลขสุ่ม?
ทำไมน้ำหนักเริ่มต้นของโครงข่ายประสาทเทียมเริ่มต้นเป็นตัวเลขแบบสุ่ม? ฉันได้อ่านที่ไหนสักแห่งว่าสิ่งนี้ทำเพื่อ "ทำลายความสมมาตร" และทำให้เครือข่ายประสาทเทียมเรียนรู้เร็วขึ้น การทำลายความสมมาตรทำให้การเรียนรู้เร็วขึ้นอย่างไร จะไม่เริ่มต้นน้ำหนักเป็น 0 เป็นความคิดที่ดีกว่าไหม ด้วยวิธีนี้น้ำหนักจะสามารถค้นหาค่าของพวกเขา (ไม่ว่าจะเป็นบวกหรือลบ) ได้เร็วขึ้น? มีปรัชญาพื้นฐานอื่น ๆ ที่อยู่เบื้องหลังการสุ่มน้ำหนักนอกเหนือจากการหวังว่าพวกเขาจะใกล้เคียงกับค่าสูงสุดของพวกเขาเมื่อเริ่มต้นหรือไม่

2
เกิดอะไรขึ้นก่อนการเรียนรู้ PAC
ฉันกำลังตรวจสอบการเรียนรู้ PAC (ทฤษฎีการเรียนรู้คอมพิวเตอร์) ในฐานะผู้เริ่มต้นที่ไม่มีความรู้ก่อนหน้านี้เกี่ยวกับการเรียนรู้ของเครื่อง / AI ฉันกำลังตรวจสอบโมเดลส่วนใหญ่จากมุมมองทางประวัติศาสตร์ สำหรับสิ่งนี้สิ่งที่สำคัญที่สุดคือผลลัพธ์ที่ได้จากแบบจำลอง มีเอกสารเพียงพอที่จะบันทึกผลลัพธ์เหล่านี้ แต่ฉันยังต้องการที่จะเขียนอะไรบางอย่างเกี่ยวกับสิ่งที่เกิดขึ้นก่อนการเรียนรู้ PAC เพื่อวาดบริบททางประวัติศาสตร์จนถึงจุดที่องอาจมาพร้อมกับแนวคิดของแบบจำลอง PAC ไม่มีเอกสาร / แบบสำรวจฉันพบเอกสารนี้และในขณะที่คนที่ไม่มีความรู้จริงเกี่ยวกับการเรียนรู้ของเครื่องจึงยากที่จะหาสิ่งนี้ ฉันจึงถามคำถามอ่อนนี้ที่นี่เพราะฉันเชื่อว่ามีผู้เชี่ยวชาญเพียงพอที่สามารถช่วยฉันได้ การอ้างอิงได้รับการชื่นชมอย่างมาก เมื่อฉันสามารถค้นคว้าและศึกษาสิ่งที่เกิดขึ้นก่อน PAC ฉันอาจได้รับการชื่นชมที่ดีขึ้นว่าทำไมโลกการศึกษาจึงกระตือรือร้นเกี่ยวกับแบบจำลอง PAC ซึ่งเป็นสิ่งที่น่าสนใจในการจัดทำเอกสารในงานประวัติศาสตร์ของฉัน!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.