คำถามติดแท็ก machine-learning

คำถามเกี่ยวกับอัลกอริทึมของคอมพิวเตอร์ที่ค้นพบรูปแบบข้อมูลโดยอัตโนมัติและทำการตัดสินใจที่ดีตามพวกเขา

7
ทำไมการเรียนรู้แบบเจาะลึกถึงแม้จะมีมิติ VC ไม่ดีล่ะ
สูตรVapnik – Chervonenkis (VC) -สำหรับเครือข่ายประสาทเทียมมีตั้งแต่ถึงโดยมีในกรณีที่แย่ที่สุดโดยที่คือจำนวนขอบและคือจำนวนโหนด จำนวนตัวอย่างการฝึกอบรมที่จำเป็นต้องมีการรับรองที่แข็งแกร่งของการวางนัยทั่วไปเป็นเส้นตรงกับมิติ VCO(E)O(E)O(E)O(E2)O(E2)O(E^2)O(E2V2)O(E2V2)O(E^2V^2)EEEVVV ซึ่งหมายความว่าสำหรับเครือข่ายที่มีขอบเป็นพันล้านเช่นเดียวกับในกรณีของโมเดลการเรียนรู้ลึกที่ประสบความสำเร็จชุดข้อมูลการฝึกอบรมนั้นต้องการตัวอย่างการฝึกอบรมนับพันล้านตัวอย่างในกรณีที่ดีที่สุดเพื่อ quadrillions ในกรณีที่แย่ที่สุด ชุดฝึกอบรมที่ใหญ่ที่สุดในปัจจุบันมีตัวอย่างประมาณหนึ่งแสนล้านตัวอย่าง เนื่องจากมีข้อมูลการฝึกอบรมไม่เพียงพอจึงไม่น่าเป็นไปได้ที่รูปแบบการเรียนรู้เชิงลึกจะเป็นเรื่องทั่วไป แต่พวกเขากำลังเตรียมข้อมูลการฝึกอบรมมากเกินไป ซึ่งหมายความว่าโมเดลจะทำงานได้ไม่ดีกับข้อมูลที่ไม่เหมือนกันกับข้อมูลการฝึกอบรมซึ่งเป็นคุณสมบัติที่ไม่พึงประสงค์สำหรับการเรียนรู้ของเครื่อง เนื่องจากการวิเคราะห์เชิงลึกของ VC ไม่สามารถให้การเรียนรู้ที่ลึกเกินจริงได้ การมีความแม่นยำสูงในชุดข้อมูลบางส่วนนั้นไม่ได้มีความหมายมากนัก มีบางสิ่งที่พิเศษเกี่ยวกับสถาปัตยกรรมการเรียนรู้ลึกที่ลดมิติ VC ลงอย่างมากหรือไม่? หากคุณไม่คิดว่าการวิเคราะห์มิติ VC มีความเกี่ยวข้องโปรดแสดงหลักฐาน / คำอธิบายว่าการเรียนรู้อย่างลึกซึ้งนั้นเป็นเรื่องทั่วไปและไม่ได้ทำให้เกินกำลัง คือมันมีการเรียกคืนที่ดีและมีความแม่นยำหรือเพียงแค่การเรียกคืนที่ดี? การเรียกคืน 100% นั้นง่ายมากที่จะบรรลุเช่นเดียวกับความแม่นยำ 100% การเข้าใกล้ทั้ง 100% นั้นยากมาก เป็นตัวอย่างที่ตรงกันข้ามนี่เป็นหลักฐานที่แสดงว่าการเรียนรู้ลึก overfitting ตัวแบบ overfit นั้นง่ายที่จะหลอกเพราะมันได้รวมเสียงรบกวนที่กำหนดไว้ ดูภาพต่อไปนี้สำหรับตัวอย่างการ overfitting นอกจากนี้โปรดดูคำตอบที่มีอันดับต่ำกว่าสำหรับคำถามนี้เพื่อทำความเข้าใจปัญหาของตัวแบบ overfit แม้จะมีความแม่นยำในข้อมูลการทดสอบ บางคนตอบว่าการทำให้เป็นมาตรฐานช่วยแก้ปัญหามิติ VC ขนาดใหญ่ ดูคำถามนี้สำหรับการอภิปรายเพิ่มเติม

5
ทำไมการวิจัยเกี่ยวกับอัลกอริธึมทางพันธุกรรมจึงชะลอตัว?
ในขณะที่กำลังพูดถึงหัวข้อระดับอินโทรในวันนี้รวมถึงการใช้อัลกอริทึมทางพันธุกรรม ฉันบอกว่าการวิจัยชะลอตัวลงในสาขานี้ เหตุผลที่กำหนดคือคนส่วนใหญ่มุ่งเน้นไปที่การเรียนรู้ของเครื่องและการทำเหมืองข้อมูล อัปเดต:ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้น ML / DM มีข้อได้เปรียบอะไรบ้างเมื่อเทียบกับ GA

2
มีการปรับปรุงอัลกอริทึมของ Dana Angluin สำหรับการเรียนรู้ชุดปกติหรือไม่
ในปี 1987 กระดาษ Dana Angluin นำเสนออัลกอริธึมเวลาพหุนามสำหรับการเรียนรู้ DFA จากการค้นหาสมาชิกและการสอบถามทฤษฎี แสดงให้เห็นว่าเธอว่าถ้าคุณกำลังพยายามที่จะเรียนรู้น้อยที่สุด DFA กับรัฐและ countexample ใหญ่ที่สุดของคุณคือความยาวแล้วคุณต้องการที่จะทำให้สมาชิกแบบสอบถามและที่มากที่สุดทฤษฎีแบบสอบถามnnnmม.mO(mn2)O(ม.n2)O(mn^2)n−1n-1n - 1 มีการปรับปรุงจำนวนแบบสอบถามที่จำเป็นในการเรียนรู้ชุดปกติหรือไม่? การอ้างอิงและคำถามที่เกี่ยวข้อง Dana Angluin (1987) "การเรียนรู้ชุดปกติจากการค้นหาและการตอบโต้", Infortmation และการคำนวณ 75: 87-106 ขอบเขตที่ต่ำกว่าสำหรับการเรียนรู้ในคิวรีการเป็นสมาชิกและโมเดลตัวอย่าง

2
เหตุใดเครือข่ายประสาทจึงทำงานได้ดีขึ้นโดยมีข้อ จำกัด ด้านโทโพโลยีของพวกเขา
เชื่อมต่ออย่างสมบูรณ์ (อย่างน้อยเลเยอร์ถึงเลเยอร์ที่มีมากกว่า 2 เลเยอร์ที่ซ่อนอยู่) เครือข่าย backprop เป็นผู้เรียนที่เป็นสากล น่าเสียดายที่พวกเขามักจะเรียนรู้ช้าและมีแนวโน้มที่จะกระชับหรือมีลักษณะทั่วไปที่น่าอึดอัดใจ จากการหลอกลวงรอบ ๆ ด้วยเครือข่ายเหล่านี้ฉันได้สังเกตว่าการตัดขอบบางส่วน (เพื่อให้น้ำหนักของพวกเขานั้นเป็นศูนย์และเป็นไปไม่ได้ที่จะเปลี่ยนแปลง) มีแนวโน้มที่จะทำให้เครือข่ายเรียนรู้ได้เร็วขึ้น มีเหตุผลสำหรับสิ่งนี้หรือไม่? เป็นเพราะการลดขนาดของพื้นที่ค้นหาตุ้มน้ำหนักหรือมีเหตุผลที่ลึกซึ้งกว่านี้หรือไม่ ยิ่งไปกว่านั้นการวางนัยทั่วไปที่ดีกว่าเป็นสิ่งประดิษฐ์ของปัญหา 'ธรรมชาติ' ที่ฉันกำลังมองหาอยู่?

4
จะตัดสินการเชื่อมต่อที่น่าจะเป็นในเครือข่ายโซเชียลได้อย่างไร?
ฉันสงสัยในการกำหนดวิธีการจัดการอัลกอริทึม "เพื่อนที่แนะนำ" Facebookมีคุณสมบัติที่จะแนะนำบุคคลที่คุณคิดว่าคุณอาจคุ้นเคย โดยปกติผู้ใช้เหล่านี้ (ยกเว้นกรณีขอบที่ผู้ใช้แนะนำโดยเฉพาะเพื่อน ) มีเครือข่ายที่คล้ายกันมากกับตัวเอง นั่นคือจำนวนเพื่อนที่เหมือนกันอยู่ในระดับสูง ฉันถือว่า Twitter เป็นไปตามเส้นทางที่คล้ายกันสำหรับกลไก "Who To Follow" ของพวกเขา Stephen Doyle (Igy)พนักงาน Facebook แนะนำว่าฟีดข่าวที่เกี่ยวข้องที่ใช้สูตร EdgeRankซึ่งดูเหมือนว่าบ่งบอกว่ามีค่ามากกว่าเพื่อนเช่นรูปลักษณ์เป็นโพสต์ที่คล้ายกัน ผู้ใช้รายอื่นแนะนำระบบ Google Rank Facebook ระบุว่าการเพิ่มประสิทธิภาพฟีดข่าวของพวกเขาเป็นโดยที่Σ ยูอีWอีdอีΣยูอีWอีdอี\sum u_{e}w_{e}d_{e} ยูอียูอีu_{e} = คะแนนความสัมพันธ์ระหว่างผู้ใช้ที่ดูและผู้สร้างขอบ = น้ำหนักสำหรับขอบนี้ (สร้าง, ความคิดเห็น, ชอบ, แท็ก, ฯลฯ ) = ปัจจัยการสลายตัวของเวลาขึ้นอยู่กับระยะเวลาที่สร้างขอบ WอีWอีw_{e} dอีdอีd_{e} การสรุปรายการเหล่านี้ควรจะให้อันดับของวัตถุที่ฉันถือว่าเป็นไอ้บอกใบ้หมายถึงบางสิ่งในรูปแบบที่คล้ายกันใช้สำหรับเพื่อน ดังนั้นฉันเดาว่านี่เป็นวิธีการเชื่อมต่อสำหรับทุกประเภทที่ทำโดยทั่วไปผ่านระบบอันดับหรือไม่

1
อัลกอริทึมการเรียนรู้ของเครื่องใดที่สามารถใช้สำหรับการพยากรณ์อนุกรมเวลา
ขณะนี้ฉันกำลังเล่นกับการคาดการณ์อนุกรมเวลา (โดยเฉพาะสำหรับ Forex) ฉันได้เห็นเอกสารทางวิทยาศาสตร์เกี่ยวกับเครือข่ายของรัฐที่ใช้กับการพยากรณ์ Forex มีอัลกอริทึมการเรียนรู้ของเครื่องที่ดีสำหรับจุดประสงค์นี้หรือไม่? นอกจากนี้ยังน่าสนใจที่จะแยกรูปแบบ "ทำกำไร" จากอนุกรมเวลา

2
เหตุใด C ประเภทโมฆะจึงไม่คล้ายกับประเภทที่ว่าง / ด้านล่าง
Wikipedia ตลอดจนแหล่งข้อมูลอื่น ๆ ที่ฉันได้พบรายการvoidประเภทC เป็นหน่วยประเภทซึ่งตรงข้ามกับประเภทที่ว่างเปล่า ฉันพบว่ามันสับสนเพราะฉันคิดว่าvoidเหมาะกับนิยามของประเภทที่ว่าง / ล่าง ไม่มีค่านิยมใด ๆ อยู่voidเท่าที่ฉันจะบอกได้ ฟังก์ชั่นที่มีประเภทคืนค่าเป็นโมฆะระบุว่าฟังก์ชั่นจะไม่ส่งคืนสิ่งใดดังนั้นจึงสามารถทำงานได้เพียงผลข้างเคียงเท่านั้น ตัวชี้ชนิดvoid*เป็นชนิดย่อยของชนิดตัวชี้อื่นทั้งหมด นอกจากนี้การแปลงไปยังและจากvoid*ใน C นั้นเป็นนัย ผมไม่แน่ใจว่าถ้าจุดสุดท้ายมีบุญใด ๆ ที่เป็นข้อโต้แย้งสำหรับvoidการเป็นประเภทที่ว่างเปล่าเป็นมากหรือน้อยเป็นกรณีพิเศษที่มีความสัมพันธ์ไม่มากที่จะvoid*void ในทางกลับกันvoidตัวมันเองไม่ใช่ประเภทย่อยของประเภทอื่นทั้งหมดซึ่งเท่าที่ฉันสามารถบอกได้ว่าเป็นข้อกำหนดสำหรับประเภทที่จะเป็นประเภทด้านล่าง
28 type-theory  c  logic  modal-logic  coq  equality  coinduction  artificial-intelligence  computer-architecture  compilers  asymptotics  formal-languages  asymptotics  landau-notation  asymptotics  turing-machines  optimization  decision-problem  rice-theorem  algorithms  arithmetic  floating-point  automata  finite-automata  data-structures  search-trees  balanced-search-trees  complexity-theory  asymptotics  amortized-analysis  complexity-theory  graphs  np-complete  reductions  np-hard  algorithms  string-metrics  computability  artificial-intelligence  halting-problem  turing-machines  computation-models  graph-theory  terminology  complexity-theory  decision-problem  polynomial-time  algorithms  algorithm-analysis  optimization  runtime-analysis  loops  turing-machines  computation-models  recurrence-relation  master-theorem  complexity-theory  asymptotics  parallel-computing  landau-notation  terminology  optimization  decision-problem  complexity-theory  polynomial-time  counting  coding-theory  permutations  encoding-scheme  error-correcting-codes  machine-learning  natural-language-processing  algorithms  graphs  social-networks  network-analysis  relational-algebra  constraint-satisfaction  polymorphisms  algorithms  graphs  trees 

4
อะไรคือความแตกต่างระหว่างการเรียนรู้แบบมีผู้สอนและไม่ได้รับการดูแล?
ฉันพยายามทำความเข้าใจวิธีการจัดกลุ่ม สิ่งที่ฉันคิดว่าฉันเข้าใจ: ในการเรียนรู้ภายใต้การดูแลข้อมูลจะถูกกำหนดให้หมวดหมู่ / ป้ายกำกับก่อนการคำนวณ ดังนั้นจึงมีการใช้เลเบลคลาสหรือหมวดหมู่เพื่อ "เรียนรู้" พารามิเตอร์ที่มีความสำคัญสำหรับกลุ่มเหล่านั้น ในการเรียนรู้ที่ไม่มีการดูแลชุดข้อมูลจะถูกกำหนดให้กับกลุ่มโดยไม่ทราบว่าเป็นกลุ่มใด นั่นหมายความว่าถ้าฉันไม่รู้ด้วยซ้ำว่าพารามิเตอร์ใดมีความสำคัญต่อการแบ่งกลุ่มฉันควรเลือกการเรียนรู้แบบมีผู้สอนหรือไม่

6
การสร้างชุดค่าผสมจากชุดคู่โดยไม่มีการทำซ้ำองค์ประกอบ
ฉันมีชุดของคู่ แต่ละคู่เป็นรูปแบบ (x, y) เช่นว่า x, y [0,n)เป็นจำนวนเต็มจากช่วง ดังนั้นถ้า n คือ 4 ดังนั้นฉันมีคู่ต่อไปนี้: (0,1) (0,2) (0,3) (1,2) (1,3) (2,3) ฉันมีคู่แล้ว ตอนนี้ฉันต้องสร้างชุดค่าผสมโดยใช้n/2คู่ที่ไม่มีจำนวนเต็มซ้ำ (กล่าวอีกอย่างหนึ่งว่าจำนวนเต็มแต่ละค่าปรากฏอย่างน้อยหนึ่งครั้งในชุดค่าผสมสุดท้าย) ต่อไปนี้เป็นตัวอย่างของชุดค่าผสมที่ถูกต้องและไม่ถูกต้องเพื่อความเข้าใจที่ดีขึ้น 1. (0,1)(1,2) [Invalid as 3 does not occur anywhere] 2. (0,2)(1,3) [Correct] 3. (1,3)(0,2) [Same as 2] มีคนแนะนำฉันถึงวิธีในการสร้างชุดค่าผสมที่เป็นไปได้ทั้งหมดเมื่อฉันมีคู่

12
ทำไมกำลังพลเกินกำลังไม่ดี?
ฉันได้ศึกษาล็อตนี้แล้วพวกเขาบอกว่าการกระทำที่เกินจริงในการเรียนรู้ด้วยเครื่องจักรนั้นไม่ดี แต่เซลล์ประสาทของเราแข็งแกร่งมากและค้นหาการกระทำ / ความรู้สึกที่ดีที่สุดที่เราไปหรือหลีกเลี่ยง / ดีโดยตัวกระตุ้นที่ไม่ดีหรือดีหมายถึงการกระทำจะมีระดับและจบลงด้วยการกระทำที่ดีที่สุด (ขวา) ความมั่นใจที่แข็งแกร่งเป็นพิเศษ มันล้มเหลวอย่างไร มันใช้ทริกเกอร์ที่เป็นบวกและลบเพื่อยกเลิกการเพิ่มการกระทำที่พูดจาก 44pos ถึง 22neg


4
อะไรคือความแตกต่างระหว่าง Neural Network ระบบ Deep Learning และ Deep Belief Network
อะไรคือความแตกต่างระหว่าง Neural Network ระบบ Deep Learning และ Deep Belief Network ในขณะที่ฉันจำเครือข่ายประสาทขั้นพื้นฐานของคุณเป็นสิ่งที่ค่อนข้างเป็น 3 ชั้นและฉันมีระบบความเชื่อลึกที่อธิบายว่าเป็นเครือข่ายประสาทที่ซ้อนกันอยู่ด้านบนของกันและกัน ฉันไม่เคยได้ยินมาก่อนเกี่ยวกับ Deep Learning Systems แต่ฉันสงสัยอย่างมากว่ามันเป็นคำพ้องสำหรับ Deep Belief System มีใครยืนยันได้ไหม

1
การรวมกลุ่มเพลง (โจปัญหาวอลช์)
อินทรีเป็นหินหินใหญ่จาก 70s และ 80s รับผิดชอบสำหรับคลาสสิกเช่นHotel California พวกเขามีสองเสียงที่ค่อนข้างโดดเด่นซึ่งเป็นที่นักกีตาร์ Joe Walsh ปรากฏอยู่ (ตัวอย่างเช่นในLife in the Fast Lane ) และเป็นที่ที่เขาไม่อยู่ เพลงหลังนั้นให้ความรู้สึกที่น่าเศร้าและน่าเบื่อมากกว่า ฉันอยากรู้ว่าเข้าใจระดับที่อัลกอริทึมการเรียนรู้ (ไม่ได้รับอนุญาต) จะสามารถตรวจจับความแตกต่างระหว่างเสียงทั้งสองได้อย่างไร ใคร ๆ ก็นึกว่ามันจะง่ายที่จะบอกความแตกต่างระหว่างสปีดเมทัลกับดนตรีคลาสสิค แต่สิ่งที่เกี่ยวกับเสียงของวงดนตรีเดียวกัน ฉันจะตั้งค่าการทดสอบเช่นนี้ได้อย่างไร สมมติว่าฉันมีไฟล์เสียงที่เกี่ยวข้องในบางรูปแบบมาตรฐานแล้ว โปรดทราบว่าสิ่งนี้ควรนำไปใช้กับวงดนตรีร็อคอื่น ๆ เช่น AC / DC ที่มีการเปลี่ยนนักร้องนำในปี 1980 และอาจเป็นแนวเพลงอื่น ๆ ด้วยอาจเป็นเพลงที่ทันสมัยกว่า

2
การรวมกันของโครงสร้างข้อมูลใดที่จัดเก็บเครือข่ายแบบเบย์โดยสิ้นเชิง
ฉันเข้าใจทฤษฎีที่อยู่เบื้องหลังเครือข่าย Bayesian และฉันสงสัยว่าจะต้องสร้างสิ่งใดในทางปฏิบัติ สมมุติว่าสำหรับตัวอย่างนี้ฉันมีเครือข่ายแบบเบย์ (กำกับ) ที่มีตัวแปรสุ่มไม่ต่อเนื่อง 100 ตัว ตัวแปรแต่ละตัวสามารถรับได้สูงสุด 10 ค่า ฉันจะเก็บโหนดทั้งหมดใน DAG และสำหรับแต่ละโหนดจะเก็บ Conditional Probability Table (CPT) หรือไม่ มีโครงสร้างข้อมูลอื่น ๆ ที่ฉันควรใช้เพื่อให้แน่ใจว่าการคำนวณค่ามีประสิทธิภาพเมื่อ CPT บางอย่างเปลี่ยนไป (นอกเหนือจาก DAG ที่ใช้)

2
ทำไมยีนแบบซ้ำ (แบบโดดเด่น / แบบถอยกลับ) ไม่ได้ใช้อย่างกว้างขวางในอัลกอริทึมทางพันธุกรรม
คำถามนี้ย้ายมาจาก Artificial Intelligence Stack Exchange เพราะสามารถตอบได้ใน Computer Science Stack Exchange อพยพ 5 ปีที่ผ่านมา ในการใช้งานส่วนใหญ่ของอัลกอริธึมทางพันธุกรรมการมุ่งเน้นไปที่ครอสโอเวอร์และการกลายพันธุ์ แต่อย่างใดส่วนใหญ่ของพวกเขาออกลักษณะของยีน (เด่น / ถอย) diploid เท่าที่ความเข้าใจ (จำกัด ) ของฉันไปตามธรรมชาติที่โดดเด่น / ถอยของยีนเป็นปัจจัยที่สำคัญมากในการตัดสินใจลักษณะที่แท้จริงของสิ่งมีชีวิต ดังนั้นคำถามของฉันคือทำไมธรรมชาติของยีนซ้ำซ้อนที่เหลือจากอัลกอริธึมทางพันธุกรรมในการนำไปใช้ส่วนใหญ่? เป็นเพราะ: มันไม่ได้ให้ประโยชน์มากนัก มันเพิ่มความซับซ้อนที่ไม่จำเป็นให้กับอัลกอริทึมแบบง่าย มันยากที่จะใช้ หรืออย่างอื่นอย่างสิ้นเชิง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.