คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

11
ชุดทดสอบและชุดการตรวจสอบแตกต่างกันอย่างไร
ฉันพบว่าสิ่งนี้เกิดความสับสนเมื่อฉันใช้กล่องเครื่องมือโครงข่ายใยประสาทใน Matlab มันแบ่งข้อมูลดิบที่กำหนดเป็นสามส่วน: ชุดฝึกอบรม ชุดการตรวจสอบความถูกต้อง ชุดทดสอบ ฉันสังเกตเห็นในการฝึกอบรมหรืออัลกอริทึมการเรียนรู้ข้อมูลมักจะแบ่งออกเป็น 2 ส่วนชุดฝึกอบรมและชุดทดสอบ คำถามของฉันคือ: ชุดตรวจสอบความถูกต้องและชุดทดสอบแตกต่างกันอย่างไร การตรวจสอบถูกตั้งค่าเฉพาะกับเครือข่ายประสาทจริงหรือไม่ หรือมันเป็นตัวเลือก หากต้องการดำเนินการต่อไปจะมีความแตกต่างระหว่างการตรวจสอบและทดสอบในบริบทของการเรียนรู้ของเครื่องหรือไม่

20
สองวัฒนธรรม: สถิติกับการเรียนรู้ของเครื่อง?
ปีที่แล้วฉันอ่านโพสต์บล็อกจากเบรนแดนโอคอนเนอร์เรื่อง"สถิติกับการเรียนรู้ของเครื่องจักรการต่อสู้!" ที่กล่าวถึงความแตกต่างระหว่างสองฟิลด์ Andrew Gelman ตอบกลับอย่างดีในเรื่องนี้ : Simon Blomberg: จากแพคเกจโชคชะตาของ R: เพื่อถอดความยั่วโมโห 'การเรียนรู้ของเครื่องคือสถิติลบการตรวจสอบรูปแบบและสมมติฐาน' - Brian D. Ripley (เกี่ยวกับความแตกต่างระหว่างการเรียนรู้ของเครื่องและสถิติ) useR! ปี 2004 เวียนนา (พฤษภาคม 2547) :-) คำทักทายประจำฤดูกาล! Andrew Gelman: ในกรณีนั้นเราควรกำจัดการตรวจสอบตัวแบบและสมมติฐานบ่อยขึ้น ถ้าอย่างนั้นเราอาจจะสามารถแก้ปัญหาบางอย่างที่เครื่องเรียนรู้ที่ผู้คนสามารถแก้ไขได้ แต่เราทำไม่ได้! นอกจากนี้ยังมี"การสร้างแบบจำลองทางสถิติสองวัฒนธรรม"กระดาษโดยลีโอเบรแมนในปี 2001 ซึ่งเป็นที่ถกเถียงกันว่าสถิติพึ่งพาอาศัยเกินไปในการสร้างแบบจำลองข้อมูลและเทคนิคการเรียนรู้ที่เครื่องจะทำให้ความคืบหน้าโดยแทนที่จะอาศัยความถูกต้องของการคาดการณ์ของแบบจำลอง เขตข้อมูลสถิติมีการเปลี่ยนแปลงในช่วงทศวรรษที่ผ่านมาเพื่อตอบสนองต่อคำวิจารณ์เหล่านี้หรือไม่? อย่าสองวัฒนธรรมที่ยังคงอยู่หรือสถิติการเติบโตที่จะโอบกอดเทคนิคการเรียนรู้ของเครื่องเช่นเครือข่ายประสาทและเครื่องเวกเตอร์สนับสนุน?

5
วิธีทำความเข้าใจข้อเสียของ K-mean
K-mean เป็นวิธีที่ใช้กันอย่างแพร่หลายในการวิเคราะห์กลุ่ม ในความเข้าใจของฉันวิธีนี้ไม่จำเป็นต้องมีข้อสมมติฐานใด ๆ เช่นให้ชุดข้อมูลและจำนวนกลุ่มที่กำหนดไว้ล่วงหน้าฉันและฉันเพิ่งใช้อัลกอริทึมนี้ซึ่งช่วยลดผลรวมของข้อผิดพลาดกำลังสอง (SSE) ภายในคลัสเตอร์กำลังสอง ความผิดพลาด k-mean จึงเป็นปัญหาการหาค่าเหมาะที่สุด ฉันอ่านเนื้อหาเกี่ยวกับข้อเสียของ k-mean ส่วนใหญ่พูดว่า: k- หมายถึงถือว่าความแปรปรวนของการกระจายของแต่ละคุณลักษณะ (ตัวแปร) เป็นทรงกลม; ตัวแปรทั้งหมดมีความแปรปรวนเดียวกัน ความน่าจะเป็นก่อนหน้านี้สำหรับ k k ทั้งหมดนั้นเหมือนกันกล่าวคือแต่ละกลุ่มมีจำนวนการสังเกตอย่างเท่าเทียมกัน หากมีการละเมิดสมมติฐานข้อใดข้อหนึ่งใน 3 ข้อใดข้อหนึ่งของ k-mean จะล้มเหลว ฉันไม่เข้าใจตรรกะหลังคำสั่งนี้ ฉันคิดว่าวิธี k-mean ไม่มีข้อสมมติฐานเป็นหลักมันแค่ลด SSE ลงเท่านั้นดังนั้นฉันจึงไม่สามารถเห็นลิงก์ระหว่างการลด SSE และ "สมมติฐาน" ทั้งสามนี้

7
การบรรจุถุงการส่งเสริมและการซ้อนในการเรียนรู้ของเครื่อง
ความเหมือนและความแตกต่างระหว่าง 3 วิธีนี้คืออะไร: บรรจุถุง, ส่งเสริม เก็บซ้อน? อันไหนดีที่สุด? และทำไม? คุณสามารถยกตัวอย่างให้ฉันได้ไหม

8
ทำไมระยะทางแบบยุคลิดไม่เป็นตัวชี้วัดที่ดีในมิติที่สูง?
ฉันอ่านว่า 'ระยะทางแบบยุคลิดไม่ใช่ระยะทางที่ดีในมิติที่สูง' ฉันเดาว่าข้อความนี้มีส่วนเกี่ยวข้องกับคำสาปของความเป็นมิติ แต่อะไรกันแน่ นอกจากนี้ 'มิติสูง' คืออะไร? ฉันใช้การจัดกลุ่มแบบลำดับชั้นโดยใช้ระยะทางแบบยุคลิดกับ 100 ฟีเจอร์ คุณลักษณะนี้มีความปลอดภัยเพียงใดในการใช้การวัดนี้

12
อะไรคือความแตกต่างระหว่าง data mining สถิติการเรียนรู้ของ machine และ AI?
อะไรคือความแตกต่างระหว่าง data mining สถิติการเรียนรู้ของ machine และ AI? จะถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็น 4 สาขาที่พยายามแก้ไขปัญหาที่คล้ายกันมาก แต่ด้วยวิธีการที่แตกต่างกัน? พวกเขามีอะไรกันแน่และพวกเขาต่างกันอย่างไร หากมีลำดับชั้นบางอย่างระหว่างพวกเขามันจะเป็นอะไร? มีการถามคำถามที่คล้ายกันก่อนหน้านี้ แต่ฉันยังไม่เข้าใจ: การทำเหมืองข้อมูลและการวิเคราะห์ทางสถิติ สองวัฒนธรรม: สถิติกับการเรียนรู้ของเครื่อง?

3
จะรู้ได้อย่างไรว่าปัญหาการเรียนรู้เครื่องของคุณสิ้นหวัง?
ลองนึกภาพสถานการณ์การเรียนรู้ของเครื่องมาตรฐาน: คุณกำลังเผชิญหน้ากับชุดข้อมูลหลายตัวแปรขนาดใหญ่และคุณมีความเข้าใจที่ไม่ชัดเจน สิ่งที่คุณต้องทำคือการคาดเดาเกี่ยวกับตัวแปรตามสิ่งที่คุณมี ตามปกติคุณจะต้องล้างข้อมูลดูสถิติเชิงพรรณนาเรียกใช้บางรุ่นตรวจสอบความถูกต้องของข้อมูลเป็นต้น แต่หลังจากผ่านไปหลายครั้งพยายามกลับไปกลับมาและลองใช้แบบจำลองหลาย ๆ แบบซึ่งดูเหมือนว่าจะไม่มีอะไรเกิดขึ้น คุณสามารถใช้เวลาหลายชั่วโมงหลายวันหรือหลายสัปดาห์สำหรับปัญหาดังกล่าว ... คำถามคือเมื่อจะหยุด? คุณจะรู้ได้อย่างไรว่าข้อมูลของคุณสิ้นหวังจริง ๆ และโมเดลแฟนซีทั้งหมดจะไม่ทำให้คุณดีไปกว่าการคาดการณ์ผลลัพธ์เฉลี่ยสำหรับทุกกรณีหรือวิธีแก้ปัญหาเล็กน้อยอื่น ๆ แน่นอนว่านี่เป็นปัญหาการคาดการณ์ แต่เท่าที่ฉันรู้มันยากที่จะประเมินการคาดการณ์สำหรับข้อมูลหลายตัวแปรก่อนที่จะลองทำบางสิ่ง หรือฉันผิด คำเตือน:คำถามนี้ได้รับแรงบันดาลใจจากคำถามนี้ เมื่อไหร่ที่ฉันจะหยุดหานางแบบ? ที่ไม่ดึงดูดความสนใจมาก มันจะดีที่มีคำตอบรายละเอียดสำหรับคำถามดังกล่าวสำหรับการอ้างอิง

4
เลเยอร์ที่ซ่อนอยู่ในคอมพิวเตอร์คำนวณจากอะไร
ฉันแน่ใจว่าหลายคนจะตอบสนองด้วยลิงก์เพื่อ 'ให้ฉัน google สำหรับคุณ' ดังนั้นฉันอยากจะบอกว่าฉันพยายามที่จะคิดออกดังนั้นโปรดยกโทษให้ฉันขาดความเข้าใจที่นี่ แต่ฉันไม่สามารถหาวิธี การใช้งานจริงของเครือข่ายประสาทใช้งานได้จริง ฉันเข้าใจเลเยอร์อินพุตและวิธีทำให้ข้อมูลเป็นมาตรฐานฉันยังเข้าใจหน่วยอคติ แต่เมื่อพูดถึงเลเยอร์ที่ซ่อนอยู่การคำนวณที่แท้จริงคืออะไรในเลเยอร์นั้นและวิธีที่แมปกับเอาต์พุตเป็นเพียงหมอกเล็กน้อย ฉันเห็นไดอะแกรมที่มีเครื่องหมายคำถามในเลเยอร์ที่ซ่อนอยู่ฟังก์ชันบูลีนเช่น AND / OR / XOR ฟังก์ชั่นการเปิดใช้งานและโหนดอินพุตที่แมปไปยังหน่วยที่ซ่อนอยู่ทั้งหมดและโหนดอินพุตที่แมปหน่วยที่ซ่อนอยู่เพียงไม่กี่ตัวเท่านั้น ฉันมีคำถามสองสามข้อเกี่ยวกับการใช้งานจริง แน่นอนคำอธิบายง่ายๆเกี่ยวกับกระบวนการโครงข่ายประสาททั้งหมดเหมือนกับที่คุณจะอธิบายให้เด็กฟังจะน่ากลัว การคำนวณอะไรที่ทำในเลเยอร์ที่ซ่อนอยู่? การคำนวณเหล่านั้นถูกแม็พกับเลเยอร์เอาต์พุตอย่างไร เลเยอร์ ouput ทำงานอย่างไร ยกเลิกการทำให้ข้อมูลเป็นปกติจากเลเยอร์ที่ซ่อนอยู่หรือไม่ ทำไมบางเลเยอร์ในเลเยอร์อินพุตเชื่อมต่อกับเลเยอร์ที่ซ่อนอยู่และบางเลเยอร์ไม่ได้?

9
ทำไมความหลงใหลอย่างฉับพลันกับเทนเซอร์?
ฉันได้สังเกตเห็นเมื่อเร็ว ๆ นี้ว่าผู้คนจำนวนมากกำลังพัฒนาเทนเซอร์เทียบเท่าวิธีการหลายอย่าง (การแยกตัวประกอบเทนเซอร์, เมล็ดเทนเซอร์, เทนเซอร์สำหรับการสร้างแบบจำลองหัวข้อ ฯลฯ ) ฉันสงสัยว่าทำไมโลกถึงหลงใหลเทนเซอร์ มีเอกสาร / ผลมาตรฐานล่าสุดที่น่าประหลาดใจเป็นพิเศษหรือไม่ มันคำนวณได้ถูกกว่าที่คาดไว้มากก่อนหน้านี้ไหม? ฉันไม่ได้เป็นคนที่มีเสน่ห์ฉันมีความสนใจอย่างจริงใจและหากมีคำแนะนำใด ๆ เกี่ยวกับเรื่องนี้ฉันก็อยากอ่าน

3
ROC กับเส้นโค้งความแม่นยำและความทรงจำ
ฉันเข้าใจความแตกต่างอย่างเป็นทางการระหว่างพวกเขาสิ่งที่ฉันอยากรู้ก็คือเมื่อมันเกี่ยวข้องกับการใช้อย่างใดอย่างหนึ่งกับอีก พวกเขาให้ข้อมูลเชิงลึกที่สมบูรณ์เกี่ยวกับประสิทธิภาพของระบบการจำแนกประเภท / การตรวจจับที่ให้มาหรือไม่? เมื่อใดที่มีเหตุผลที่จะให้พวกเขาทั้งสองพูดในกระดาษ? แทนที่จะเป็นเพียงหนึ่ง? มีคำอธิบายอื่น ๆ (อาจทันสมัยกว่า) ที่จับประเด็นที่เกี่ยวข้องของทั้ง ROC และการเรียกคืนที่แม่นยำสำหรับระบบการจำแนกประเภทหรือไม่? ฉันสนใจในการโต้แย้งสำหรับทั้งสองกรณีและไบนารี (เช่นเดียวกับทุกกรณี)

2
กำเนิดกับการเลือกปฏิบัติ
ฉันรู้ว่ากำเนิดหมายถึง "ตามP(x,y)P(x,y)P(x,y) " และหมายถึงการเลือกปฏิบัติ "ตามP(y|x)P(y|x)P(y|x) ," แต่ฉันสับสนในหลายจุด: Wikipedia (+ เพลงฮิตอื่น ๆ อีกมากมายบนเว็บ) จัดประเภทสิ่งต่าง ๆ เช่น SVMs และแผนผังการตัดสินใจว่าเป็นการเลือกปฏิบัติ แต่สิ่งเหล่านี้ไม่มีการตีความความน่าจะเป็น การเลือกปฏิบัติหมายความว่าอะไรที่นี่ การเลือกปฏิบัติเพียงมาหมายถึงสิ่งที่ไม่ได้กำเนิด? Naive Bayes (NB) มีกำเนิดเนื่องจากจับP(x|y)P(x|y)P(x|y)และP(y)P(y)P(y)และทำให้คุณมีP(x,y)P(x,y)P(x,y) (เช่นเดียวกับP(y|x)P(y|x)P(y|x) ) มันไม่สำคัญที่จะพูดพูดว่าการถดถอยโลจิสติก (เด็กโปสเตอร์ของแบบจำลองการเลือกปฏิบัติ) "กำเนิด" โดยการคำนวณP(x)P(x)P(x)ในรูปแบบที่คล้ายกัน (สมมติฐานความเป็นอิสระเดียวกันกับ NB เช่นP(x)=P(x0)P(x1)...P(xd)P(x)=P(x0)P(x1)...P(xd)P(x) = P(x_0) P(x_1) ... P(x_d)ที่ไหน MLE สำหรับP(xi)P(xi)P(x_i)เป็นเพียงความถี่)? ฉันรู้ว่าแบบจำลองที่มีการเลือกปฏิบัตินั้นมีแนวโน้มที่จะดีกว่าตัวแบบกำเนิด การใช้ประโยชน์จากการทำงานกับแบบจำลองทั่วไปได้อย่างไร ความสามารถในการสร้าง / จำลองข้อมูลได้ถูกอ้างถึง แต่เมื่อไหร่จะเกิดขึ้น? โดยส่วนตัวแล้วฉันมีประสบการณ์เกี่ยวกับการถดถอยการจัดประเภทความร่วมมือ การกรองข้อมูลที่มีโครงสร้างดังนั้นการใช้งานที่ไม่เกี่ยวข้องกับฉันที่นี่จะเป็นอย่างไร "การข้อมูลที่หายไป" อาร์กิวเมนต์ …

6
อะไรคือข้อได้เปรียบของ ReLU ผ่านฟังก์ชั่น sigmoid ในโครงข่ายประสาทเทียม?
สถานะของศิลปะของการไม่เชิงเส้นคือการใช้หน่วยเชิงเส้นแบบแก้ไข (ReLU) แทนฟังก์ชั่น sigmoid ในเครือข่ายประสาทลึก ข้อดีคืออะไร ฉันรู้ว่าการฝึกอบรมเครือข่ายเมื่อใช้ ReLU จะเร็วขึ้นและเป็นแรงบันดาลใจทางชีวภาพมากขึ้นข้อดีอื่น ๆ คืออะไร? (นั่นคือข้อเสียของการใช้ sigmoid)?

5
การฝึกอบรมกับชุดข้อมูลเต็มรูปแบบหลังจากการตรวจสอบข้าม?
เป็นความคิดที่ดีหรือไม่ที่จะทำการฝึกอบรมกับชุดข้อมูลแบบเต็มหลังจากการตรวจสอบข้าม ? นำไปทางอื่นมันก็โอเคในการฝึกอบรมกับทุกกลุ่มตัวอย่างในชุดของฉันและไม่สามารถที่จะตรวจสอบว่ามีการติดตั้งอุปกรณ์นี้โดยเฉพาะoverfits ? พื้นหลังบางส่วนเกี่ยวกับปัญหา: บอกว่าฉันมีครอบครัวของแบบจำลอง parametrized โดย\บอกฉันด้วยว่าฉันมีชุดของจุดข้อมูลและฉันทำการเลือกแบบจำลองด้วยการตรวจสอบความถูกต้องไขว้ของ k-fold เพื่อเลือกรูปแบบที่ดีที่สุดในการสรุปข้อมูล Nα⃗ α→\vec\alphaNNN สำหรับการเลือกแบบจำลองฉันสามารถทำการค้นหา (เช่นการค้นหากริด) บนโดยตัวอย่างเช่นการรันการตรวจสอบความถูกต้องไขว้กันของ k-fold สำหรับผู้สมัครแต่ละคน ในแต่ละเท่าในการตรวจสอบข้ามผมจบลงด้วยรูปแบบการเรียนรู้ \บีตาอัลฟ่าα⃗ α→\vec\alpha βαβα\beta_\alpha จุดของการตรวจสอบข้ามคือสำหรับแต่ละเท่านี้ฉันสามารถตรวจสอบว่ารูปแบบการเรียนรู้มีมากเกินไปโดยการทดสอบกับ "ข้อมูลที่มองไม่เห็น" ขึ้นอยู่กับผลลัพธ์ฉันสามารถเลือกโมเดลเรียนรู้สำหรับพารามิเตอร์ที่ได้รับการสรุปที่ดีที่สุดระหว่างการตรวจสอบข้ามในการค้นหากริด→ α bestβbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} ตอนนี้บอกว่าหลังจากที่เลือกรูปแบบที่ผมต้องการที่จะใช้ทุกจุดในชุดของฉันและหวังว่าจะได้เรียนรู้รูปแบบที่ดีขึ้น สำหรับวันนี้ผมสามารถใช้พารามิเตอร์ที่สอดคล้องกับรูปแบบที่ผมเลือกระหว่างการเลือกรูปแบบแล้วหลังการฝึกอบรมในชุดข้อมูลที่เต็มผมจะได้รับใหม่ได้เรียนรู้รูปแบบ{เต็ม} ปัญหาคือว่าถ้าฉันใช้คะแนนทั้งหมดในชุดข้อมูลของฉันสำหรับการฝึกอบรม ฉันไม่สามารถตรวจสอบว่าชุดการเรียนรู้แบบใหม่ชุดนี้กับข้อมูลที่มองไม่เห็นหรือไม่ วิธีที่ถูกต้องในการคิดเกี่ยวกับปัญหานี้คืออะไร?→ α b e s t β f u l l β f u l lNNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full}

4
ทางเลือกของ K ในการตรวจสอบข้าม K-fold
ฉันเคยใช้การตรวจสอบความถูกต้องไขว้ของ -fold สองสามครั้งในขณะนี้เพื่อประเมินประสิทธิภาพของอัลกอริทึมการเรียนรู้บางอย่าง แต่ฉันก็ยังงงอยู่เสมอว่าฉันควรเลือกค่าอย่างไรเคKKKKKK ฉันมักจะเห็นและใช้ค่าแต่ดูเหมือนว่าจะเป็นเรื่องที่ไม่ชอบใจสำหรับฉันและตอนนี้ฉันเพิ่งใช้โดยนิสัยแทนที่จะคิดมากกว่า สำหรับฉันดูเหมือนว่าคุณจะได้รับเมล็ดพันธุ์ที่ดีขึ้นในขณะที่คุณปรับปรุงคุณค่าของดังนั้นคุณควรทำให้ของคุณใหญ่มาก แต่ก็มีความเสี่ยงที่จะลำเอียง10 K KK=10K=10K = 10101010KKKKKK ฉันต้องการทราบว่ามูลค่าของควรขึ้นอยู่กับอะไรและฉันควรคิดอย่างไรเมื่อฉันประเมินอัลกอริทึมของฉัน มันเปลี่ยนบางอย่างหรือไม่ถ้าฉันใช้การตรวจสอบข้ามรุ่นที่มีการแบ่งชั้นหรือไม่KKK

7
อะไรคืออิทธิพลของ C ใน SVM ที่มีเคอร์เนลเชิงเส้น?
ขณะนี้ฉันกำลังใช้ SVM กับเคอร์เนลเชิงเส้นเพื่อจัดประเภทข้อมูลของฉัน ไม่มีข้อผิดพลาดในชุดฝึกอบรม ฉันลองหลายค่าสำหรับพารามิเตอร์ ( ) สิ่งนี้ไม่เปลี่ยนข้อผิดพลาดในชุดทดสอบ10 - 5 , … , 10 2CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 ตอนนี้ฉันสงสัยว่า: นี่เป็นข้อผิดพลาดที่เกิดจากการผูกทับทิมสำหรับlibsvmฉันที่ใช้ ( rb-libsvm ) หรือนี่เป็นการอธิบายทางทฤษฎีหรือไม่? พารามิเตอร์ควรเปลี่ยนประสิทธิภาพของตัวจําแนกเสมอ?CCC

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.