คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
เมื่อใดจึงควรใช้เครือข่ายแบบเบย์ผ่านวิธีการเรียนรู้ของเครื่องอื่น ๆ ?
ฉันคาดว่าอาจไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้ แต่ฉันเคยใช้อัลกอริทึมการเรียนรู้ของเครื่องจักรมาหลายครั้งในอดีตและพยายามเรียนรู้เกี่ยวกับ Bayesian Networks ฉันต้องการที่จะเข้าใจภายใต้สถานการณ์ใดหรือคุณต้องการเลือกใช้เครือข่ายแบบเบย์ผ่านวิธีการอื่น ๆ สำหรับปัญหาประเภทใด

1
อธิบายขั้นตอนของอัลกอริธึม LLE (การฝังเชิงเส้นในพื้นที่) ไหม
ฉันเข้าใจหลักการพื้นฐานที่อยู่เบื้องหลังอัลกอริทึมสำหรับ LLE ประกอบด้วยสามขั้นตอน การค้นหาย่านที่คุ้นเคยของแต่ละจุดข้อมูลด้วยตัวชี้วัดบางอย่างเช่น k-nn ค้นหาน้ำหนักสำหรับแต่ละเพื่อนบ้านซึ่งแสดงถึงผลกระทบที่เพื่อนบ้านมีต่อจุดข้อมูล สร้างการฝังข้อมูลในระดับต่ำตามน้ำหนักที่คำนวณ แต่คำอธิบายทางคณิตศาสตร์ของขั้นตอนที่ 2 และ 3 นั้นสร้างความสับสนในหนังสือเรียนและแหล่งข้อมูลออนไลน์ทั้งหมดที่ฉันได้อ่าน ฉันไม่สามารถให้เหตุผลว่าทำไมจึงใช้สูตรนี้ ขั้นตอนเหล่านี้มีการปฏิบัติอย่างไรในทางปฏิบัติ มีวิธีที่เข้าใจง่าย ๆ ในการอธิบายสูตรทางคณิตศาสตร์ที่ใช้หรือไม่? ข้อมูลอ้างอิง: http://www.cs.nyu.edu/~roweis/lle/publications.html

3
เครื่องจักร Boltzmann ที่ จำกัด สำหรับการถดถอย
ผมติดตามคำถามที่ผมถามก่อนหน้านี้เมื่อRBMs ฉันเห็นวรรณกรรมจำนวนมากที่อธิบายถึงพวกเขา แต่ไม่มีใครพูดถึงการถดถอยได้ (ไม่ใช่การจำแนกด้วยข้อมูลที่มีป้ายกำกับ) ฉันรู้สึกว่ามันใช้สำหรับข้อมูลที่ไม่มีป้ายกำกับเท่านั้น มีทรัพยากรใดบ้างสำหรับจัดการกับการถดถอย หรือมันง่ายเหมือนการเพิ่มเลเยอร์อื่นที่ด้านบนของเลเยอร์ที่ซ่อนอยู่และรันอัลกอริทึมซีดีขึ้นและลง? ขอบคุณมากล่วงหน้า

2
การค้นหาคุณสมบัติที่ดีที่สุดในรูปแบบการโต้ตอบ
ฉันมีรายการโปรตีนพร้อมค่าคุณลักษณะ ตารางตัวอย่างมีลักษณะดังนี้: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 แถวคือโปรตีนและคอลัมน์เป็นคุณสมบัติ ฉันยังมีรายการโปรตีนที่มีปฏิสัมพันธ์เช่นกัน ตัวอย่างเช่น Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 ปัญหา : สำหรับการวิเคราะห์เบื้องต้นฉันต้องการทราบว่าคุณลักษณะใดที่มีส่วนร่วมมากที่สุดสำหรับการโต้ตอบของโปรตีน ความเข้าใจของฉันคือโดยปกติต้นไม้การตัดสินใจสามารถใช้เพื่อให้ได้คุณลักษณะที่สำคัญที่สุดตามเอนโทรปี แต่ฉันไม่แน่ใจว่าจะขยายไปยังคู่โปรตีนได้อย่างไร (เช่นปฏิกิริยา) มีวิธีการสำหรับวัตถุประสงค์ดังกล่าวหรือไม่?

2
มีปัญหากับ e1071 libsvm?
ฉันมีชุดข้อมูลที่มีสองคลาสที่ทับซ้อนกันเจ็ดจุดในแต่ละชั้นคะแนนอยู่ในพื้นที่สองมิติ ใน R และฉันกำลังเรียกใช้svmจากe1071แพคเกจเพื่อสร้างการแยกไฮเปอร์เพลนสำหรับคลาสเหล่านี้ ฉันใช้คำสั่งต่อไปนี้: svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) ที่xมีจุดข้อมูลของฉันและyมีป้ายกำกับของพวกเขา คำสั่งส่งกลับ svm-object ซึ่งฉันใช้ในการคำนวณพารามิเตอร์ (เวกเตอร์ปกติ) และ (สกัดกั้น) ของการแยกไฮเปอร์เพลนขwwwbbb รูปที่ (a) ด้านล่างแสดงคะแนนของฉันและไฮเปอร์เพลนที่ส่งคืนโดยsvmคำสั่ง จุดสีน้ำเงินที่มีสัญลักษณ์ O แสดงที่มาของพื้นที่เส้นประแสดงขอบระยะทางวงกลมคือจุดที่ไม่เป็นศูนย์ (ตัวแปรสแลค)ξξ\xi รูปที่ (b) แสดงไฮเปอร์เพลนอีกอันหนึ่งซึ่งเป็นการแปลแบบขนานที่ดีที่สุดด้วย 5 (b_new = b_optimal - 5) ไม่ยากที่จะเห็นว่าสำหรับไฮเปอร์เพลนนี้ฟังก์ชันวัตถุประสงค์ (ซึ่งถูกย่อโดยการจำแนกประเภท C-svm) จะมีค่าต่ำกว่าไฮเปอร์เพลนที่ดีที่สุดที่แสดงในรูป ( ก) ดังนั้นดูเหมือนว่าจะมีปัญหากับฟังก์ชั่นนี้หรือไม่? …

2
ทำไมคุณสมบัติที่ได้รับมาใช้ในโครงข่ายประสาทเทียม?
ตัวอย่างเช่นหนึ่งต้องการที่จะทำนายราคาบ้านและมีสองคุณสมบัติการป้อนข้อมูลความยาวและความกว้างของบ้าน บางครั้งหนึ่งยังมีคุณสมบัติอินพุตพหุนามที่ได้มาของเช่นพื้นที่ซึ่งเป็นความกว้าง * ความยาว 1) อะไรคือจุดรวมของฟีเจอร์ที่ได้รับ? เครือข่ายประสาทไม่ควรเรียนรู้การเชื่อมต่อระหว่างความยาวความกว้างและราคาระหว่างการฝึกอบรมหรือไม่? เหตุใดคุณสมบัติที่สามพื้นที่ซ้ำซ้อนไม่ได้ นอกจากนี้บางครั้งฉันก็เห็นว่าผู้คนเรียกใช้อัลกอริทึมการคัดเลือกทางพันธุกรรมในคุณสมบัติการป้อนข้อมูลเพื่อลดจำนวนของพวกเขา 2) อะไรคือจุดลดคุณสมบัติการป้อนข้อมูลหากทุกอย่างมีข้อมูลที่มีประโยชน์ เครือข่ายประสาทควรกำหนดน้ำหนักที่เหมาะสมให้กับแต่ละคุณสมบัติอินพุตตามความสำคัญหรือไม่ จุดประสงค์ของการใช้ขั้นตอนวิธีคัดเลือกพันธุกรรมคืออะไร

1
Kinect ใช้ป่าสุ่มอย่างไร
ฉันอ่านในเว็บไซต์นี้ซึ่งเห็นได้ชัดว่า Kinect ใช้อัลกอริทึมป่าสุ่มสำหรับการเรียนรู้ของเครื่องในทางใดทางหนึ่ง ใครสามารถอธิบายสิ่งที่มันใช้ป่าสุ่มสำหรับและวิธีการทำงานของพวกเขา?


1
สามารถรองรับเครื่องเวกเตอร์ในข้อมูลขนาดใหญ่ได้หรือไม่?
ด้วยความรู้ที่ จำกัด ที่ฉันมีใน SVM มันเป็นสิ่งที่ดีสำหรับเมทริกซ์ข้อมูลแบบสั้นและอ้วน (มีคุณสมบัติมากมายและไม่มากเกินไป) แต่ไม่ใช่สำหรับข้อมูลขนาดใหญ่XXX ผมเข้าใจเหตุผลหนึ่งคือ Kernel Matrix เป็นn × nเมทริกซ์ที่nคือจำนวนของอินสแตนซ์ในข้อมูล ถ้าเรามีการพูด, 100K ข้อมูลเคอร์เนลเมทริกซ์Kจะมี10 10องค์ประกอบและอาจต้องใช้เวลาความทรงจำที่ ~ 80GKKKn × nn×nn \times nnnnKKK1010101010^{10} มีการดัดแปลง SVM ที่สามารถใช้กับข้อมูลขนาดใหญ่ได้หรือไม่? (พูดในระดับคะแนนข้อมูล 100K ถึง 1M ใช่ไหม)

2
Keras: ทำไมสูญเสียลดลงในขณะที่ val_loss เพิ่มขึ้น?
ฉันตั้งค่าการค้นหากริดสำหรับกลุ่มของพารามิเตอร์ ฉันกำลังพยายามหาพารามิเตอร์ที่ดีที่สุดสำหรับ Keras neural net ที่จัดหมวดหมู่แบบไบนารี เอาต์พุตเป็น 1 หรือ 0 มีคุณลักษณะประมาณ 200 รายการ เมื่อฉันทำการค้นหากริดฉันได้รับแบบจำลองมากมายและพารามิเตอร์ของพวกเขา แบบจำลองที่ดีที่สุดมีพารามิเตอร์เหล่านี้: Epochs : 20 Batch Size : 10 First Activation : sigmoid Learning Rate : 1 First Init : uniform และผลลัพธ์สำหรับโมเดลนั้นคือ: loss acc val_loss val_acc 1 0.477424 0.768542 0.719960 0.722550 2 0.444588 0.788861 0.708650 0.732130 3 …

1
โดยทั่วไปแล้วการอนุมานทำได้ยากกว่าการคาดการณ์หรือไม่
คำถามของฉันมาจากข้อเท็จจริงต่อไปนี้ ฉันได้อ่านโพสต์บล็อกการบรรยายรวมถึงหนังสือเกี่ยวกับการเรียนรู้ของเครื่อง ความประทับใจของฉันคือผู้ปฏิบัติงานการเรียนรู้ด้วยเครื่องดูเหมือนจะไม่สนใจสิ่งต่าง ๆ ที่นักสถิติ / นักเศรษฐศาสตร์สนใจ โดยเฉพาะผู้ปฏิบัติงานการเรียนรู้ด้วยเครื่องเน้นความแม่นยำในการทำนายมากกว่าการอนุมาน ตัวอย่างหนึ่งเกิดขึ้นเมื่อฉันเรียนรู้การใช้งานเครื่องจักรของ Andrew Ng บน Coursera เมื่อเขาพูดถึง Simple Linear Model เขาไม่ได้พูดถึงคุณสมบัติ BLUE ของตัวประมาณค่าหรือวิธีการที่ heteroskedasticity เขามุ่งเน้นไปที่การนำทางลาดลงและแนวคิดของการตรวจสอบข้าม / เส้นโค้ง ROC หัวข้อเหล่านี้ไม่ได้กล่าวถึงในชั้นเรียนเศรษฐมิติ / สถิติของฉัน อีกตัวอย่างหนึ่งเกิดขึ้นเมื่อฉันเข้าร่วมการแข่งขัน Kaggle ฉันอ่านรหัสและความคิดของคนอื่น ส่วนใหญ่ของผู้เข้าร่วมเพียงแค่โยนทุกอย่างลงใน SVM / random forest / XGBoost ยังมีอีกตัวอย่างหนึ่งที่เกี่ยวกับการเลือกแบบจำลองตามลำดับ เทคนิคนี้ใช้กันอย่างแพร่หลายอย่างน้อยออนไลน์และ Kaggle หนังสือเรียนรู้ด้วยเครื่องจักรคลาสสิกจำนวนมากยังครอบคลุมเช่นการเรียนรู้สถิติเบื้องต้น อย่างไรก็ตามตามคำตอบนี้ (ซึ่งค่อนข้างน่าเชื่อถือ) การเลือกรุ่นแบบขั้นตอนต้องเผชิญกับปัญหาจำนวนมากโดยเฉพาะอย่างยิ่งเมื่อมันลงมาที่ "การค้นพบรูปแบบที่แท้จริง" ดูเหมือนว่ามีความเป็นไปได้เพียงสองอย่างเท่านั้น: ผู้เรียนรู้การเรียนรู้ด้วยเครื่องทั้งสองไม่รู้จักปัญหาแบบขั้นตอนหรือพวกเขาทำ แต่พวกเขาไม่สนใจ ดังนั้นนี่คือคำถามของฉัน: …

1
การเชื่อมต่อระหว่าง (d-prime) และ AUC (Area Under the ROC Curve); สมมติฐานพื้นฐาน
ในการเรียนรู้ของเครื่องเราอาจใช้พื้นที่ใต้เส้นโค้ง ROC (มักเรียกว่าAUCย่อหรือ AUROC) เพื่อสรุปว่าระบบสามารถแยกแยะระหว่างสองประเภทได้ดีเพียงใด ในทฤษฎีการตรวจจับสัญญาณมักใช้ (ดัชนีความไว)เพื่อวัตถุประสงค์ที่คล้ายกัน ทั้งสองมีความเกี่ยวข้องใกล้ชิดและผมเชื่อว่าพวกเขาจะเทียบเท่ากับแต่ละอื่น ๆ หากสมมติฐานบางอย่างมีความพึงพอใจd′d′d' การคำนวณมักจะนำเสนอโดยยึดตามการแจกแจงแบบปกติสำหรับการแจกแจงสัญญาณ (ดูลิงค์วิกิพีเดียด้านบนเป็นต้น) การคำนวณโค้ง ROC ไม่ได้ทำให้สมมติฐานนี้: มันใช้กับตัวจําแนกใด ๆ ที่ส่งออกเกณฑ์การตัดสินใจอย่างต่อเนื่องมูลค่าที่สามารถเกณฑ์d′d′d' วิกิพีเดียกล่าวว่าเทียบเท่ากับ1 ดูเหมือนว่าจะถูกต้องถ้าสมมติฐานของทั้งสองมีความพึงพอใจ; แต่ถ้าสมมติฐานไม่เหมือนกันมันไม่ใช่ความจริงสากล 2 AUC - 1d′d′d'2AUC−12AUC−12 \text{AUC} - 1 มันยุติธรรมหรือไม่ที่จะแสดงลักษณะของความแตกต่างของข้อสันนิษฐานเนื่องจาก "AUC ทำให้สมมติฐานน้อยลงเกี่ยวกับการแจกแจงพื้นฐาน" หรือเป็นใช้กันอย่างแพร่หลายเช่นเดียวกับ AUC แต่เป็นเพียงการปฏิบัติทั่วไปที่ผู้ใช้มีแนวโน้มที่จะใช้การคำนวณที่ถือว่าการแจกแจงปกติ? มีข้อแตกต่างอื่น ๆ ในสมมติฐานพื้นฐานที่ฉันพลาดหรือไม่?d ′d′d′d'd′d′d'

1
การเลือกขนาดของมินิบัสที่เหมาะสมสำหรับการไล่ระดับสีแบบสุ่ม (SGD)
มีวรรณกรรมใดบ้างที่ตรวจสอบการเลือกขนาดของมินิบัสเมื่อทำการโคตรลาดลงแบบสุ่ม? จากประสบการณ์ของฉันดูเหมือนว่าจะเป็นทางเลือกเชิงประจักษ์ซึ่งมักพบผ่านการตรวจสอบข้ามหรือการใช้กฎง่ายๆ เป็นความคิดที่ดีหรือไม่ที่จะเพิ่มขนาดมินิบัสช้าลงเนื่องจากข้อผิดพลาดในการตรวจสอบความถูกต้องลดลง? สิ่งนี้จะมีผลกระทบอะไรกับข้อผิดพลาดการวางนัยทั่วไป? ฉันดีกว่าถ้าใช้มินิบัสขนาดเล็กมากและอัปเดตโมเดลของฉันนับแสนครั้งหรือไม่ ฉันจะดีกว่าด้วยจำนวนที่สมดุลระหว่างที่เล็กมากและแบตช์หรือไม่? ฉันควรปรับขนาดของรถมินิบัสตามขนาดของชุดข้อมูลหรือจำนวนคุณลักษณะที่คาดหวังภายในชุดข้อมูลหรือไม่ เห็นได้ชัดว่าฉันมีคำถามมากมายเกี่ยวกับการใช้แผนการเรียนรู้ของมินิบัส น่าเสียดายที่เอกสารส่วนใหญ่ที่ฉันอ่านไม่ได้ระบุวิธีการที่พวกเขาเลือกพารามิเตอร์นี้ ฉันเคยประสบความสำเร็จจากนักเขียนเช่น Yann LeCun โดยเฉพาะจาก Tricks of the Trade คอลเลกชันของเอกสาร อย่างไรก็ตามฉันยังไม่เห็นคำถามเหล่านี้ตอบอย่างเต็มที่ ไม่มีใครมีคำแนะนำสำหรับเอกสารหรือคำแนะนำเกี่ยวกับเกณฑ์ที่ฉันสามารถใช้เพื่อกำหนดขนาดรถมินิบัสที่ดีเมื่อพยายามเรียนรู้คุณสมบัติ

4
กระบวนการแบบเกาส์: วิธีใช้ GPML สำหรับเอาท์พุทหลายมิติ
มีวิธีดำเนินการ Gaussian Process Regression ในเอาต์พุตหลายมิติ (อาจสัมพันธ์กัน) โดยใช้GPMLหรือไม่ ในสคริปต์ตัวอย่าง ฉันสามารถค้นหาตัวอย่าง 1D เท่านั้น คำถามที่คล้ายกันใน CV ที่โหม่งกรณีของการป้อนข้อมูลหลายมิติ ฉันอ่านหนังสือเพื่อดูว่าฉันสามารถหาอะไรได้บ้าง ในบทที่ 9ของหนังสือเล่มนี้ (มาตรา 9.1) พวกเขาได้กล่าวถึงกรณีของการส่งออกหลายรายการ พวกเขาได้กล่าวถึงสองสามวิธีในการจัดการกับสิ่งนี้การใช้เสียงที่มีความสัมพันธ์และทูโกคุริง (มีความสัมพันธ์กันมาก่อน) ฉันยังไม่รู้วิธีการรวมแนวคิดเหล่านี้เข้ากับกรอบงาน GPML นอกจากนี้ยังมีไลบรารี / กรอบ GP อื่น ๆ ที่รองรับเอาต์พุตหลายมิติหรือไม่


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.