คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

1
Connectionist Temporal Classification (CTC) คืออะไร
ฉันต้องการทำโครงการรู้จำอักขระด้วยแสง (OCR) หลังจากทำวิจัยแล้วฉันเจอสถาปัตยกรรมที่น่าสนใจ: CNN + RNN + CTC ฉันคุ้นเคยกับเครือข่ายประสาทที่ซับซ้อน (CNN) และเครือข่ายประสาทที่เกิดขึ้นอีก (RNN) แต่ Connectionist Temporal Classification (CTC) คืออะไร ฉันต้องการคำอธิบายในแง่ของคนธรรมดา

1
ทำไมจึงเป็นสิ่งสำคัญที่จะรวมคำแก้ไขอคติสำหรับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึก
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมเพื่อการเรียนรู้ที่ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่Deep Learningโดย Begnio, Goodfellow และ Courtville: อดัมรวมการแก้ไขอคติกับการประมาณการช่วงเวลาที่สั่งซื้อครั้งแรก (คำว่าโมเมนตัม) และช่วงเวลาอันดับที่สอง (ไม่ระบุตัวตน) เพื่ออธิบายการเริ่มต้นที่จุดเริ่มต้น ดูเหมือนว่าเหตุผลหลักที่จะรวมถึงข้อตกลงการแก้ไขอคติเหล่านี้คือที่ใดก็เอาอคติของการเริ่มต้นของและ0mt=0mt=0m_t = 0vt=0vt=0v_t = 0 ฉันไม่แน่ใจ 100% ว่านั่นหมายถึงอะไร แต่ดูเหมือนว่าสำหรับฉันว่ามันอาจหมายความว่าช่วงเวลาที่ 1 และ 2 เริ่มต้นที่ศูนย์และเริ่มต้นที่ศูนย์อย่างใดอย่างหนึ่งแทนค่าที่ใกล้เคียงกับศูนย์ในทางที่ไม่ยุติธรรม ? แม้ว่าฉันจะชอบที่จะรู้ว่าสิ่งที่หมายถึงบิตที่แม่นยำมากขึ้นและวิธีการที่ทำลายการเรียนรู้ โดยเฉพาะอย่างยิ่งข้อดีของการเพิ่มประสิทธิภาพให้เกิดประโยชน์ในแง่ของการเพิ่มประสิทธิภาพ un-biasing คืออะไร? สิ่งนี้จะช่วยฝึกอบรมรูปแบบการเรียนรู้ลึกได้อย่างไร นอกจากนี้มันหมายความว่าอย่างไรเมื่อไม่มีอคติ ฉันคุ้นเคยกับความเบี่ยงเบนมาตรฐานที่เป็นกลาง แต่มันไม่ชัดเจนสำหรับฉันในความหมายนี้ในบริบทนี้ การแก้ไขอคตินั้นเป็นเรื่องใหญ่จริง ๆ หรือว่ามีบางสิ่งที่ overhyped ในกระดาษเพิ่มประสิทธิภาพของอดัม? แค่มีคนรู้ว่าฉันพยายามอย่างหนักที่จะเข้าใจกระดาษต้นฉบับ แต่ฉันได้อ่านและอ่านกระดาษต้นฉบับน้อยมาก ฉันคิดว่าคำถามเหล่านี้บางคำถามอาจตอบได้ แต่ฉันไม่สามารถแยกคำตอบได้

1
มิติข้อมูล VC บอกอะไรเราเกี่ยวกับการเรียนรู้อย่างลึกซึ้ง
ในการเรียนรู้เครื่องจักรขั้นพื้นฐานเราได้รับการสอน "กฎง่ายๆ" ต่อไปนี้: ก) ขนาดของข้อมูลของคุณควรมีขนาดอย่างน้อย 10 เท่าของขนาด VC ของชุดสมมติฐานของคุณ b) เครือข่ายประสาทเทียมที่มีการเชื่อมต่อ N มีมิติ VC ประมาณ N ดังนั้นเมื่อเครือข่ายนิวรัลการเรียนรู้อย่างลึกซึ้งได้พูดไปแล้วหลายล้านหน่วยนี่หมายความว่าเราควรจะพูดจุดข้อมูลนับพันล้านหรือไม่ คุณช่วยส่องแสงนี้ให้หน่อยได้ไหม?

4
ไม่มีการกำหนดมาตรฐานสำหรับหน่วยอคติในเครือข่ายประสาทเทียม
ตามบทช่วยสอนนี้เกี่ยวกับการเรียนรู้อย่างลึกซึ้งการลดน้ำหนัก (การทำให้เป็นมาตรฐาน) มักจะไม่นำมาใช้กับเงื่อนไขของอคติขทำไม ความสำคัญ (สัญชาตญาณ) ที่อยู่เบื้องหลังคืออะไร?

1
"ความสามารถ" ของรูปแบบการเรียนรู้ของเครื่องคืออะไร?
ฉันกำลังศึกษานี้กวดวิชาในแปรผัน Autoencoders โดยคาร์ล Doersch ในหน้าสองมันระบุ: หนึ่งในเฟรมเวิร์กดังกล่าวที่ได้รับความนิยมมากที่สุดคือ Variational Autoencoder [1, 3] ซึ่งเป็นหัวเรื่องของบทช่วยสอนนี้ สมมติฐานของรุ่นนี้อ่อนแอและการฝึกอบรมนั้นรวดเร็วผ่านการ backpropagation VAE ทำการประมาณค่า แต่ข้อผิดพลาดที่แนะนำโดยการประมาณนี้มีขนาดเล็กมากซึ่งเป็นแบบจำลองความจุสูง ลักษณะเหล่านี้มีส่วนทำให้ความนิยมเพิ่มขึ้นอย่างรวดเร็ว ฉันเคยอ่านข้อเรียกร้องเหล่านี้เกี่ยวกับโมเดลความจุสูงมาแล้ว แต่ดูเหมือนว่าฉันจะไม่พบคำจำกัดความที่ชัดเจนสำหรับมัน ฉันยังพบคำถาม stackoverflow ที่เกี่ยวข้องนี้แต่สำหรับฉันคำตอบนั้นไม่น่าพอใจมาก มีคำจำกัดความสำหรับความสามารถของแบบจำลองหรือไม่? คุณวัดได้ไหม

2
ความคลาดเคลื่อนเฉลี่ยสูงสุด (การกระจายระยะทาง)
ฉันมีชุดข้อมูลสองชุด (แหล่งข้อมูลและข้อมูลเป้าหมาย) ซึ่งเป็นไปตามการแจกแจงที่แตกต่างกัน ฉันกำลังใช้ MMD - นั่นคือการกระจายระยะทางแบบไม่อิงพารามิเตอร์ - เพื่อคำนวณการกระจายระยะขอบระหว่างข้อมูลต้นทางและเป้าหมาย แหล่งข้อมูล Xs ข้อมูลเป้าหมาย Xt การปรับเมทริกซ์ A * ข้อมูลที่คาดการณ์ไว้ Zs = A '* Xs และ Zt = A' Xt * MMD => ระยะทาง (P (Xs), P (Xt)) = | Mean (A'Xs) - mean (A ' Xt) | นั่นหมายถึง: ระยะห่างของการกระจายระหว่างข้อมูลต้นทางและปลายทางในพื้นที่ดั้งเดิมเท่ากับระยะห่างระหว่างวิธีการของแหล่งข้อมูลที่คาดการณ์และข้อมูลเป้าหมายในพื้นที่ฝังตัว ฉันมีคำถามเกี่ยวกับแนวคิดของ MMD ในสูตร …

5
วิธีจัดการกับซีรี่ส์หลายต่อหลายครั้งพร้อมกัน?
ฉันมีชุดข้อมูลรวมถึงความต้องการของผลิตภัณฑ์ต่าง ๆ (1200 ผลิตภัณฑ์) เป็นระยะเวลา 25 ระยะและฉันจำเป็นต้องทำนายความต้องการของแต่ละผลิตภัณฑ์สำหรับงวดถัดไป ตอนแรกฉันต้องการใช้ ARIMA และฝึกอบรมแบบจำลองสำหรับแต่ละผลิตภัณฑ์ แต่เนื่องจากจำนวนของผลิตภัณฑ์และการปรับพารามิเตอร์ (p, d, q) ทำให้ใช้เวลานานมากและไม่สามารถใช้งานได้จริง แนะนำให้ใช้การถดถอยที่ความต้องการก่อนหน้าเป็นตัวแปรอิสระ (Autoregressive) หรือไม่? ฉันจะรู้ได้อย่างไรว่ามีวิธีใดที่จะฝึกอบรมแบบจำลองเดียวสำหรับการทำนายความต้องการผลิตภัณฑ์ทั้ง 1200 รายการ ฉันจะขอบคุณถ้าคุณสามารถแนะนำห้องสมุดใด ๆ ใน Python เพราะฉันใช้ Python

4
ตัวแบบทำนายผล: สถิติไม่สามารถเอาชนะการเรียนรู้ของเครื่องได้? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ขณะนี้ฉันกำลังติดตามโปรแกรมหลักที่เน้นเรื่องสถิติ / เศรษฐมิติ ในอาจารย์ของฉันนักเรียนทุกคนต้องทำวิจัย 3 เดือน สัปดาห์ที่แล้วทุกกลุ่มต้องนำเสนองานวิจัยของพวกเขากับนักศึกษาปริญญาโทคนอื่น ๆ เกือบทุกกลุ่มมีการสร้างแบบจำลองทางสถิติและแบบจำลองการเรียนรู้ของเครื่องสำหรับหัวข้อการวิจัยและการคาดการณ์นอกเวลาตัวอย่างทุกครั้งจะมาพูดคุยเกี่ยวกับแบบจำลองการเรียนรู้ของเครื่องอย่างง่าย ๆ เอาชนะแบบจำลองทางสถิติที่ซับซ้อนมาก เดือน ไม่ว่าแบบจำลองทางสถิติของทุกคนจะดีแค่ไหนป่าสุ่มที่เรียบง่ายก็มีข้อผิดพลาดน้อยกว่าตัวอย่างมาก ฉันสงสัยว่านี่เป็นข้อสังเกตที่ยอมรับกันโดยทั่วไปหรือไม่? ถ้ามันมาจากการพยากรณ์นอกตัวอย่างไม่มีวิธีใดที่จะเอาชนะรูปแบบป่าเรียบง่ายหรือรูปแบบการไล่ระดับสีที่รุนแรง ทั้งสองวิธีนี้ง่ายมากที่จะใช้งานโดยใช้แพ็คเกจ R ในขณะที่โมเดลสถิติทั้งหมดที่ทุกคนสร้างขึ้นนั้นต้องการทักษะความรู้และความพยายามในการประเมินค่อนข้างมาก คุณคิดอย่างไรกับเรื่องนี้? ประโยชน์เพียงอย่างเดียวของตัวแบบเชิงสถิติ / เศรษฐมิติที่คุณได้รับการตีความคืออะไร? หรือโมเดลของเราไม่ดีพอที่พวกเขาล้มเหลวที่จะมีประสิทธิภาพสูงกว่าการทำนายป่าแบบสุ่มอย่างง่ายหรือไม่? มีเอกสารใดบ้างที่ตอบปัญหานี้?

1
ทำไมเราไม่ใช้อัตราการเรียนรู้ที่ไม่คงที่เพื่อไล่ระดับสีที่เหมาะสมสำหรับสิ่งอื่น ๆ จากนั้นจึงใช้โครงข่ายประสาทเทียม
วรรณกรรมการเรียนรู้ลึกนั้นเต็มไปด้วยเทคนิคที่ชาญฉลาดโดยใช้อัตราการเรียนรู้ที่ไม่คงที่ในการไล่ระดับสี สิ่งต่าง ๆ เช่นการสลายตัวแบบเอ็กซ์โพเนนเชียล, RMSprop, Adagrad ฯลฯ นั้นง่ายต่อการติดตั้งและมีอยู่ในชุดการเรียนรู้ลึก ๆ มีเหตุผลสำหรับสิ่งนี้หรือไม่? ถ้าเป็นที่คนไม่สนใจมีเหตุผลทำไมเราไม่ต้องดูแลนอกเครือข่ายประสาท?

2
มีเหตุผลทางคณิตศาสตร์สำหรับการโน้มน้าวใจในเครือข่ายประสาทเกินความได้เปรียบ?
ในโครงข่ายประสาทเทียม (CNN) เมทริกซ์ของตุ้มน้ำหนักในแต่ละขั้นตอนจะทำให้แถวและคอลัมน์พลิกเพื่อรับเมทริกซ์เคอร์เนลก่อนที่จะดำเนินการต่อไป นี่คือคำอธิบายในชุดวิดีโอของ Hugo Larochelle ที่นี่ : คอมพิวเตอร์แผนที่ที่ซ่อนอยู่จะสอดคล้องกับการทำบิดต่อเนื่องกับช่องจากชั้นก่อนหน้านี้โดยใช้เมทริกซ์เคอร์เนล [ ... ] และเคอร์เนลที่คำนวณจากน้ำหนักเมทริกซ์ซ่อนWijWijW_{ij}ที่เราพลิกแถวและ คอลัมน์ ถ้าเราจะเปรียบเทียบขั้นตอนการลดลงของการบิดคูณเมทริกซ์ปกติเช่นเดียวกับในประเภทอื่น ๆ NN, ความได้เปรียบจะเป็นคำอธิบายที่ชัดเจน อย่างไรก็ตามนี่อาจไม่ใช่การเปรียบเทียบที่ตรงประเด็นที่สุด ... ในการถ่ายภาพดิจิตอลการประมวลผลแอพลิเคชันของบิดของตัวกรองเพื่อภาพ ( นี้เป็นวิดีโอ youtube ที่ดีสำหรับการปฏิบัติปรีชา ) ดูเหมือนว่าเกี่ยวข้องกับ: ความจริงที่ว่าการโน้มน้าวนั้นเชื่อมโยงกันในขณะที่ความสัมพันธ์(ข้าม -)ไม่ใช่ ความเป็นไปได้ที่จะใช้ตัวกรองในโดเมนความถี่ของภาพเป็นการคูณเนื่องจากการสนทนาในโดเมนเวลาเทียบเท่ากับการคูณในโดเมนความถี่ ( ทฤษฎีบทการสนทนา ) ในสภาพแวดล้อมทางเทคนิคนี้โดยเฉพาะของ DSP correlationถูกกำหนดเป็น: F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F\circ I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x+i, y+j) ซึ่งเป็นผลรวมของเซลล์ทั้งหมดในผลิตภัณฑ์ Hadamard: F∘I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[−N,−N]I[x−N,y−N]⋮F[0,−N]I[x,y−N]⋮F[N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[−N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[N,0]I[x+N,y]⋯⋱⋯⋱⋯F[−N,N]I[x−N,y+N]⋮F[0,N]I[x,y+N]⋮F[N,N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∘I(x,y)=[F[−N,−N]I[x−N,y−N]⋯F[−N,0]I[x−N,y−N]⋯F[−N,N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,−N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,N]I[x,y+N]⋮⋱⋮⋱⋮F[N,−N]I[x+N,y−N]⋯F[N,0]I[x+N,y]⋯F[N,N]I[x+N,y+N]]\small F\circ I(x,y)=\Tiny\begin{bmatrix}F[-N,-N]\,I[x-N,y-N]&\cdots&F[-N,0]\,I[x-N,y-N]&\cdots& F[-N,N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,-N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ …

1
การชนกันของสองโลก: การใช้ ML สำหรับข้อมูลการสำรวจที่ซับซ้อน
ฉันพบปัญหาที่ดูเหมือนง่าย แต่ฉันไม่พบวิธีแก้ไขที่เหมาะสมเป็นเวลาหลายสัปดาห์แล้ว ฉันมีข้อมูลโพล / สำรวจค่อนข้างมาก (ผู้ตอบนับหมื่นพูด 50k ต่อชุดข้อมูล) มาจากสิ่งที่ฉันหวังว่าจะเรียกว่าแบบสำรวจที่ออกแบบมาอย่างซับซ้อนพร้อมกับน้ำหนักการแบ่งชั้นเส้นทางที่เฉพาะเจาะจงและอื่น ๆ สำหรับผู้ตอบแต่ละคนมีตัวแปรหลายร้อยตัวเช่นกลุ่มประชากร (อายุภูมิภาค ... ) และจากนั้นส่วนใหญ่เป็นตัวแปรไบนารี (อย่างมากที่สุดหมวดหมู่) ฉันมาจากพื้นหลังวิทยาศาสตร์คอมพิวเตอร์ / การเรียนรู้ของเครื่องจักรและฉันต้องเรียนรู้มากมายเกี่ยวกับสถิติและวิธีการสำรวจแบบดั้งเดิม ตอนนี้ฉันต้องการใช้การเรียนรู้ของเครื่องคลาสสิกกับข้อมูลเหล่านั้น (เช่นการทำนายค่าที่หายไปบางส่วนสำหรับกลุ่มย่อยของผู้ตอบแบบสอบถาม - โดยทั่วไปเป็นงานการจำแนกประเภท) แต่ถือและดูฉันไม่สามารถหาวิธีที่เหมาะสมทำ ฉันควรรวม stratas น้ำหนักหรือการกำหนดเส้นทางเหล่านั้นอย่างไร (เช่น: หากคำถาม 1 ตอบด้วยตัวเลือก 2 ถามคำถาม 3 หรือข้ามไป) เพียงใช้โมเดลของฉัน (ต้นไม้การถดถอยโลจิสติก SVM, XGBoost ... ) ดูเหมือนว่าอันตราย (และพวกเขาล้มเหลวในกรณีส่วนใหญ่) เนื่องจากพวกเขามักจะถือว่าข้อมูลมาจากตัวอย่างแบบง่ายหรือ iid อย่างน้อยหลายวิธีมีน้ำหนัก แต่ก็ไม่ได้ช่วยอะไรมาก นอกจากนี้ยังไม่มีความชัดเจนว่าฉันควรรวมคลาสที่ไม่สมดุลและน้ำหนักที่กำหนดโดยคำจำกัดความของการสำรวจเข้าด้วยกันอย่างไรโดยไม่พูดถึงเรื่องการแบ่งชั้น นอกจากนี้แบบจำลองผลลัพธ์ควรได้รับการสอบเทียบอย่างดี - …

2
เมื่อพิจารณาจากโมเดลการถดถอยเชิงเส้นสองแบบ
ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องที่วิทยาลัยของฉัน หนึ่งในคำถามหนึ่งคำถามนี้ถูกถาม รุ่น 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon รุ่น 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon รุ่นใดที่เหมาะกับข้อมูลที่ดีกว่า (สมมติว่าข้อมูลสามารถสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้น) คำตอบที่ถูกต้อง (ตามอาจารย์) ก็คือทั้งสองรุ่นจะทำงานได้ดีเท่ากัน อย่างไรก็ตามฉันเชื่อว่ารุ่นแรกจะเหมาะกว่า นี่คือเหตุผลที่อยู่เบื้องหลังคำตอบของฉัน รุ่นที่สองซึ่งสามารถเขียนใหม่เป็น , α = θ + θ 2จะไม่เหมือนกับรุ่นแรก อันที่จริงแล้วαเป็นพาราโบลาและดังนั้นจึงมีค่าต่ำสุด ( - 0.25ในกรณีนี้) ด้วยเหตุนี้ช่วงของθในรุ่นแรกจึงมากกว่าช่วงของαในรุ่นที่สอง ดังนั้นหากข้อมูลเป็นเช่นนั้นแบบที่ดีที่สุดมีความชันน้อยกว่า- 0.25โมเดลที่สองจะทำงานได้ไม่ดีมากเมื่อเทียบกับรุ่นแรก อย่างไรก็ตามในกรณีที่ความลาดเอียงของแบบที่ดีที่สุดมากกว่าαx+ϵαx+ϵ \alpha x + \epsilon …

3
ขั้นตอนวิธีการเรียนรู้วงดนตรีขั้นสุดยอดในงานการจดจำรูปแบบ?
โครงสร้างของคำถามนี้มีดังต่อไปนี้:ในตอนแรกฉันให้แนวคิดของการเรียนรู้ทั้งมวลฉันยังจัดทำรายการของการจดจำรูปแบบจากนั้นฉันก็ยกตัวอย่างของอัลกอริทึมการเรียนรู้ทั้งมวลและในที่สุดก็แนะนำคำถามของฉัน ผู้ที่ไม่ต้องการข้อมูลเสริมทั้งหมดอาจแค่ดูหัวข้อข่าวและตรงไปที่คำถามของฉัน การเรียนรู้ทั้งมวลคืออะไร ตามบทความ Wikipedia : ในสถิติและการเรียนรู้ของเครื่องจักรวิธีการทั้งมวลใช้อัลกอริทึมการเรียนรู้หลายอย่างเพื่อให้ได้ประสิทธิภาพการทำนายที่ดีกว่าที่จะได้รับจากอัลกอริทึมการเรียนรู้ที่เป็นส่วนประกอบใด ๆ เพียงอย่างเดียว ซึ่งแตกต่างจากชุดสถิติในกลศาสตร์เชิงสถิติซึ่งโดยทั่วไปแล้วจะไม่มีที่สิ้นสุดชุดการเรียนรู้ของเครื่องหมายถึงชุดรูปแบบทางเลือกที่ จำกัด ของคอนกรีตเท่านั้น แต่โดยทั่วไปแล้วจะช่วยให้โครงสร้างมีความยืดหยุ่นมากขึ้น ตัวอย่างของงานการจดจำรูปแบบ: การรู้จำอักขระด้วยแสง การจดจำบาร์โค้ด การจดจำป้ายทะเบียนรถ การตรวจจับใบหน้า การรู้จำเสียง การจดจำรูปภาพ การจำแนกเอกสาร ตัวอย่างของอัลกอริทึมการเรียนรู้ทั้งมวล: ต่อไปนี้ขั้นตอนวิธีการเรียนรู้ชุดใช้สำหรับงานพีอาร์ (ตามวิกิพีเดีย) Ensemble learning algorithm (การควบคุม meta-algorithms สำหรับการรวมอัลกอริทึมการเรียนรู้หลายตัวเข้าด้วยกัน): Boosting (การเรียนรู้ของเครื่องโดยใช้เมตาดาต้าอัลกอริธึมสำหรับการลดอคติและความแปรปรวนในการเรียนรู้แบบมีผู้ควบคุมและอัลกอริทึมการเรียนรู้ของเครื่องซึ่งเปลี่ยนผู้เรียนที่อ่อนแอไปเป็นคนที่แข็งแกร่ง) การรวม Bootstrap ("การห่อ ") (เครื่องเรียนรู้ชุดเมตาอัลกอริทึมที่ออกแบบมาเพื่อปรับปรุงเสถียรภาพและความแม่นยำของอัลกอริทึมการเรียนรู้ของเครื่องที่ใช้ในการจำแนกทางสถิติและการถดถอย) ค่าเฉลี่ยของ Ensemble (กระบวนการสร้างหลายรุ่นและรวมเข้าด้วยกันเพื่อสร้างเอาต์พุตที่ต้องการซึ่งต่างจากการสร้างเพียงหนึ่งโมเดลบ่อยครั้งที่ชุดของโมเดลทำงานได้ดีกว่าโมเดลใด ๆ ก็ตามเนื่องจากข้อผิดพลาดต่างๆของโมเดล "เฉลี่ยหมด" ) ส่วนผสมของผู้เชี่ยวชาญการผสมผสานของผู้เชี่ยวชาญ การใช้งานที่แตกต่างกัน ตระการตาของโครงข่ายประสาทเทียม (ชุดของโมเดลโครงข่ายประสาทเทียมที่ใช้ตัดสินใจโดยเฉลี่ยผลลัพธ์ของแบบจำลองแต่ละตัว) ป่าสุ่ม (วิธีการเรียนรู้ทั้งมวลสำหรับการจำแนกการถดถอยและงานอื่น …

2
มาตรฐานประสิทธิภาพสำหรับ MCMC
เคยมีการศึกษาขนาดใหญ่ของวิธีการ MCMC ที่เปรียบเทียบประสิทธิภาพของอัลกอริทึมที่แตกต่างกันหลายชุดในชุดทดสอบความหนาแน่นหรือไม่? ฉันกำลังคิดถึงบางสิ่งที่เทียบเท่ากับกระดาษของ Rios และ Sahinidis (2013) ซึ่งเป็นการเปรียบเทียบอย่างละเอียดเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพกล่องดำแบบไร้อนุพันธ์จำนวนมากในฟังก์ชั่นการทดสอบหลายชั้น สำหรับ MCMC สามารถประเมินประสิทธิภาพได้เช่นจำนวนตัวอย่างที่มีประสิทธิภาพ (ESS) ต่อการประเมินความหนาแน่นหรือตัวชี้วัดอื่น ๆ ที่เหมาะสม ความคิดเห็นไม่กี่: ฉันขอขอบคุณที่ประสิทธิภาพจะขึ้นอยู่กับรายละเอียดของเป้าหมาย PDF แต่ข้อโต้แย้งที่คล้ายกัน (อาจไม่เหมือนกัน) สำหรับการเพิ่มประสิทธิภาพและยังมีฟังก์ชั่นมาตรฐานห้องสวีทการแข่งขันเอกสารและอื่น ๆ ที่เกี่ยวข้องกับการเพิ่มประสิทธิภาพการเปรียบเทียบ อัลกอริทึม นอกจากนี้มันเป็นความจริงที่ MCMC แตกต่างจากการปรับให้เหมาะสมเมื่อเปรียบเทียบกับการดูแลและปรับแต่งที่จำเป็นจากผู้ใช้ อย่างไรก็ตามขณะนี้มีวิธีการ MCMC หลายวิธีที่ต้องการการปรับแต่งเพียงเล็กน้อยหรือไม่มีเลย: วิธีการปรับตัวในเฟสเบิร์นอิน, ในระหว่างการสุ่มตัวอย่าง, หรือหลายรัฐ (หรือเรียกว่าensemble ) วิธีการ (เช่นEmcee ) ข้อมูลจากโซ่อื่น ๆ เพื่อเป็นแนวทางในการสุ่มตัวอย่าง ฉันสนใจเป็นพิเศษในการเปรียบเทียบระหว่างวิธีมาตรฐานและหลายรัฐ (aka ensemble) สำหรับคำจำกัดความของหลายรัฐโปรดดูมาตรา 30.6 ของหนังสือของ MacKay : …

2
การลดพลังงานในการเรียนรู้ของเครื่องคืออะไร
ฉันกำลังอ่านเกี่ยวกับการปรับให้เหมาะสมสำหรับปัญหาที่ไม่ถูกต้องในสายตาคอมพิวเตอร์และพบคำอธิบายด้านล่างเกี่ยวกับการปรับให้เหมาะสมใน Wikipedia สิ่งที่ฉันไม่เข้าใจคือทำไมพวกเขาเรียกการเพิ่มประสิทธิภาพนี้ "ลดพลังงาน " ใน Computer Vision ปัญหาการปรับให้เหมาะสมสามารถแสดงได้ด้วยวิธีต่อไปนี้: รับ: ฟังก์ชั่นจากบางชุดf:A→Rf:A→Rf: A \to Rเป็นจำนวนจริงAAA ขอ: องค์ประกอบในAที่f ( x 0 ) ≤ f ( x )สำหรับxทั้งหมดในA ("ย่อเล็กสุด") หรือเช่นนั้นf ( x 0 ) ≥ f ( x )สำหรับxทั้งหมดในA (" สูงสุด ")x0x0x_0AAAf(x0)≤f(x)f(x0)≤f(x)f(x_0) ≤ f(x)xxxAAAf(x0)≥f(x)f(x0)≥f(x)f(x_0) ≥ f(x)xxxAAA สูตรดังกล่าวเรียกว่าปัญหาการเพิ่มประสิทธิภาพหรือปัญหาการเขียนโปรแกรมทางคณิตศาสตร์ (คำที่ไม่เกี่ยวข้องโดยตรงกับการเขียนโปรแกรมคอมพิวเตอร์ แต่ยังคงใช้งานอยู่เช่นในการเขียนโปรแกรมเชิงเส้น - ดูประวัติด้านล่าง) ปัญหาที่เกิดขึ้นจริงในทางทฤษฎีและทางทฤษฎีหลายอย่างอาจเป็นแบบจำลองในกรอบทั่วไปนี้ ปัญหาที่เกิดขึ้นจากการใช้เทคนิคนี้ในสาขาฟิสิกส์และการมองเห็นด้วยคอมพิวเตอร์อาจหมายถึงเทคนิคที่เป็นการลดพลังงานโดยการพูดถึงค่าของฟังก์ชั่นแทนค่าพลังงานของระบบที่ถูกจำลองfff

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.