คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

4
การปรับขนาดและการปรับมาตรฐาน
ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng และไม่สามารถรับคำตอบสำหรับคำถามนี้ได้หลังจากพยายามหลายครั้ง กรุณาช่วยแก้ปัญหานี้แม้ว่าฉันจะผ่านระดับ สมมติว่านักเรียนเข้าเรียนในชั้นเรียนและชั้นเรียนมีการสอบกลางภาคและการสอบปลายภาค คุณได้รวบรวมชุดข้อมูลของคะแนนของพวกเขาในการสอบทั้งสองซึ่งเป็นดังนี้:m = 4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 คุณต้องการใช้การถดถอยพหุนามเพื่อทำนายคะแนนสอบขั้นสุดท้ายของนักเรียนจากคะแนนสอบกลางภาค หากคุณต้องการให้พอดีกับแบบจำลองของรูปแบบโดยที่คือคะแนนกลางภาคและคือ (คะแนนกลางภาค) ^ 2 นอกจากนี้คุณวางแผนที่จะใช้การปรับทั้งฟีเจอร์ (หารด้วย "max-min" หรือช่วงของฟีเจอร์) และหมายถึงการทำให้เป็นมาตรฐานx 1 x 2ชั่วโมงθ( x ) = θ0+ θ1x1+ θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 …

3
ดำเนินการถดถอยเชิงเส้น แต่บังคับให้โซลูชันหาจุดข้อมูลบางจุด
ฉันรู้วิธีดำเนินการถดถอยเชิงเส้นในชุดของคะแนน นั่นคือฉันรู้วิธีปรับให้พอดีกับพหุนามที่ฉันเลือกกับชุดข้อมูลที่กำหนด (ในความหมาย LSE) อย่างไรก็ตามสิ่งที่ฉันไม่ทราบคือวิธีการบังคับให้วิธีการแก้ปัญหาของฉันผ่านบางจุดที่ฉันเลือก ฉันเคยเห็นสิ่งนี้ทำมาก่อน แต่ฉันจำไม่ได้ว่ากระบวนการนั้นเรียกว่าอะไร เป็นตัวอย่างที่เรียบง่ายและเป็นรูปธรรมขอให้เราบอกว่าฉันมี 100 จุดกระจายอยู่บนระนาบ xy และฉันเลือกที่จะใส่พหุนามตามลำดับ ฉันรู้วิธีการดำเนินการถดถอยเชิงเส้นนี้เป็นอย่างดี อย่างไรก็ตามขอให้เราบอกว่าฉันต้องการ 'บังคับ' วิธีแก้ปัญหาของฉันเพื่อบอกว่าจุดข้อมูลสามจุดที่พิกัด , x = 19 , และx = 89 , (และพิกัด y ที่สอดคล้องกัน แน่นอน).x = 3x=3x=3x = 19x=19x=19x = 89x=89x=89 ขั้นตอนทั่วไปนี้เรียกว่าทำอย่างไรและมีข้อผิดพลาดเฉพาะที่ฉันต้องระวังหรือไม่ แก้ไข: ฉันต้องการเพิ่มว่าฉันกำลังมองหาวิธีที่เป็นรูปธรรมในการทำเช่นนี้ ฉันได้เขียนโปรแกรมที่จริงแล้วการถดถอยเชิงเส้นในวิธีใดวิธีหนึ่งโดยการคว่ำเมทริกซ์ความแปรปรวนร่วมโดยตรงหรือผ่านการไล่ระดับสี สิ่งที่ฉันถามคือฉันจะปรับเปลี่ยนสิ่งที่ฉันทำทีละขั้นตอนเช่นนั้นฉันบังคับให้คำตอบพหุนามต้องผ่านจุดที่เฉพาะเจาะจงหรือไม่ ขอบคุณ!

3
สิ่งที่ควรเป็นพารามิเตอร์ที่ดีที่สุดสำหรับลักษณนามป่าสุ่ม?
ขณะนี้ฉันกำลังใช้กล่องเครื่องมือ RF บน MATLAB สำหรับปัญหาการจำแนกเลขฐานสอง ชุดข้อมูล: ตัวอย่าง 50,000 ตัวอย่างและคุณสมบัติมากกว่า 250 รายการ ดังนั้นควรมีจำนวนต้นไม้และคุณลักษณะที่เลือกแบบสุ่มในแต่ละแยกเพื่อปลูกต้นไม้อย่างไร พารามิเตอร์อื่นใดสามารถส่งผลอย่างมากต่อผลลัพธ์หรือไม่

2
Naive Bayes ทำงานอย่างไรกับตัวแปรต่อเนื่อง
เพื่อความเข้าใจ (พื้นฐานมาก) ของฉัน Naive Bayes ประมาณการความน่าจะเป็นไปตามความถี่ของคลาสของแต่ละคุณสมบัติในข้อมูลการฝึก แต่มันคำนวณความถี่ของตัวแปรต่อเนื่องได้อย่างไร และเมื่อทำการคาดการณ์มันจะจำแนกการสังเกตใหม่ที่อาจไม่มีค่าเดียวกันของการสังเกตใด ๆ ในชุดฝึกอบรมอย่างไร มันใช้การวัดระยะทางบางอย่างหรือหา 1NN หรือไม่?

2
SVM ชั้นหนึ่งคืออะไรและทำงานอย่างไร
ฉันใช้SVM ชั้นเดียวซึ่งถูกนำไปใช้ใน scikit-Learn สำหรับงานวิจัยของฉัน แต่ฉันไม่มีความเข้าใจในเรื่องนี้ ใครช่วยอธิบายคำอธิบายง่ายๆของSVM ชั้นเดียวได้ไหม?

6
การประมาณค่า MLE เทียบกับ MAP จะใช้เมื่อใด
MLE = การประมาณความน่าจะเป็นสูงสุด MAP = หลังที่ใหญ่ที่สุด MLE ใช้งานง่าย / ไร้เดียงสาโดยเริ่มจากความน่าจะเป็นของการสังเกตที่กำหนดพารามิเตอร์ (เช่นฟังก์ชันความน่าจะเป็น)และพยายามค้นหาพารามิเตอร์ที่สอดคล้องกับการสังเกตการณ์ที่สุด แต่มันไม่ได้คำนึงถึงความรู้เดิม MAP ดูเหมือนจะสมเหตุสมผลมากกว่าเนื่องจากคำนึงถึงความรู้เดิมผ่านกฎของเบย์ นี่คือคำถามที่เกี่ยวข้อง แต่คำตอบนั้นไม่ละเอียด /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d ดังนั้นฉันคิดว่า MAP ดีกว่ามาก นั่นถูกต้องใช่ไหม? และฉันควรใช้อันไหนดี?

2
การจำแนกประเภทที่มีป้ายกำกับที่มีเสียงดัง?
ฉันพยายามฝึกอบรมเครือข่ายประสาทเทียมเพื่อจัดหมวดหมู่ แต่ป้ายกำกับที่ฉันมีเสียงค่อนข้างดัง (ประมาณ 30% ของป้ายกำกับผิด) การสูญเสียข้ามเอนโทรปีใช้งานได้จริง แต่ฉันสงสัยว่ามีทางเลือกอื่นที่มีประสิทธิภาพมากกว่าในกรณีนี้หรือไม่? หรือการสูญเสียข้ามเอนโทรปีเหมาะสมที่สุดหรือไม่ ฉันไม่แน่ใจ แต่ฉันคิดว่าค่อนข้าง "ตัด" การสูญเสียข้ามเอนโทรปีดังนั้นการสูญเสียจุดข้อมูลหนึ่งจุดจะไม่เกินขอบเขตบน ขอบคุณ! ปรับปรุง ตามคำตอบของลูคัสผมได้ต่อไปนี้สำหรับสัญญาซื้อขายล่วงหน้าสำหรับการส่งออกการทำนายและใส่ของฟังก์ชัน softmax Zดังนั้นฉันเดาว่ามันคือการเพิ่มเทอมที่ราบรื่นลงในอนุพันธ์ สัญญาซื้อขายล่วงหน้าสำหรับการสูญเสียข้ามเอนโทรปีดั้งเดิม: z 3yyyzzz Pฉัน=0.3/N+0.7YฉันL=-Σทีฉันเข้าสู่ระบบ(Pฉัน)∂ลิตร37N37N\frac{3}{7N} pi=0.3/N+0.7yipi=0.3/N+0.7yip_i=0.3/N+0.7y_i l=−∑tilog(pi)l=−∑tilog⁡(pi)l=-\sum t_i\log(p_i) ∂l∂l∂yi=−ti∂log(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi∂l∂yi=−ti∂log⁡(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i} ∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i}∂l∂yi=−tiyi∂l∂yi=−tiyi\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i} ∂l∂zi=yi−ti∂l∂zi=yi−ti\frac{\partial l}{\partial z_i}=y_i-t_i โปรดแจ้งให้เราทราบหากฉันผิด ขอบคุณ! อัปเดต ฉันเพิ่งอ่านบทความโดย Googleที่ใช้สูตรเดียวกันกับคำตอบของลูคัส แต่มีการตีความที่แตกต่างกัน ในส่วนที่ 7 การทำให้เป็นมาตรฐานโมเดลผ่านการปรับให้เรียบของฉลาก อย่างไรก็ตามการสูญเสียเอนโทรปีนี้อาจทำให้เกิดปัญหาสองประการ …

2
เกณฑ์การตัดสินใจเป็นพารามิเตอร์ในการถดถอยโลจิสติกหรือไม่
คลาสที่ถูกทำนายจากการถดถอยโลจิสติก (ไบนารี) ถูกกำหนดโดยใช้ขีด จำกัด บนความน่าจะเป็นสมาชิกคลาสที่สร้างโดยโมเดล ตามที่เข้าใจแล้วปกติแล้ว 0.5 จะถูกใช้เป็นค่าเริ่มต้น แต่การเปลี่ยนเกณฑ์จะเปลี่ยนการจำแนกประเภทที่คาดการณ์ไว้ สิ่งนี้หมายความว่าขีด จำกัด คือพารามิเตอร์มากเกินไปหรือไม่ หากเป็นเช่นนั้นเหตุใดจึงไม่สามารถค้นหากริดเกณฑ์ได้อย่างง่ายดายโดยใช้วิธีการของ scikit-Learn GridSearchCV(เช่นเดียวกับที่คุณทำกับพารามิเตอร์การทำให้เป็นมาตรฐานC)

3
ทำไมการบูตสแตรปมีประโยชน์หรือไม่
หากสิ่งที่คุณทำคือการสุ่มตัวอย่างใหม่จากการกระจายเชิงประจักษ์ทำไมไม่เพียงแค่ศึกษาการกระจายเชิงประจักษ์? ตัวอย่างเช่นแทนที่จะศึกษาความแปรปรวนโดยการสุ่มตัวอย่างซ้ำ ๆ ทำไมไม่เพียงแค่หาค่าความแปรปรวนจากการแจกแจงเชิงประจักษ์

1
Comparisson ของทั้งสองรุ่นเมื่อ ROC curves ข้ามซึ่งกันและกัน
มาตรการทั่วไปหนึ่งที่ใช้ในการเปรียบเทียบแบบจำลองการจำแนกสองแบบขึ้นไปคือการใช้พื้นที่ใต้กราฟ ROC (AUC) เป็นวิธีการประเมินประสิทธิภาพทางอ้อม ในกรณีนี้โมเดลที่มี AUC ขนาดใหญ่มักตีความว่าทำงานได้ดีกว่าโมเดลที่มี AUC ขนาดเล็กกว่า แต่ตาม Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ) เมื่อเส้นโค้งทั้งคู่ข้ามกันการเปรียบเทียบดังกล่าวไม่สามารถใช้งานได้อีกต่อไป ทำไมถึงเป็นเช่นนั้น? ตัวอย่างเช่นมีสิ่งใดที่สามารถตรวจสอบเกี่ยวกับแบบจำลอง A, B และ C ตาม ROC curves และ AUCs bellow?

2
การเพิ่มประสิทธิภาพและการเรียนรู้ของเครื่อง
ฉันต้องการที่จะรู้ว่าการเรียนรู้ของเครื่องต้องมีการเพิ่มประสิทธิภาพ จากสิ่งที่ฉันได้ยินสถิติเป็นหัวข้อทางคณิตศาสตร์ที่สำคัญสำหรับผู้ที่ทำงานกับการเรียนรู้ของเครื่อง ในทำนองเดียวกันความสำคัญสำหรับคนที่ทำงานกับการเรียนรู้ด้วยเครื่องเพื่อเรียนรู้เกี่ยวกับการเพิ่มประสิทธิภาพแบบนูนหรือแบบไม่นูนคืออะไร?

2
Neural Nets: ตัวแปรร้อนแรงอย่างต่อเนื่องหรือไม่
ฉันมีข้อมูลดิบที่มีประมาณ 20 คอลัมน์ (20 คุณสมบัติ) สิบรายการเป็นข้อมูลต่อเนื่องและ 10 รายการจัดอยู่ในหมวดหมู่ ข้อมูลหมวดหมู่บางส่วนอาจมีค่าแตกต่างกัน 50 ค่า (สหรัฐอเมริกา) หลังจากที่ฉันประมวลผลข้อมูลล่วงหน้าแล้วคอลัมน์ 10 คอลัมน์ต่อเนื่องจะกลายเป็น 10 คอลัมน์ที่เตรียมไว้และค่า 10 หมวดหมู่กลายเป็นตัวแปร 200 ตัวที่เข้ารหัสร้อน ฉันกังวลว่าถ้าฉันใส่ฟีเจอร์ 200 + 10 = 210 เหล่านี้ทั้งหมดลงในตาข่ายประสาทดังนั้นฟีเจอร์ 200-one-hot (คอลัมน์หมวดหมู่ 10 คอลัมน์) ทั้งหมดจะมีอิทธิพลต่อคุณสมบัติ 10 ต่อเนื่องทั้งหมด บางทีวิธีการหนึ่งอาจจะเป็นการรวมกลุ่มหรือคอลัมน์ นี่เป็นข้อกังวลที่ถูกต้องและมีวิธีมาตรฐานในการจัดการกับปัญหานี้หรือไม่? (ฉันใช้ Keras แม้ว่าฉันไม่คิดว่ามันจะสำคัญมาก)

1
ทำไมการเรียนรู้การเสริมแรงลึกจึงไม่เสถียร?
ในรายงานปี 2558 ของ DeepMind เกี่ยวกับการเรียนรู้การเสริมแรงอย่างลึกซึ้งนั้นกล่าวว่า "ความพยายามก่อนหน้าในการรวม RL กับเครือข่ายประสาทล้มเหลวส่วนใหญ่ล้มเหลวเนื่องจากการเรียนรู้ไม่แน่นอน" จากนั้นกระดาษจะแสดงสาเหตุบางประการของสิ่งนี้ขึ้นอยู่กับความสัมพันธ์ข้ามการสังเกต ใครสักคนช่วยอธิบายความหมายของมันได้บ้าง? มันเป็นรูปแบบของการ overfitting ที่เครือข่ายนิวรัลเรียนรู้โครงสร้างบางอย่างที่มีอยู่ในการฝึกอบรม แต่อาจไม่ได้อยู่ที่การทดสอบ? หรือมันหมายถึงอย่างอื่น? กระดาษสามารถพบได้: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html และส่วนที่ฉันพยายามเข้าใจคือ: การเรียนรู้การเสริมแรงนั้นเป็นที่รู้กันว่าไม่เสถียรหรือแม้กระทั่งที่จะแยกออกเมื่อตัวประมาณฟังก์ชั่นที่ไม่เชิงเส้นเช่นเครือข่ายประสาทถูกนำมาใช้เพื่อเป็นตัวแทนของฟังก์ชั่นการกระทำตามตัวอักษร ความไม่แน่นอนนี้มีสาเหตุหลายประการ: ความสัมพันธ์ที่มีอยู่ในลำดับของการสังเกตความจริงที่ว่าการอัปเดตเล็ก ๆ เป็น Q อาจเปลี่ยนแปลงนโยบายอย่างมีนัยสำคัญดังนั้นจึงเปลี่ยนการกระจายข้อมูลและความสัมพันธ์ระหว่างค่าการกระทำและค่าเป้าหมาย เราจัดการกับความไม่แน่นอนเหล่านี้ด้วยรูปแบบแปลกใหม่ของ Q-learning ซึ่งใช้ความคิดหลักสองประการ อันดับแรกเราใช้กลไกที่ได้รับแรงบันดาลใจทางชีววิทยาเรียกว่าการเล่นซ้ำที่สุ่มข้อมูลผ่านซึ่งจะเป็นการลบความสัมพันธ์ในลำดับการสังเกตและทำให้การเปลี่ยนแปลงการกระจายข้อมูลราบรื่นขึ้น ประการที่สองเราใช้การอัพเดทซ้ำที่ปรับค่าการกระทำ (Q) ไปยังค่าเป้าหมายที่มีการปรับปรุงเป็นระยะเท่านั้นซึ่งจะช่วยลดความสัมพันธ์กับเป้าหมาย

3
การเลือกไฮเปอร์พารามิเตอร์โดยใช้ T-SNE สำหรับการจำแนกประเภท
ในปัญหาเฉพาะที่ฉันทำงานกับ (การแข่งขัน) ฉันมีการตั้งค่า follwoing: 21 คุณสมบัติ (ตัวเลขบน [0,1]) และเอาต์พุตไบนารี ฉันมีแถวประมาณ 100 K ดูเหมือนว่าการตั้งค่าจะมีเสียงดังมาก ฉันและผู้เข้าร่วมคนอื่น ๆ ใช้การสร้างคุณลักษณะในช่วงเวลาหนึ่งและเพื่อนบ้าน stochastic แบบ t- กระจายกลายเป็นค่อนข้างมีประสิทธิภาพในการตั้งค่านี้ ฉันสะดุดโพสต์นี้"วิธีการใช้ t-SNE อย่างมีประสิทธิภาพ"แต่ฉันก็ยังไม่สามารถสรุปได้ว่าจะเลือกไฮเปอร์พารามิเตอร์ที่ดีที่สุดในการจำแนกประเภทของฉันได้อย่างไร มีกฎของหัวแม่มือ (จำนวนของคุณสมบัติขนาดของการฝัง -> ทางเลือกของความงุนงง) หรือไม่? ฉันเพิ่งใช้การตั้งค่า Ad-hoc ในขณะนี้เนื่องจากใช้เวลานานเกินไปในการทำซ้ำการตั้งค่าต่างๆ ขอบคุณสำหรับความคิดเห็นใด ๆ

2
ทำไมเครือข่ายประสาทถูกหลอกง่าย
ฉันได้อ่านเอกสารเกี่ยวกับการสร้างภาพด้วยตนเองเพื่อ "หลอก" เครือข่ายประสาท (ดูด้านล่าง) นี่เป็นเพราะเครือข่ายเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขเท่านั้นหรือไม่? หากเครือข่ายสามารถจำลองความน่าจะเป็นแบบร่วมกรณีดังกล่าวจะยังคงเกิดขึ้นได้หรือไม่p ( y , x )p(y|x)p(y|x)p(y|x)p(y,x)p(y,x)p(y,x) ฉันเดาภาพที่สร้างขึ้นเทียมดังกล่าวมีความแตกต่างจากข้อมูลการฝึกอบรมเพื่อให้พวกเขามีความน่าจะเป็นที่ต่ำ(x) ดังนั้นควรต่ำแม้ว่าจะสูงสำหรับภาพเหล่านี้p ( y , x ) p ( y | x )p(x)p(x)p(x)p(y,x)p(y,x)p(y,x)p(y|x)p(y|x)p(y|x) ปรับปรุง ฉันลองแบบจำลองทั่วไปแล้วมันกลับกลายเป็นว่าไม่ได้มีประโยชน์ดังนั้นฉันเดาว่านี่น่าจะเป็นผลมาจาก MLE? ฉันหมายถึงในกรณีที่ KL divergence ถูกใช้เป็นฟังก์ชันการสูญเสียค่าของโดยที่มีขนาดเล็กไม่ส่งผลกระทบต่อการสูญเสีย ดังนั้นสำหรับอิมเมจที่วางแผนไว้ซึ่งไม่ตรงกับค่าของสามารถกำหนดเองได้p d a t a ( x ) p d a t a p θpθ(x)pθ(x)p_{\theta}(x)pdata(x)pdata(x)p_{data}(x)pdatapdatap_{data}pθpθp_{\theta} ปรับปรุง ฉันพบบล็อกของ Andrej Karpathy …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.