คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
เทคนิคการเพิ่มข้อมูลสำหรับชุดข้อมูลทั่วไป?
ในหลาย ๆ แอปพลิเคชันการเรียนรู้ของเครื่องวิธีการเสริมข้อมูลที่เรียกว่าได้อนุญาตให้สร้างแบบจำลองที่ดีกว่า ตัวอย่างเช่นสมมติชุดฝึกสุนัขและแมวจำนวนภาพ โดยการหมุน, การทำมิเรอร์, การปรับคอนทราสต์ ฯลฯ เป็นไปได้ที่จะสร้างภาพเพิ่มเติมจากภาพต้นฉบับ100100100 ในกรณีของภาพการเพิ่มข้อมูลค่อนข้างตรงไปตรงมา อย่างไรก็ตามสมมติว่ามีตัวอย่างชุดฝึกอบรมจำนวนตัวอย่างและตัวแปรต่อเนื่องสองสามร้อยตัวที่เป็นตัวแทนของสิ่งต่าง ๆ การเพิ่มข้อมูลดูเหมือนจะไม่ง่ายอีกต่อไป จะทำอะไรได้บ้างในกรณีเช่นนี้?100100100

1
ฉันเพิ่งคิดค้นวิธี Bayesian สำหรับการวิเคราะห์ ROC curves หรือไม่
คำนำ นี่คือการโพสต์ยาว หากคุณกำลังอ่านสิ่งนี้อีกครั้งโปรดทราบว่าฉันได้แก้ไขส่วนคำถามแล้วแม้ว่าเนื้อหาพื้นหลังจะยังคงเหมือนเดิม นอกจากนี้ฉันเชื่อว่าฉันได้คิดวิธีแก้ปัญหา โซลูชันนั้นจะปรากฏที่ด้านล่างของโพสต์ ขอบคุณ CliffAB ที่ชี้ให้เห็นว่าโซลูชันดั้งเดิมของฉัน (แก้ไขจากโพสต์นี้ดูประวัติการแก้ไขสำหรับโซลูชันนั้น) จำเป็นต้องสร้างการประเมินแบบเอนเอียง ปัญหา ในการจำแนกปัญหาการเรียนรู้ของเครื่องวิธีหนึ่งในการประเมินประสิทธิภาพของแบบจำลองคือการเปรียบเทียบ ROC curves หรือพื้นที่ภายใต้ ROC curve (AUC) อย่างไรก็ตามฉันสังเกตว่ามีการพูดคุยกันเล็กน้อยเกี่ยวกับความแปรปรวนของเส้นโค้ง ROC หรือค่าประมาณของ AUC นั่นคือพวกเขากำลังสถิติจากข้อมูลและมีข้อผิดพลาดบางอย่างที่เกี่ยวข้องกับพวกเขา การหาข้อผิดพลาดในการประมาณค่าเหล่านี้จะช่วยจำแนกลักษณะตัวอย่างเช่นว่าตัวจําแนกตัวหนึ่งเป็นจริงหรือดีกว่าตัวอื่น ฉันได้พัฒนาวิธีการต่อไปนี้ซึ่งฉันเรียกการวิเคราะห์แบบเบย์ของเส้นโค้ง ROC เพื่อแก้ไขปัญหานี้ การสังเกตของฉันมีสองข้อสังเกตสำคัญเกี่ยวกับปัญหา: เส้นโค้ง ROC ประกอบด้วยปริมาณที่ประมาณจากข้อมูลและสามารถแก้ไขการวิเคราะห์แบบเบย์ เส้นโค้ง ROC ประกอบด้วยการวางแผนอัตราบวกจริงTPR(θ)TPR(θ)TPR(\theta)เทียบกับอัตราบวกปลอมFPR(θ)FPR(θ)FPR(\theta)ซึ่งแต่ละตัวนั้นประมาณจากข้อมูล ฉันพิจารณาฟังก์ชันTPRTPRTPRและFPRFPRFPRของθθ\thetaเกณฑ์การตัดสินใจใช้เพื่อจัดเรียงคลาส A จาก B (โหวตต้นไม้ในป่าสุ่มระยะห่างจากไฮเปอร์เพลนใน SVM คาดการณ์ความน่าจะเป็นในการถดถอยโลจิสติกส์เป็นต้น) การเปลี่ยนแปลงค่าของเกณฑ์การตัดสินใจθθ\thetaจะส่งกลับค่าประมาณที่แตกต่างกันของTPRTPRTPRและ R ยิ่งกว่านั้นเราสามารถพิจารณาT P R ( θ )เป็นค่าประมาณความน่าจะเป็นที่จะประสบความสำเร็จในลำดับการทดลองของ Bernoulli …

3
จะเกิดอะไรขึ้นเมื่อคุณใช้ SVD กับปัญหาการกรองร่วมกัน ความแตกต่างระหว่างสองคืออะไร?
ในการกรองร่วมกันเรามีค่าที่ไม่ได้กรอกหากผู้ใช้ไม่ได้ดูภาพยนตร์แล้วเราต้องใส่ 'na' ลงไปที่นั่น ถ้าฉันจะใช้ SVD ของเมทริกซ์นี้จากนั้นฉันต้องใส่ตัวเลขลงไปที่นั่น - บอก 0 ตอนนี้ถ้าฉันแยกเมทริกซ์เมทริกซ์ฉันมีวิธีหาผู้ใช้ที่คล้ายกัน พื้นที่มิติลดลง) แต่การตั้งค่าที่คาดการณ์เอง - สำหรับผู้ใช้รายการจะเป็นศูนย์ (เพราะนั่นคือสิ่งที่เราป้อนในคอลัมน์ที่ไม่รู้จัก) ดังนั้นฉันจึงติดอยู่กับปัญหาของการกรองการทำงานร่วมกันกับ SVD พวกเขาดูเหมือนจะเกือบจะเหมือนกัน แต่ไม่มาก อะไรคือความแตกต่างระหว่างสิ่งเหล่านี้กับสิ่งที่เกิดขึ้นเมื่อฉันใช้ SVD กับปัญหาการกรองแบบทำงานร่วมกัน ฉันทำแล้วและผลลัพธ์ดูเหมือนจะยอมรับได้ในแง่ของการค้นหาผู้ใช้ใกล้เคียงซึ่งยอดเยี่ยม แต่อย่างไร

3
ขั้นตอนแรกสำหรับข้อมูลขนาดใหญ่ ( , )
สมมติว่าคุณกำลังวิเคราะห์ชุดข้อมูลขนาดใหญ่ที่มีการสังเกตการณ์นับพันล้านครั้งต่อวันซึ่งการสังเกตแต่ละครั้งมีตัวแปรเบาบางและตัวแปรเชิงซ้อนและตัวเลขซ้ำซ้อนสองพันรายการ สมมติว่ามีปัญหาการถดถอยหนึ่งปัญหาการจำแนกเลขฐานสองที่ไม่สมดุลและอีกหนึ่งภารกิจของ "ค้นหาว่าตัวทำนายใดที่สำคัญที่สุด" ความคิดของฉันสำหรับวิธีการแก้ไขปัญหาคือ: ติดตั้งโมเดลการทำนายบางอย่างกับกลุ่มตัวอย่างย่อยที่มีขนาดใหญ่ขึ้นและใหญ่ขึ้น (สุ่ม) จนกระทั่ง: การติดตั้งและตรวจสอบความถูกต้องของโมเดลกลายเป็นเรื่องยากในการคำนวณ (เช่นการใช้แล็ปท็อปของฉันช้าไม่มีเหตุผล R ไม่มีหน่วยความจำเหลือ ฯลฯ ) หรือ การฝึกอบรมและทดสอบ RMSE หรือค่าความแม่นยำ / การเรียกคืนมีความเสถียร หากข้อผิดพลาดในการฝึกอบรมและการทดสอบไม่คงที่ (1. ) ให้ใช้โมเดลที่ง่ายกว่าและ / หรือใช้โมเดลรุ่นมัลติคอร์หรือมัลติโหนดและรีสตาร์ทตั้งแต่ต้น หากการฝึกอบรมและการทดสอบข้อผิดพลาดเสถียร (2. ): หาก (เช่นฉันยังคงสามารถเรียกใช้อัลกอริทึมบนเนื่องจากยังไม่ใหญ่เกินไป) พยายามปรับปรุงประสิทธิภาพโดยการขยายพื้นที่ของฟีเจอร์หรือใช้โมเดลที่ซับซ้อนมากขึ้นและรีสตาร์ทตั้งแต่ต้นยังไม่มีข้อความs u b s e t≪ Nยังไม่มีข้อความsยูขsอีเสื้อ«ยังไม่มีข้อความN_{subset} \ll NXs u b s e tXsยูขsอีเสื้อX_{subset} หากเป็น 'ใหญ่' และการดำเนินการวิเคราะห์เพิ่มเติมนั้นมีค่าใช้จ่ายสูงให้วิเคราะห์ความสำคัญและสิ้นสุดของตัวแปรยังไม่มีข้อความs u b s …

2
การเปรียบเทียบการจัดกลุ่ม: ดัชนีแรนด์เทียบกับการเปลี่ยนแปลงของข้อมูล
ฉันสงสัยว่าถ้าใครมีความเข้าใจหรือสัญชาตญาณหลังความแตกต่างระหว่างการเปลี่ยนแปลงของข้อมูลและดัชนีแรนด์สำหรับการเปรียบเทียบการจัดกลุ่ม ฉันได้อ่านบทความ "การเปรียบเทียบคลัสเตอร์ - ระยะทางจากข้อมูล " โดย Marina Melia (วารสารการวิเคราะห์หลายตัวแปร 2007) แต่นอกเหนือจากการสังเกตความแตกต่างในคำจำกัดความฉันไม่เข้าใจว่าการเปลี่ยนแปลงของข้อมูลคืออะไร จับภาพที่ดัชนีแรนด์ไม่ได้จับ

4
ความแตกต่างระหว่างสหสัมพันธ์และสาเหตุมีความสัมพันธ์กับ Google ในระดับใด
บริบท คำถามยอดนิยมในไซต์นี้คือ " บาปทางสถิติทั่วไปคืออะไร " หนึ่งในความผิดที่กล่าวมานั้นคือการสันนิษฐานว่าลิงก์ จากนั้นในความคิดเห็นที่มี 5 upvotes แนะนำว่า: "Google ทำเงิน $ 65B ต่อปีโดยไม่สนใจความแตกต่าง" เมื่อมีความเสี่ยงในการวิเคราะห์คำศัพท์แสงฉันคิดว่านี่อาจเป็นจุดสนทนาที่มีประโยชน์สำหรับการแยกแยะความแตกต่างระหว่างสหสัมพันธ์และสาเหตุและความเกี่ยวข้องเชิงปฏิบัติของความแตกต่าง และบางทีมันอาจเน้นบางอย่างเกี่ยวกับความสัมพันธ์ระหว่างการเรียนรู้ของเครื่องและความแตกต่างระหว่างสหสัมพันธ์และสาเหตุ ฉันถือว่าความคิดเห็นคือการระบุเทคโนโลยีที่รองรับการสร้างผลลัพธ์ของเครื่องมือค้นหาและเทคโนโลยีที่เกี่ยวข้องกับการแสดงโฆษณา คำถาม ความแตกต่างระหว่างสหสัมพันธ์และสาเหตุที่เกี่ยวข้องกับการสร้างรายได้ของ Google อาจจะเน้นเฉพาะในการสร้างรายได้ผ่านเทคโนโลยีการแสดงผลโฆษณาที่เกี่ยวข้องและผลการค้นหาคุณภาพหรือไม่

4
ต้นไม้การตัดสินใจเป็นต้นไม้ไบนารีหรือไม่?
เกือบทุกตัวอย่างการตัดสินใจที่ฉันเจอเจอจะเป็นต้นไม้คู่ เป็นสากลที่สวยมากใช่ไหม อัลกอริธึมมาตรฐานส่วนใหญ่ (C4.5, CART และอื่น ๆ ) สนับสนุนเฉพาะต้นไม้ไบนารีหรือไม่ จากสิ่งที่ฉันรวบรวมCHAIDไม่ได้ จำกัด อยู่ที่ต้นไม้ไบนารี แต่ดูเหมือนว่าจะเป็นข้อยกเว้น การแยกแบบสองทางแล้วตามด้วยการแยกแบบสองทางอีกทางหนึ่งของเด็ก ๆ นั้นไม่เหมือนกับการแยกแบบสามทางเดียว นี่อาจเป็นประเด็นทางวิชาการ แต่ฉันพยายามทำให้แน่ใจว่าฉันเข้าใจกรณีที่ใช้บ่อยที่สุด

2
วิธีเลือกระหว่างอัลกอริทึมการเรียนรู้
ฉันต้องใช้โปรแกรมที่จะจัดประเภทระเบียนเป็น 2 หมวดหมู่ (จริง / เท็จ) ขึ้นอยู่กับข้อมูลการฝึกอบรมบางอย่างและฉันสงสัยว่าอัลกอริทึม / วิธีการที่ฉันควรจะดู ดูเหมือนจะมีพวกเขาให้เลือกมากมาย - โครงข่ายประสาทเทียม, อัลกอริทึมทางพันธุกรรม, การเรียนรู้ของเครื่อง, การเพิ่มประสิทธิภาพเบย์เซียนเป็นต้นและอื่น ๆ ฉันไม่แน่ใจว่าจะเริ่มจากตรงไหน ดังนั้นคำถามของฉันคือ ฉันจะเลือกอัลกอริทึมการเรียนรู้ที่ฉันควรใช้สำหรับปัญหาของฉันได้อย่างไร หากสิ่งนี้ช่วยได้นี่คือปัญหาที่ฉันต้องแก้ไข ข้อมูลการฝึกอบรม: ข้อมูล การฝึกอบรมประกอบด้วยแถวจำนวนมากเช่นนี้: Precursor1, Precursor2, Boolean (true/false) การวิ่งที่ ฉันจะได้รับมาก่อน จากนั้น ฉันเลือกอัลกอริทึม A จากอัลกอริธึมที่แตกต่างกัน (หรือสร้างอัลกอริทึมแบบไดนามิก) และใช้กับชุดค่าผสมที่เป็นไปได้ของสารตั้งต้นเหล่านี้และรวบรวม "บันทึก" ที่ถูกปล่อยออกมา "บันทึก" ประกอบด้วยคู่ค่าคีย์หลายคู่ * ฉันใช้อัลกอริทึมที่ยอดเยี่ยมและจัดประเภทระเบียนเหล่านี้เป็น 2 หมวดหมู่ (จริง / เท็จ) ฉันจะสร้างตารางที่มีรูปแบบเดียวกับข้อมูลรถไฟ: Precursor1, Precursor2, Boolean …

2
การตรวจสอบความถูกต้องไขว้ (ข้อผิดพลาดทั่วไป) หลังจากการเลือกรูปแบบ
หมายเหตุ: เคสคือ n >> p ฉันกำลังอ่านองค์ประกอบของการเรียนรู้ทางสถิติและมีหลายสิ่งที่กล่าวถึงวิธี "ถูกต้อง" ในการตรวจสอบข้าม (เช่นหน้า 60, หน้า 245) โดยเฉพาะคำถามของฉันคือวิธีการประเมินรุ่นสุดท้าย (ไม่มีชุดทดสอบแยก) โดยใช้ k-fold CV หรือ bootstrapping เมื่อมีการค้นหารูปแบบ? ดูเหมือนว่าในกรณีส่วนใหญ่ (อัลกอริทึม ML ที่ไม่มีการเลือกคุณสมบัติแบบฝัง) จะมี ขั้นตอนการเลือกคุณสมบัติ ขั้นตอนการเลือกพารามิเตอร์ meta (เช่นพารามิเตอร์ต้นทุนใน SVM) คำถามของฉัน: ฉันได้เห็นแล้วว่าขั้นตอนการเลือกคุณสมบัติสามารถทำได้เมื่อการเลือกคุณสมบัติเสร็จสิ้นในชุดฝึกอบรมทั้งหมด จากนั้นใช้ k-fold CV อัลกอริทึมการเลือกคุณลักษณะจะใช้ในแต่ละเท่า (รับคุณลักษณะที่แตกต่างกันซึ่งอาจเลือกได้ในแต่ละครั้ง) และข้อผิดพลาดเฉลี่ย จากนั้นคุณจะใช้คุณสมบัติที่เลือกโดยใช้ข้อมูลทั้งหมด (ที่ถูกตั้งค่าไว้) เพื่อฝึกโหมดสุดท้าย แต่ใช้ข้อผิดพลาดจากการตรวจสอบความถูกต้องของข้อมูลเพื่อประเมินประสิทธิภาพในอนาคตของโมเดล ถูกต้องหรือไม่ เมื่อคุณใช้การตรวจสอบความถูกต้องไขว้กันเพื่อเลือกพารามิเตอร์โมเดลแล้วจะประเมินประสิทธิภาพของโมเดลได้อย่างไร? มันเป็นกระบวนการที่เหมือนกันกับ # 1 ข้างต้นหรือคุณควรใช้ CV CV …

1
ฉันควรตัดสินใจตามมาตรการการประเมินโดยเฉลี่ยแบบไมโครหรือโดยเฉลี่ยหรือไม่
ฉันใช้การตรวจสอบความถูกต้องไขว้แบบ 10 เท่าสำหรับอัลกอริธึมการจำแนกประเภทไบนารีที่แตกต่างกันโดยมีชุดข้อมูลเดียวกันและได้รับผลลัพธ์เฉลี่ยทั้งไมโครและมาโคร ควรกล่าวถึงว่านี่เป็นปัญหาการจำแนกประเภทฉลากหลายป้าย ในกรณีของฉันเชิงลบที่แท้จริงและผลบวกที่แท้จริงนั้นมีน้ำหนักเท่ากัน นั่นหมายความว่าการทำนายเชิงลบที่ถูกต้องนั้นมีความสำคัญไม่แพ้กันกับการทำนายผลบวกที่แท้จริง การวัดแบบไมโครเฉลี่ยต่ำกว่าค่าเฉลี่ยของมาโคร นี่คือผลลัพธ์ของ Neural Network และ Support Vector Machine: ฉันยังใช้การทดสอบแบ่งเปอร์เซ็นต์บนชุดข้อมูลเดียวกันด้วยอัลกอริทึมอื่น ผลการวิจัยพบว่า: ฉันอยากจะเปรียบเทียบการทดสอบแบ่งเปอร์เซ็นต์กับผลลัพธ์ที่ได้มาโครเฉลี่ย แต่สิ่งนั้นยุติธรรมหรือไม่ ฉันไม่เชื่อว่าผลลัพธ์เฉลี่ยแบบมาโครนั้นมีความลำเอียงเพราะผลบวกจริงและเชิงลบที่แท้จริงนั้นมีน้ำหนักเท่ากัน แต่จากนั้นอีกครั้งฉันสงสัยว่านี่จะเหมือนกับการเปรียบเทียบแอปเปิ้ลกับส้มหรือไม่? UPDATE จากความคิดเห็นฉันจะแสดงให้เห็นว่าการคำนวณไมโครและมาโครเฉลี่ยคำนวณอย่างไร ฉันมี 144 ป้ายกำกับ (เช่นเดียวกับคุณสมบัติหรือคุณลักษณะ) ที่ฉันต้องการทำนาย ความแม่นยำการเรียกคืนและการวัดค่า F ถูกคำนวณสำหรับแต่ละฉลาก --------------------------------------------------- LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144 --------------------------------------------------- ? | ? | ? | ? …

1
สิ่งที่ฟังก์ชั่นอาจเป็นเคอร์เนล?
ในบริบทของการเรียนรู้ของเครื่องและการจดจำรูปแบบที่มีแนวคิดที่เรียกว่าเคอร์เนลเคล็ดลับ เผชิญปัญหาที่ฉันถูกขอให้ตรวจสอบว่าฟังก์ชันอาจเป็นฟังก์ชันเคอร์เนลหรือไม่ควรทำอะไรอย่างแน่นอน ฉันควรตรวจสอบก่อนว่าพวกเขาอยู่ในรูปแบบของฟังก์ชั่นเคอร์เนลสามหรือสี่อย่างเช่นพหุนาม RBF และ Gaussian หรือไม่? ถ้าอย่างนั้นฉันควรทำยังไงดี? ฉันควรแสดงว่าเป็นบวกแน่นอนหรือไม่ มีคนช่วยแก้ปัญหาตัวอย่างเพื่อแสดงวิธีแก้ปัญหาแบบทีละขั้นตอนได้หรือไม่? เหมือนเช่นเป็นฟังก์ชันเคอร์เนลฉ( x ) = exเสื้อx'f(x)=extx′f(x)=e^{x^tx'} (สมมติว่าเราไม่ทราบว่ามันเป็นเคอร์เนล Gaussian)?

3
การสูญเสียการฝึกอบรมเพิ่มขึ้นตามเวลา [ซ้ำ]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว : ฟังก์ชั่นการเปลี่ยนแปลงค่าใช้จ่ายสามารถเป็นบวกได้อย่างไร? (1 คำตอบ) ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทไม่ได้เรียนรู้ (5 คำตอบ) ปิดเมื่อเดือนที่แล้ว ฉันกำลังฝึกอบรมนางแบบ (Recurrent Neural Network) เพื่อจำแนกลำดับของ 4 ประเภท ขณะที่ฉันทำการฝึกฉันเห็นการสูญเสียการฝึกอบรมลดลงจนถึงจุดที่ฉันจัดประเภทตัวอย่างในชุดการฝึกได้มากกว่า 90% อย่างไรก็ตามอีกไม่กี่ยุคต่อมาฉันสังเกตเห็นว่าการสูญเสียการฝึกอบรมเพิ่มขึ้นและความแม่นยำลดลง ดูเหมือนว่าจะแปลกสำหรับฉันเพราะฉันคาดหวังว่าในชุดฝึกอบรมประสิทธิภาพจะดีขึ้นเมื่อเวลาไม่ลดลง ฉันกำลังใช้การสูญเสียเอนโทรปีและอัตราการเรียนรู้ของฉันคือ 0.0002 อัปเดต:ปรากฎว่าอัตราการเรียนรู้สูงเกินไป ด้วยอัตราการเรียนรู้ที่ต่ำพอที่ต่ำฉันไม่สังเกตพฤติกรรมนี้ อย่างไรก็ตามฉันยังพบสิ่งแปลกประหลาดนี้ คำอธิบายที่ดียินดีต้อนรับว่าทำไมสิ่งนี้ถึงเกิดขึ้น

4
จะทราบได้อย่างไรว่าข้อมูลแยกกันเป็นเส้นตรง?
ข้อมูลมีคุณสมบัติมากมาย (เช่น 100) และจำนวนอินสแตนซ์เท่ากับ 100,000 ข้อมูลกระจัดกระจาย ฉันต้องการให้พอดีกับข้อมูลโดยใช้การถดถอยโลจิสติกหรือ svm ฉันจะรู้ได้อย่างไรว่าคุณลักษณะเป็นแบบเชิงเส้นหรือไม่เชิงเส้นเพื่อให้ฉันสามารถใช้เคล็ดลับเคอร์เนลได้หากไม่ใช่แบบเชิงเส้น

1
ความแตกต่างระหว่างโมเดล Markov ที่ซ่อนอยู่กับตัวกรองอนุภาค (และตัวกรองคาลมาน)
นี่คือคำถามเก่าของฉัน ฉันอยากถามว่ามีใครรู้ถึงความแตกต่าง (ถ้ามีความแตกต่างใด ๆ ) ระหว่าง Hidden Markov models (HMM) และ Particle Filter (PF) หรือไม่และเป็นผลจาก Kalman Filter หรือในกรณีที่เราใช้อัลกอริทึมใด ฉันเป็นนักเรียนและฉันต้องทำโครงการ แต่ก่อนอื่นฉันต้องเข้าใจบางสิ่ง ดังนั้นตามบรรณานุกรมทั้งสองรัฐอวกาศรุ่นรวมทั้งที่ซ่อนอยู่ (หรือแฝงหรือสังเกต) รัฐ ตามที่ Wikipedia (Hidden_Markov_model) “ใน HMM พื้นที่สถานะของตัวแปรที่ซ่อนอยู่นั้นไม่ต่อเนื่องในขณะที่การสังเกตตัวเองสามารถแยกออกจากกัน (โดยทั่วไปจะเกิดจากการกระจายแบบแบ่งหมวดหมู่) หรือต่อเนื่อง (โดยทั่วไปมาจากการแจกแจงแบบเกาส์) โมเดลมาร์คอฟที่ซ่อนยังสามารถวางนัยเพื่ออนุญาตให้มีพื้นที่ของรัฐอย่างต่อเนื่อง ตัวอย่างของแบบจำลองเหล่านั้นคือสิ่งที่กระบวนการมาร์คอฟเหนือตัวแปรที่ซ่อนอยู่เป็นระบบพลวัตเชิงเส้นที่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรที่เกี่ยวข้องและที่ที่ตัวแปรที่ซ่อนอยู่ ในกรณีง่าย ๆ เช่นระบบพลวัตเชิงเส้นที่กล่าวถึงการอนุมานที่แน่นอนนั้นง่ายต่อการใช้งาน (ในกรณีนี้ใช้ตัวกรองคาลมาน); อย่างไรก็ตามโดยทั่วไปการอนุมานที่แน่นอนใน HMMs ที่มีตัวแปรแฝงต่อเนื่องเป็นไปไม่ได้และต้องใช้วิธีการโดยประมาณ” แต่สำหรับฉันมันค่อนข้างสับสน ... ในคำง่ายๆนี้หมายถึงการติดตาม (จากการวิจัยเพิ่มเติมที่ฉันได้ทำไป): ใน HMM พื้นที่รัฐสามารถเป็นได้ทั้งที่ไม่ต่อเนื่องหรือต่อเนื่อง นอกจากนี้ยังมีข้อสังเกตที่ตัวเองสามารถเป็นได้ทั้งที่ไม่ต่อเนื่องหรือต่อเนื่อง นอกจากนี้ …

2
ประโยชน์ของการใช้ ReLU บน softplus เป็นฟังก์ชันการเปิดใช้งานคืออะไร
มีการกล่าวถึงบ่อยครั้งว่าหน่วยเชิงเส้นที่ได้รับการแก้ไข (ReLU) มีหน่วย softplus ที่ถูกแทนที่เพราะหน่วยนั้นเป็นเส้นตรงและเร็วกว่าในการคำนวณ ซอฟต์พลัสนั้นยังคงมีข้อดีของการชักนำให้เกิด sparsity หรือถูก จำกัด อยู่ที่ ReLU หรือไม่? เหตุผลที่ฉันถามคือฉันสงสัยเกี่ยวกับผลกระทบเชิงลบของความชันศูนย์ของ ReLU คุณสมบัติ "กับดัก" ของคุณสมบัตินี้ไม่เป็นศูนย์ซึ่งอาจเป็นประโยชน์ที่จะให้พวกเขามีโอกาสในการเปิดใช้งานอีกครั้งหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.