สถิติและข้อมูลขนาดใหญ่ machine-learning

4

เหตุใดการใช้การติดป้ายกำกับโดยไม่ส่งผลกระทบต่อผลลัพธ์เล็กน้อย

ฉันได้ดูวิธีการเรียนรู้แบบกึ่งภายใต้การดูแลและได้พบกับแนวคิดของ "การติดฉลากหลอก" ตามที่ฉันเข้าใจแล้วด้วยการติดฉลากหลอกคุณมีชุดของข้อมูลที่มีป้ายกำกับรวมถึงชุดของข้อมูลที่ไม่มีป้ายกำกับ คุณฝึกอบรมโมเดลโดยใช้ข้อมูลที่มีป้ายกำกับเท่านั้น จากนั้นคุณใช้ข้อมูลเริ่มต้นนั้นเพื่อจัดประเภท (แนบป้ายกำกับชั่วคราว) กับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นคุณป้อนทั้งข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับกลับสู่การฝึกอบรมแบบจำลองของคุณ (อีกครั้ง) ปรับให้เหมาะสมกับทั้งป้ายกำกับที่รู้จักและป้ายกำกับที่คาดการณ์ (ทำซ้ำกระบวนการนี้ติดฉลากใหม่ด้วยรุ่นที่อัปเดตแล้ว) ผลประโยชน์ที่อ้างสิทธิ์คือคุณสามารถใช้ข้อมูลเกี่ยวกับโครงสร้างของข้อมูลที่ไม่มีป้ายกำกับเพื่อปรับปรุงแบบจำลอง การเปลี่ยนแปลงของรูปต่อไปนี้มักจะแสดง "แสดงให้เห็น" ว่ากระบวนการสามารถทำให้ขอบเขตการตัดสินใจที่ซับซ้อนมากขึ้นตามที่ข้อมูล (ไม่มีป้ายกำกับ) อยู่ ภาพจากWikimedia Commonsโดย Techerin CC BY-SA 3.0 อย่างไรก็ตามฉันไม่ค่อยซื้อคำอธิบายแบบง่ายๆ อย่างไร้เดียงสาถ้าผลการฝึกอย่างเดียวที่มีป้ายกำกับดั้งเดิมคือขอบเขตการตัดสินใจระดับสูงจะมีการกำหนดป้ายหลอกโดยขึ้นอยู่กับขอบเขตการตัดสินใจนั้น ซึ่งจะกล่าวว่ามือซ้ายของเส้นโค้งส่วนบนจะเป็นป้ายขาวหลอกและมือขวาของเส้นโค้งล่างจะเป็นป้ายดำหลอก คุณจะไม่ได้รับขอบเขตการตัดสินใจโค้งที่ดีหลังจากการฝึกอบรมซ้ำเนื่องจากป้ายหลอกใหม่จะช่วยเสริมขอบเขตการตัดสินใจปัจจุบัน หรือกล่าวอีกนัยหนึ่งขอบเขตการตัดสินใจที่มีป้ายกำกับเท่านั้นในปัจจุบันจะมีความแม่นยำในการทำนายที่สมบูรณ์แบบสำหรับข้อมูลที่ไม่มีชื่อ (นั่นคือสิ่งที่เราใช้ในการสร้าง) ไม่มีแรงผลักดัน (ไม่มีการไล่ระดับสี) ซึ่งจะทำให้เราเปลี่ยนที่ตั้งของขอบเขตการตัดสินใจเพียงแค่เพิ่มข้อมูลที่ติดฉลากหลอก ฉันถูกต้องในการคิดว่าคำอธิบายที่เป็นตัวเป็นตนโดยแผนภาพขาด หรือมีบางอย่างที่ฉันขาดหายไป? ถ้าไม่ได้ประโยชน์ของป้ายกำกับหลอกคืออะไรเนื่องจากขอบเขตการตัดสินใจสั่งสอนขึ้นใหม่มีความแม่นยำที่สมบูรณ์แบบเหนือป้ายกำกับหลอก?

19 machine-learning semi-supervised

3

วิธีจำลองข้อมูลให้มีนัยสำคัญทางสถิติได้อย่างไร

ฉันอยู่เกรด 10 และฉันต้องการจำลองข้อมูลสำหรับโครงงานวิทยาศาสตร์การเรียนรู้ของเครื่อง ตัวแบบสุดท้ายจะใช้กับข้อมูลผู้ป่วยและจะทำนายความสัมพันธ์ระหว่างช่วงเวลาของสัปดาห์และผลกระทบที่มีต่อการรับประทานยาอย่างสม่ำเสมอภายในข้อมูลของผู้ป่วยรายเดียว ค่าการยึดมั่นจะเป็นเลขฐานสอง (0 หมายถึงพวกเขาไม่ได้ทานยา 1 หมายถึงพวกเขา) ฉันกำลังมองหาที่จะสร้างรูปแบบการเรียนรู้ของเครื่องซึ่งสามารถเรียนรู้จากความสัมพันธ์ระหว่างเวลาของสัปดาห์และแยกสัปดาห์ออกเป็นช่วงเวลา 21 ช่วงเวลาสามสัปดาห์ในแต่ละวัน (1 คือเช้าวันจันทร์ 2 วันจันทร์เป็นวันจันทร์ ฯลฯ ) ฉันต้องการจำลองข้อมูลผู้ป่วย 1,000 ราย ผู้ป่วยแต่ละรายจะมีข้อมูล 30 สัปดาห์ ฉันต้องการแทรกแนวโน้มบางอย่างที่เกี่ยวข้องกับช่วงเวลาหนึ่งสัปดาห์และยึดมั่น ตัวอย่างเช่น, ในชุดข้อมูลเดียวฉันอาจพูดได้ว่าช่วงเวลา 7 ของสัปดาห์มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติกับการยึดมั่น เพื่อให้ฉันตัดสินใจได้ว่าความสัมพันธ์นั้นมีนัยสำคัญทางสถิติหรือไม่ฉันต้องทำการทดสอบสองตัวอย่าง t-test เปรียบเทียบหนึ่งช่วงเวลากับแต่ละช่วงเวลาอื่น ๆ และให้แน่ใจว่าค่านัยสำคัญน้อยกว่า 0.05 อย่างไรก็ตามแทนที่จะเลียนแบบข้อมูลของฉันเองและตรวจสอบว่าแนวโน้มที่ฉันแทรกมีความสำคัญหรือไม่ฉันจะทำงานไปข้างหลังและอาจใช้โปรแกรมที่ฉันสามารถขอให้กำหนดช่วงเวลาหนึ่งให้กับแนวโน้มที่สำคัญด้วยการยึดมั่นและจะกลับมา ข้อมูลเลขฐานสองที่บรรจุอยู่ในแนวโน้มที่ฉันขอและยังเป็นข้อมูลไบนารีสำหรับช่วงเวลาอื่น ๆ ที่มีเสียงดังบ้าง แต่ไม่ได้สร้างแนวโน้มที่มีนัยสำคัญทางสถิติ มีโปรแกรมใดบ้างที่สามารถช่วยให้ฉันประสบความสำเร็จเช่นนี้ หรือบางทีโมดูลหลาม? ความช่วยเหลือใด ๆ (แม้ความคิดเห็นทั่วไปในโครงการของฉัน) จะได้รับการชื่นชมอย่างมาก !!

18 machine-learning statistical-significance t-test python simulation

7

ข้อมูลเอนเอียงในการเรียนรู้ของเครื่อง

ฉันกำลังทำงานในโครงการการเรียนรู้ของเครื่องด้วยข้อมูลที่มีอคติอยู่แล้ว (มาก) โดยการเลือกข้อมูล สมมติว่าคุณมีกฎฮาร์ดโค้ด คุณจะสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อแทนที่ได้อย่างไรเมื่อข้อมูลทั้งหมดที่สามารถใช้ได้คือข้อมูลที่ถูกกรองโดยกฎเหล่านั้นแล้วหรือไม่ เพื่อให้สิ่งต่าง ๆ ชัดเจนฉันเดาว่าตัวอย่างที่ดีที่สุดคือการประเมินความเสี่ยงสินเชื่อ : งานคือการกรองลูกค้าทั้งหมดที่มีแนวโน้มที่จะล้มเหลวในการชำระเงิน ทีนี้ข้อมูลเดียว (ที่มีป้ายกำกับ) ที่คุณมีมาจากไคลเอนต์ที่ได้รับการยอมรับโดยชุดของกฎเพราะหลังจากยอมรับคุณจะเห็นว่ามีคนจ่ายหรือไม่ (เห็นได้ชัด) คุณไม่รู้ว่าชุดของกฎนั้นดีแค่ไหนและจะมีผลต่อการกระจายจ่ายที่จ่ายไปยังไม่จ่าย นอกจากนี้คุณมีข้อมูลที่ไม่มีป้ายกำกับจากลูกค้าที่ถูกปฏิเสธอีกครั้งเนื่องจากชุดของกฎ ดังนั้นคุณจึงไม่ทราบว่าจะเกิดอะไรขึ้นกับลูกค้าเหล่านั้นหากได้รับการยอมรับ เช่นหนึ่งในกฎอาจเป็น: "ถ้าอายุของลูกค้า <18 ปีแล้วไม่ยอมรับ" ตัวจําแนกไม่มีวิธีเรียนรู้วิธีจัดการกับไคลเอ็นต์ที่ถูกกรองโดยกฎเหล่านี้ ลักษณนามควรจะเรียนรู้รูปแบบที่นี่ได้อย่างไร การเพิกเฉยปัญหานี้จะนำไปสู่รูปแบบการเปิดเผยข้อมูลที่ไม่เคยพบมาก่อน โดยพื้นฐานแล้วฉันต้องการประมาณค่าของ f (x) เมื่อ x อยู่นอก [a, b] ที่นี่

18 machine-learning classification data-mining bias extrapolation

3

แบบจำลอง (ของเล่น) ของโครงข่ายประสาทเทียม

อาจารย์ฟิสิกส์ของฉันในโรงเรียนระดับประถมศึกษาเช่นเดียวกับผู้ได้รับพระราชทานรางวัลไฟน์แมนมักจะนำเสนอสิ่งที่พวกเขาเรียกว่าแบบจำลองของเล่นเพื่อแสดงแนวคิดและวิธีการขั้นพื้นฐานในวิชาฟิสิกส์เช่นออสซิลเลเตอร์ออสซิลเลเตอร์, ลูกตุ้ม โมเดลของเล่นใดที่ใช้เพื่อแสดงแนวคิดพื้นฐานและวิธีการพื้นฐานที่ประยุกต์ใช้กับโครงข่ายประสาทเทียม (โปรดอ้างอิง) ด้วยแบบจำลองของเล่นฉันหมายถึงเครือข่ายที่เรียบง่ายและมีขนาดเล็กที่สุดที่ใช้กับปัญหาที่มีข้อ จำกัด สูงซึ่งวิธีการขั้นพื้นฐานสามารถนำเสนอและความเข้าใจของผู้ทดสอบและปรับปรุงผ่านการใช้งานจริงเช่นการสร้างรหัสพื้นฐาน การตรวจสอบคณิตศาสตร์พื้นฐานด้วยมือหรือได้รับความช่วยเหลือจากแอปคณิตศาสตร์สัญลักษณ์

18 machine-learning neural-networks deep-learning

4

ทำไม Q-Learning ใช้ epsilon-โลภในระหว่างการทดสอบ?

ในบทความของ DeepMind เกี่ยวกับ Deep Q-Learning สำหรับวิดีโอเกมอาตาริ ( ที่นี่ ) พวกเขาใช้วิธีการ epsilon-โลภสำหรับการสำรวจในระหว่างการฝึกอบรม ซึ่งหมายความว่าเมื่อมีการเลือกการดำเนินการในการฝึกอบรมจะมีการเลือกว่าเป็นการกระทำที่มีค่า q สูงสุดหรือการกระทำแบบสุ่ม การเลือกระหว่างสองสิ่งนี้คือการสุ่มและขึ้นอยู่กับมูลค่าของ epsilon และ epsilon จะถูกทำให้อ่อนลงในระหว่างการฝึกอบรมซึ่งในขั้นต้นจะมีการดำเนินการแบบสุ่มจำนวนมาก (การสำรวจ) แต่ในขณะที่การฝึกอบรมดำเนินไป (การแสวงหาผลประโยชน์) จากนั้นในระหว่างการทดสอบพวกเขายังใช้วิธี epsilon-greedy แต่ด้วย epsilon ที่ค่าต่ำมากเช่นนั้นมีอคติที่แข็งแกร่งต่อการแสวงหาผลประโยชน์มากกว่าการสำรวจโดยนิยมเลือกการกระทำที่มีค่า q สูงกว่าการกระทำแบบสุ่ม อย่างไรก็ตามการกระทำแบบสุ่มบางครั้งยังคงถูกเลือก (5% ของเวลา) คำถามของฉันคือ: ทำไมการสำรวจใด ๆ ที่จำเป็นในตอนนี้เนื่องจากการฝึกอบรมได้ทำไปแล้ว? หากระบบได้เรียนรู้นโยบายที่ดีที่สุดแล้วเหตุใดจึงไม่สามารถเลือกการกระทำเป็นรายการที่มีค่า q สูงสุดได้เสมอ ไม่ควรทำการสำรวจเท่านั้นในการฝึกอบรมและเมื่อเรียนรู้นโยบายที่เหมาะสมแล้วตัวแทนก็สามารถเลือกการกระทำที่เหมาะสมที่สุดซ้ำ ๆ ได้? ขอบคุณ!

18 machine-learning reinforcement-learning q-learning deep-rl

1

ความคิดเห็นเกี่ยวกับ Oversampling โดยทั่วไปและอัลกอริทึม SMOTE โดยเฉพาะ [ปิด]

ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา คุณมีความคิดเห็นอย่างไรเกี่ยวกับการสุ่มตัวอย่างมากเกินไปในการจำแนกประเภทโดยทั่วไปและขั้นตอนวิธี SMOTE โดยเฉพาะ ทำไมเราไม่เพียงแค่ใช้ค่าใช้จ่าย / ค่าปรับเพื่อปรับความไม่สมดุลในข้อมูลระดับและค่าใช้จ่ายของข้อผิดพลาดที่ไม่สมดุล? สำหรับวัตถุประสงค์ของฉันความแม่นยำในการทำนายชุดอนาคตของหน่วยการทดลองเป็นตัวชี้วัดขั้นสูงสุด สำหรับการอ้างอิงกระดาษ SMOTE: http://www.jair.org/papers/paper953.html

18 machine-learning classification oversampling

1

เราทำการวิเคราะห์ถดถอยแบบหลายตัวแปรด้วยค่าสัมประสิทธิ์ * ตัวแปร * / *

ฉันใช้เวลาเรียนรู้การเรียนรู้ของเครื่องจักร (ขออภัยสำหรับการเรียกซ้ำ :) และฉันอดไม่ได้ที่จะรู้สึกทึ่งกับกฎง่ายๆในการเลือก Gradient Descent ผ่านการแก้สมการโดยตรงสำหรับการคำนวณสัมประสิทธิ์การถดถอยในกรณีของการถดถอยเชิงเส้นหลายตัวแปร Rule of thumb: ถ้าจำนวนคุณสมบัติ (อ่านค่าสัมประสิทธิ์ / ตัวแปรอิสระ) อยู่ระหว่างหรือมากกว่าล้านไปกับ Gradient Descent การคำนวณเมทริกซ์ผกผันอื่นสามารถจัดการได้อย่างเป็นธรรมบนฮาร์ดแวร์สินค้าและทำให้การคำนวณสัมประสิทธิ์โดยตรงควรจะดีพอ .10 , 000 - 1 , 000 , 00010,000-1,000,00010,000 - 1,000,000 ฉันพูดถึงสิ่งที่ได้รับจากการแลกเปลี่ยน / ข้อ จำกัด แต่จากมุมมองทางสถิติเราคำนวณแบบจำลองกับค่าสัมประสิทธิ์จำนวนมากที่เคยทำจริงหรือไม่? ถ้าฉันจำคลาสถดถอยเชิงเส้นหลายตัวแปรในโรงเรียนระดับประถมศึกษาเราได้รับคำเตือนให้ใช้ตัวแปรอิสระมากเกินไปเนื่องจากอาจมีผลกระทบเล็กน้อยต่อตัวแปรตามหรือการกระจายของพวกเขาจะไม่เป็นไปตามสมมติฐานที่เราทำเกี่ยวกับข้อมูล แม้ว่าผมจะไม่ขยายความคิดของฉันที่จะคิดว่า "เกลือจำนวนมาก" ผมยังไม่ได้คิดในล้าน คำถาม (s): สิ่งนี้เกิดขึ้นจริงหรือเป็นประเด็นทางทฤษฎีหรือไม่ จุดประสงค์ของการวิเคราะห์ล้านไอวีคืออะไร? มันทำให้เราได้รับมูลค่าของข้อมูลที่เพิ่มขึ้นอย่างมากเมื่อเทียบกับการเพิกเฉยหรือไม่ หรือเป็นเพราะในตอนแรกเราไม่รู้ว่าอะไรมีประโยชน์ดังนั้นเราจึงเรียกใช้การถดถอยแช่งเพื่อดูว่ามีประโยชน์อะไรและไปจากที่นั่นและอาจตัดชุด IV ฉันยังคงเชื่อเพียงเพราะเราสามารถวิเคราะห์ "ทุกอย่าง" ไม่ได้หมายความว่าเราควรโยนมันเข้าไปในตัวแก้ปัญหา (หรือทำ) และคำถามที่ผ่านมาบางคำถามของฉันสะท้อนถึง …

18 machine-learning multiple-regression large-data

2

ความเร็ว, ค่าใช้จ่ายในการคำนวณของ PCA, LASSO, elastic net

ฉันกำลังพยายามเปรียบเทียบความซับซ้อนของการคำนวณ / ความเร็วในการประมาณค่าของวิธีการสามกลุ่มสำหรับการถดถอยเชิงเส้นตามที่ระบุไว้ใน Hastie et al "องค์ประกอบของการเรียนรู้ทางสถิติ" (2nd ed.), บทที่ 3: การเลือกชุดย่อย วิธีการหดตัว วิธีการที่ใช้ทิศทางอินพุตที่ได้รับ (PCR, PLS) การเปรียบเทียบอาจหยาบมากเพียงแค่ให้ความคิด ฉันรวบรวมว่าคำตอบอาจขึ้นอยู่กับขนาดของปัญหาและวิธีการที่เหมาะสมกับสถาปัตยกรรมคอมพิวเตอร์ดังนั้นสำหรับตัวอย่างที่เป็นรูปธรรมเราอาจพิจารณาขนาดตัวอย่างของผู้ลงทะเบียนผู้สมัคร 500 และ 50 คน ฉันส่วนใหญ่สนใจในแรงจูงใจเบื้องหลังความซับซ้อนของการคำนวณ / ความเร็วในการประมาณค่า แต่ไม่นานเท่าไรที่จะใช้กับโพรเซสเซอร์บางตัวสำหรับตัวอย่างที่กำหนด

18 machine-learning estimation feature-selection algorithms time-complexity

4

ทำไมการแยกข้อมูลออกเป็นชุดการฝึกอบรมและการทดสอบจึงไม่เพียงพอ

ฉันรู้ว่าในการเข้าถึงประสิทธิภาพของลักษณนามฉันต้องแบ่งข้อมูลออกเป็นชุดฝึกอบรม / ทดสอบ แต่อ่านนี้ : เมื่อประเมินการตั้งค่าที่แตกต่างกัน (“ พารามิเตอร์มากเกินไป”) สำหรับตัวประมาณเช่นการตั้งค่า C ที่ต้องตั้งค่าด้วยตนเองสำหรับ SVM ยังคงมีความเสี่ยงที่จะเกิดการล้นในชุดทดสอบเนื่องจากพารามิเตอร์สามารถปรับได้จนกว่าตัวประเมินจะทำงานอย่างเหมาะสมที่สุด ด้วยวิธีนี้ความรู้เกี่ยวกับชุดทดสอบสามารถ“ รั่วไหล” ลงในแบบจำลองและตัวชี้วัดการประเมินผลไม่ได้รายงานเกี่ยวกับประสิทธิภาพของการวางนัยทั่วไปอีกต่อไป เพื่อแก้ปัญหานี้ยังมีอีกส่วนหนึ่งของชุดข้อมูลที่สามารถเรียกได้ว่า "ชุดการตรวจสอบความถูกต้อง": การฝึกอบรมเกี่ยวกับชุดการฝึกอบรมหลังจากการประเมินเสร็จสิ้นในชุดการตรวจสอบความถูกต้องและเมื่อการทดสอบประสบความสำเร็จ การประเมินขั้นสุดท้ายสามารถทำได้ในชุดทดสอบ ฉันเห็นว่ามีการแนะนำชุดการตรวจสอบความถูกต้องอีกชุดที่สามซึ่งได้รับการพิสูจน์ด้วยการตั้งค่าการทดสอบที่มากเกินไประหว่างการปรับจูนพารามิเตอร์ ปัญหาคือฉันไม่สามารถเข้าใจได้ว่าการล้นเกินนี้จะปรากฏได้อย่างไรจึงไม่สามารถเข้าใจเหตุผลของชุดที่สามได้

18 machine-learning cross-validation

1

เมทริกซ์ความสับสนรายงานจากการตรวจสอบข้าม K-fold อย่างไร

สมมติว่าฉันใช้การตรวจสอบความถูกต้องข้ามแบบ K-fold ด้วย K = 10 เท่า จะมีเมทริกซ์ความสับสนหนึ่งครั้งสำหรับแต่ละครั้ง เมื่อรายงานผลลัพธ์ฉันควรคำนวณเมทริกซ์ความสับสนเฉลี่ยหรือเพียงแค่รวมเมทริกซ์ความสับสน

18 machine-learning cross-validation accuracy

2

Hidden Markov Model เทียบกับ Markov Transition Model เทียบกับ State-Space Model …?

สำหรับวิทยานิพนธ์ปริญญาโทของฉันฉันกำลังทำงานเพื่อพัฒนาแบบจำลองทางสถิติสำหรับการเปลี่ยนระหว่างสถานะต่าง ๆ ที่กำหนดโดยสถานะทางเซรุ่มวิทยา สำหรับตอนนี้ฉันจะไม่ให้รายละเอียดมากเกินไปในบริบทนี้เนื่องจากคำถามของฉันเป็นเรื่องทั่วไป / ทางทฤษฎี อย่างไรก็ตามปรีชาญาณของฉันคือฉันควรใช้ Hidden Markov Model (HMM); ปัญหาที่ฉันเจอในขณะที่ฉันอ่านวรรณกรรมและการวิจัยพื้นฐานอื่น ๆ ที่จำเป็นในการสร้างแบบจำลองของฉันคือความสับสนเกี่ยวกับคำศัพท์และความแตกต่างที่แน่นอนระหว่างแบบจำลองกระบวนการที่ซ่อนอยู่ประเภทต่างๆ ฉันเพียง แต่ตระหนักถึงสิ่งที่แตกต่างอย่างชัดเจน (ตัวอย่างมา) ยิ่งกว่านั้นฉันคิดว่าอย่างน้อยจากสิ่งที่ฉันได้เห็นในวรรณคดีมีคำศัพท์ที่ไม่ได้มาตรฐานที่สร้างขึ้นจากการสร้างแบบจำลองนี้ ดังนั้นฉันหวังว่าผู้คนจะช่วยให้ฉันเข้าใจคำศัพท์บางส่วนให้ฉันได้ ฉันมีคำถามจำนวนหนึ่ง แต่ฉันเดาว่าเป็นหนึ่งหรือสองคนได้รับคำตอบที่น่าพอใจส่วนที่เหลือจะกลายเป็น disentangled ฉันหวังว่านี่จะไม่ยืดยาวเกินไป หากผู้ดำเนินรายการต้องการให้ฉันแยกส่วนนี้ออกเป็นหลายโพสต์ ไม่ว่าในกรณีใดฉันใส่คำถามตัวหนาแล้วตามด้วยรายละเอียดของคำถามที่ฉันค้นพบระหว่างการค้นหาวรรณกรรม ดังนั้นในลำดับที่ไม่มี: 1) "รูปแบบกระบวนการที่ซ่อนอยู่" คืออะไร? ฉันทำงานภายใต้ความประทับใจว่า "แบบจำลองกระบวนการซ่อนเร้น" เป็นคำศัพท์ในร่มที่สามารถใช้อธิบายแบบจำลองทางสถิติหลายประเภทคำอธิบายความน่าจะเป็นทั้งหมดของข้อมูลอนุกรมเวลาที่สร้างขึ้นโดย "ระบบการซ้อนทับกัน" อาจซ่อนกระบวนการเชิงเส้น "([1]) อันที่จริง [2] กำหนด "แบบจำลองกระบวนการซ่อนเร้น" เป็น "คำทั่วไปหมายถึงทั้งแบบพื้นที่รัฐหรือแบบจำลองมาร์คอฟที่ซ่อนอยู่" [1] ดูเหมือนจะอนุมานได้ว่าแบบจำลองของมาร์คอฟที่ซ่อนอยู่เป็นรูปแบบย่อยของแบบจำลองกระบวนการที่ซ่อนไว้ซึ่งมุ่งเน้นไปที่การอนุมานในสถานะไบนารี ความหมายพื้นฐานดูเหมือนว่าสำหรับฉันว่าโมเดลกระบวนการที่ซ่อนอยู่เป็นลักษณะทั่วไปของโมเดลมาร์คอฟที่ซ่อนอยู่ บางครั้งฉันเห็น "แบบจำลองกระบวนการที่ซ่อนอยู่" และวลี " สัญชาตญาณในส่วนของฉันนี้ถูกต้องหรือไม่? ถ้าไม่มีใครมีการอ้างอิงที่ชัดเจนกว่าวิธีการเหล่านี้หรือไม่ …

18 machine-learning self-study hidden-markov-model

2

เหตุใดการเพิ่มประสิทธิภาพส่วนผสมของเสียนโดยตรงแบบคำนวณได้ยาก?

พิจารณาความน่าจะเป็นบันทึกของส่วนผสมของ Gaussians: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} ฉันสงสัยว่าทำไมมันจึงยากที่จะคำนวณสมการนั้นโดยตรง ฉันกำลังมองหาปรีชาญาณที่ชัดเจนว่าทำไมมันควรจะชัดเจนว่ามันยากหรืออาจเป็นคำอธิบายที่เข้มงวดมากขึ้นว่าทำไมมันยาก ปัญหานี้เป็นปัญหาที่สมบูรณ์หรือไม่หรือเราไม่ทราบวิธีการแก้ปัญหาหรือไม่ นี่คือเหตุผลที่เราใช้อัลกอริทึมEM (การคาดหวังสูงสุด ) หรือไม่ โน้ต: SnSnS_n = ข้อมูลการฝึกอบรม x(t)x(t)x^{(t)} = จุดข้อมูล θθ\theta = ชุดของพารามิเตอร์ที่ระบุ Gaussian, ค่าเฉลี่ย, ค่าเบี่ยงเบนมาตรฐานและความน่าจะเป็นในการสร้างจุดจากแต่ละคลัสเตอร์ / คลาส / Gaussian pipip_i = ความน่าจะเป็นในการสร้างจุดจากคลัสเตอร์ / คลาส / Gaussian i

18 machine-learning gaussian-mixture expectation-maximization

1

ป่าสุ่มสุดขั้วแตกต่างจากป่าสุ่มอย่างไร

การใช้ ER มีประสิทธิภาพมากขึ้นหรือไม่ (เหมือนกันExtreme Gradient Boostingคือการเพิ่มระดับความลาดชัน) - ความแตกต่างสำคัญจากมุมมองของภาคปฏิบัติหรือไม่? มีแพ็คเกจ R ซึ่งใช้งานได้ มันเป็นอัลกอริธึมใหม่ที่เอาชนะการใช้งานแบบ "ทั่วไป" (แพคเกจ RandomForest จาก R) ไม่เพียง แต่ในแง่ของประสิทธิภาพหรือในบางพื้นที่เท่านั้น? Extreme Random Forest http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

18 r machine-learning algorithms random-forest

2

การวิเคราะห์จำแนกเชิงเส้นจะลดขนาดได้อย่างไร

มีคำจาก "องค์ประกอบของการเรียนรู้ทางสถิติ" ที่หน้า 91: K centroids ในพื้นที่อินพุต p-dimension ขยายพื้นที่ส่วนใหญ่มิติ K-1 และถ้า p มีขนาดใหญ่กว่า K นี่จะเป็นมิติที่ลดลงอย่างมาก ฉันมีสองคำถาม: ทำไม K centroids ในพื้นที่อินพุต p-p ขยายที่พื้นที่ส่วนใหญ่ K-1 มิติ? K centroid เป็นอย่างไรบ้าง? ไม่มีคำอธิบายในหนังสือและฉันไม่พบคำตอบจากเอกสารที่เกี่ยวข้อง

18 machine-learning discriminant-analysis

2

ทำไมการประมวลผลภาษาธรรมชาติไม่อยู่ในโดเมนการเรียนรู้ของเครื่อง? [ปิด]

ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการถกเถียงอภิปรายโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันพบมันในหนังสือหลายเล่มรวมทั้งเว็บ การประมวลผลภาษาธรรมชาติและการเรียนรู้ของเครื่องนั้นถูกกล่าวกันว่าเป็นส่วนย่อยที่แตกต่างกันของปัญญาประดิษฐ์ ทำไมล่ะ เราสามารถบรรลุผลลัพธ์ของการประมวลผลภาษาธรรมชาติด้วยการป้อนรูปแบบเสียงให้กับอัลกอริทึมการเรียนรู้ของเครื่อง แล้วความแตกต่างคืออะไร?

18 machine-learning text-mining natural-language

คำถามติดแท็ก machine-learning