แนวคิด 'พื้นฐาน' ของการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คืออะไร


19

ความคิด 'พื้นฐาน' สถิติสำหรับประมาณค่าพารามิเตอร์เป็นโอกาสสูงสุด ฉันสงสัยว่าอะไรคือความคิดที่สอดคล้องกันในการเรียนรู้ของเครื่อง

Qn 1. เป็นธรรมหรือไม่ที่จะบอกว่าแนวคิด 'พื้นฐาน' ในการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คือ: 'ฟังก์ชั่นการสูญเสีย'

[หมายเหตุ: มันเป็นความประทับใจของฉันที่อัลกอริทึมการเรียนรู้ของเครื่องมักจะปรับฟังก์ชั่นการสูญเสียให้เหมาะสมดังนั้นคำถามข้างต้น]

Qn 2: มีวรรณกรรมใดบ้างที่พยายามลดช่องว่างระหว่างสถิติและการเรียนรู้ของเครื่อง?

[หมายเหตุ: บางทีโดยฟังก์ชั่นการสูญเสียที่เกี่ยวข้องกับโอกาสสูงสุด (เช่น OLS เทียบเท่ากับโอกาสสูงสุดสำหรับข้อผิดพลาดที่กระจายตามปกติ ฯลฯ )]


3
ฉันไม่เห็นความสนใจของคำถามเหล่านี้เกี่ยวกับการพยายามลดช่องว่างที่สมมติขึ้น อะไรคือเป้าหมายของสิ่งนั้น? นอกจากนี้ยังมีความคิดอื่น ๆ อีกมากมายที่เป็นพื้นฐานทางสถิติ ... และฟังก์ชั่นการสูญเสียมีอายุอย่างน้อย 100 ปี คุณสามารถลดสถิติแบบนั้นได้ไหม บางทีคำถามของคุณเกี่ยวกับแนวคิดใน fondamental datamining / สถิติ / เครื่องการเรียนรู้ แต่คุณเรียกมันว่า ... แล้วคำถามที่มีอยู่แล้วและกว้างเกินไปstats.stackexchange.com/questions/372/...
robin girard

ฉันไม่รู้เกี่ยวกับการเรียนรู้ของเครื่องหรือการเชื่อมต่อกับสถิติ ไม่ว่าในกรณีใดก็ตามให้ดูที่คำถามนี้: stats.stackexchange.com/questions/6/…ซึ่งแนะนำว่าอย่างน้อยที่สุดวิธีที่จะตอบคำถามเดียวกันนั้นแตกต่างกัน มันเป็น 'ผิดธรรมชาติ' ที่สงสัยว่ามีการเชื่อมโยงบางอย่างระหว่างพวกเขา? ใช่ฉันยอมรับว่ามีความคิดมากมายในสถิติ นั่นคือเหตุผลที่ฉันมีพื้นฐานในการเสนอราคาและ จำกัด ขอบเขตการประมาณพารามิเตอร์ของดอกเบี้ย

@Srikant ลิงก์ระหว่างอะไร โปรดทราบว่าฉันชอบค้นหาลิงก์ระหว่างกับวัตถุที่กำหนดไว้อย่างดีฉันพบว่ามันเป็นเรื่องจริง
robin girard

6
ในฐานะที่เป็นผู้เรียนรู้เครื่องจักรฉันมาที่นี่เพื่อบอกคุณว่าเราเพิ่มความเป็นไปได้สูงสุด ตลอดเวลา. เอกสารการเรียนรู้ของเครื่องจักรเริ่มต้นด้วย "เฮ้ดูที่ความเป็นไปของฉันดูว่ามันเป็นปัจจัยอย่างไร ฉันขอแนะนำว่ามันเป็นอันตรายที่จะเรียกร้องพื้นฐานพื้นฐานของวินัยทั้งในแง่ของเทคนิคการอนุมาน มันเกี่ยวกับการประชุมที่คุณจะไป!
Mike Dewar

6
ฉันไม่คิดว่าชาวเบย์จะเห็นด้วยกับความน่าจะเป็นสูงสุดที่เป็นแนวคิดพื้นฐานของสถิติ
Marc Claesen

คำตอบ:


17

หากสถิติเกี่ยวกับการเพิ่มความเป็นไปได้สูงสุดการเรียนรู้ด้วยเครื่องก็คือการลดความสูญเสียให้น้อยที่สุด เนื่องจากคุณไม่ทราบถึงความสูญเสียที่จะเกิดขึ้นกับข้อมูลในอนาคตคุณจึงลดการประมาณการเช่นการสูญเสียเชิงประจักษ์

ตัวอย่างเช่นหากคุณมีงานพยากรณ์และประเมินโดยจำนวนการจำแนกประเภทคุณสามารถฝึกอบรมพารามิเตอร์เพื่อให้ตัวแบบผลลัพธ์สร้างจำนวนการจำแนกประเภทที่เล็กที่สุดในข้อมูลการฝึกอบรม "จำนวนการจำแนกประเภทอื่น ๆ " (เช่นการสูญเสีย 0-1) เป็นฟังก์ชั่นการสูญเสียอย่างหนักที่จะทำงานด้วยเพราะมันไม่แตกต่างกันดังนั้นคุณจึงประมาณด้วย "ตัวแทน" ที่ราบรื่น ตัวอย่างเช่นการสูญเสียบันทึกเป็นขอบเขตบนการสูญเสีย 0-1 ดังนั้นคุณสามารถย่อให้เล็กที่สุดแทนและสิ่งนี้จะกลายเป็นเช่นเดียวกับการเพิ่มความน่าจะเป็นเงื่อนไขของข้อมูล ด้วยโมเดลพาราเมทริกวิธีนี้จะเทียบเท่ากับการถดถอยโลจิสติก

ในงานที่มีโครงสร้างการสร้างแบบจำลองและเข้าสู่ระบบการสูญเสียประมาณ 0-1 สูญเสียคุณจะได้รับสิ่งที่แตกต่างจากความน่าจะเป็นเงื่อนไขสูงสุดคุณจะเพิ่มแทนผลิตภัณฑ์ของ (เงื่อนไข) โอกาสเกิดร่อแร่

เพื่อให้การประมาณค่าการสูญเสียดีขึ้นผู้คนสังเกตเห็นว่ารูปแบบการฝึกอบรมเพื่อลดการสูญเสียและการใช้การสูญเสียดังกล่าวเป็นการประมาณการการสูญเสียในอนาคตนั้นเป็นการประเมินในแง่ดีมากเกินไป ดังนั้นสำหรับการลดขนาดที่ถูกต้อง (การสูญเสียในอนาคตที่แท้จริง) ที่แม่นยำยิ่งขึ้นพวกเขาเพิ่มคำว่าการแก้ไขความลำเอียงในการสูญเสียเชิงประจักษ์และลดให้น้อยที่สุดสิ่งนี้เรียกว่า

ในทางปฏิบัติการหาคำศัพท์การแก้ไขอคติที่ถูกต้องอาจยากเกินไปดังนั้นคุณจึงเพิ่มนิพจน์ "ในจิตวิญญาณ" ของคำว่าการแก้ไขอคติเช่นจำนวนผลรวมของพารามิเตอร์ ในท้ายที่สุดการเรียนรู้ด้วยเครื่องแบบ Parametric เกือบทุกวิธีจะจบลงด้วยการฝึกอบรมแบบจำลองเพื่อลดสิ่งต่อไปนี้

iL(m(xi,w),yi)+P(w)

โดยที่เป็นแบบจำลองของคุณ parametrized โดย vector ,ถูกนำไปใช้กับดาต้าพอยน์ทั้งหมด ,คือการประมาณที่ดีของการสูญเสียที่แท้จริงของคุณและคือ วาระ w i { x i , y i } L P ( w )mwi{xi,yi}LP(w)

ตัวอย่างเช่นหากคุณ ,วิธีการทั่วไปจะให้ , ,และเลือกโดยการตรวจสอบความถูกต้องข้าม y { - 1 , 1 } m ( x ) = เครื่องหมาย ( w x ) L ( m ( x ) , y ) = - บันทึก( y × ( x w ) ) P ( w ) = q × ( w w )x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw))P(w)=q×(ww)Q


3
ฉันชอบที่จะเห็นการสูญเสียนี้ลดลงในการจัดกลุ่ม kNN หรือเฟิร์นสุ่ม ...

สำหรับลักษณะฟังก์ชันการสูญเสียของเพื่อนบ้านที่ใกล้ที่สุดของ k- mean
John L. Taylor

@John Still นี่เป็นการผสมผสานที่มีจุดมุ่งหมายด้วยเหตุผล ในระดับที่ดีคุณสามารถอธิบายแต่ละอัลกอริทึมในแง่ของการย่อบางสิ่งบางอย่างและเรียกสิ่งนี้ว่า "การสูญเสีย" kNN ไม่ได้คิดค้นวิธีดังกล่าว: ผู้ชายฉันเคยคิดถึงการสูญเสียเช่นนี้มาเพิ่มประสิทธิภาพและดูว่าจะเกิดอะไรขึ้น! ค่อนข้างผู้ชายสมมติว่าการตัดสินใจต่อเนื่องน้อยกว่าพื้นที่ของฟีเจอร์ดังนั้นถ้าเราจะมีการวัดความคล้ายคลึงกันที่ดี ... และอื่น ๆ

2
"ถ้าสถิติเกี่ยวกับความเป็นไปได้สูงสุดการเรียนรู้ของเครื่องจักรก็คือการลดความสูญเสีย" ฉันไม่เห็นด้วยกับหลักฐานของคุณ - อย่างยิ่งและครบถ้วน บางทีมันอาจเป็นสถิติที่แท้จริงในปี 1920 แต่แน่นอนว่าไม่ใช่ในวันนี้
JMS

19

ฉันจะให้คำตอบแยกรายการ สามารถให้การอ้างอิงได้มากขึ้นตามความต้องการแม้ว่าจะไม่ได้เป็นข้อโต้แย้ง

  • สถิติไม่ได้เกี่ยวกับการเพิ่มประสิทธิภาพสูงสุด (บันทึก) -likelihood นั่นเป็นคำสาปแช่งสำหรับชาวเบย์ผู้ซึ่งเพิ่งอัพเดตผู้โพสต์หรือเผยแพร่ความเชื่อผ่านแบบจำลองที่เหมาะสม
  • จำนวนมากของสถิติเป็นเกี่ยวกับการลดการสูญเสีย และการเรียนรู้ของเครื่องมากมาย การลดการสูญเสียเชิงประจักษ์มีความหมายแตกต่างกันใน ML สำหรับมุมมองที่ชัดเจนและเป็นเรื่องเล่าให้ตรวจสอบ "ธรรมชาติของการเรียนรู้ทางสถิติ" ของ Vapnik
  • การเรียนรู้ของเครื่องไม่ได้เกี่ยวกับการลดการสูญเสีย ครั้งแรกเนื่องจากมีชาวเบย์จำนวนมากใน ML ข้อสองเนื่องจากแอปพลิเคชั่นจำนวนมากใน ML ต้องเกี่ยวข้องกับการเรียนรู้ชั่วคราวและ DP โดยประมาณ แน่นอนว่ามันมีฟังก์ชั่นวัตถุประสงค์ แต่มันมีความหมายแตกต่างกันมากในการเรียนรู้แบบ "เชิงสถิติ"

ฉันไม่คิดว่าจะมีช่องว่างระหว่างทุ่งนามีเพียงวิธีการที่แตกต่างกันมากมายซึ่งซ้อนทับกันในระดับหนึ่ง ฉันไม่รู้สึกว่าจำเป็นที่จะต้องทำให้พวกเขากลายเป็นสาขาวิชาที่มีความแตกต่างและความคล้ายคลึงที่กำหนดไว้อย่างดีและด้วยความเร็วที่พวกเขาพัฒนาขึ้นฉันคิดว่ามันเป็นองค์กรที่ถึงวาระแล้ว


8

ฉันไม่สามารถโพสต์ความคิดเห็น (สถานที่ที่เหมาะสมสำหรับความคิดเห็นนี้) เนื่องจากฉันมีชื่อเสียงไม่มากนัก แต่คำตอบที่ได้รับการยอมรับว่าเป็นคำตอบที่ดีที่สุดโดยเจ้าของคำถามไม่ตรงประเด็น

"ถ้าสถิติเกี่ยวกับความเป็นไปได้สูงสุดการเรียนรู้ด้วยเครื่องก็คือการลดความสูญเสียให้น้อยที่สุด"

ความน่าจะเป็นคือการสูญเสียฟังก์ชัน การเพิ่มโอกาสให้มากที่สุดนั้นเหมือนกับการลดฟังก์ชั่นการสูญเสียให้น้อยที่สุด: ความเบี่ยงเบนซึ่งเป็นเพียง -2 เท่าของฟังก์ชั่นบันทึกความเป็นไปได้ การหาวิธีแก้ปัญหากำลังสองน้อยที่สุดก็คือการลดฟังก์ชั่นการสูญเสียที่อธิบายผลรวมที่เหลือของกำลังสอง

ทั้ง ML และสถิติใช้อัลกอริธึมเพื่อปรับให้เหมาะสมกับฟังก์ชั่นบางอย่าง (ในแง่ที่กว้างที่สุด) กับข้อมูล การเพิ่มประสิทธิภาพจำเป็นต้องเกี่ยวข้องกับการลดฟังก์ชั่นการสูญเสียบางส่วน


1
จุดดียังคงความแตกต่างหลักอยู่ที่อื่น ก่อนสถิติเกี่ยวกับการปรับโมเดลให้เหมาะกับข้อมูลที่มีอยู่ ML คือการปรับโมเดลให้เข้ากับข้อมูลที่จะมี ประการที่สองสถิติสันนิษฐานว่ากระบวนการหนึ่งที่สังเกตได้นั้นขับเคลื่อนโดยแบบจำลอง "ซ่อนเร้น" ที่น่าอับอายบางอย่างที่พวกเขาต้องการขุดขณะที่ ML TRIES ทำให้ซับซ้อนพอที่จะเป็นแบบจำลองที่มีปัญหา

@mbq นั่นเป็นสถิติล้อเลียนที่ค่อนข้างรุนแรง ฉันทำงานในแผนกสถิติของมหาวิทยาลัยห้าแห่งและฉันไม่คิดว่าจะเจอใครที่คิดถึงสถิติเช่นนั้น
Rob Hyndman

1
@ Rob ภาพล้อ? ฉันคิดว่านี่คือสิ่งที่ทำให้สถิติสวยงาม! คุณถือว่า Gaussian และเส้นตรงทั้งหมดและใช้งานได้ - และมีเหตุผลที่เรียกว่าการขยายตัวของเทย์เลอร์ โลกเป็นนรกที่ซับซ้อน แต่ในเชิงเส้นตรง (ซึ่งมักเป็นเก้าสิบ% ของความซับซ้อน) น่ารำคาญเล็กน้อย ML (และสถิติที่ไม่เกี่ยวกับพารามิเตอร์) เกิดขึ้นในสองสามเปอร์เซ็นต์ของสถานการณ์ที่ต้องการแนวทางที่ละเอียดอ่อนกว่านี้ นี่เป็นเพียงอาหารกลางวันฟรี - ถ้าคุณต้องการทฤษฎีบทคุณจำเป็นต้องมีสมมติฐาน หากคุณไม่ต้องการสมมติฐานคุณต้องใช้วิธีการโดยประมาณ

@mbq ยุติธรรมพอสมควร ฉันต้องตีความความคิดเห็นของคุณผิด
Rob Hyndman

4

มีคำตอบเล็กน้อย - ไม่มีการประมาณค่าพารามิเตอร์ในการเรียนรู้ของเครื่อง! เราไม่คิดว่าโมเดลของเราเทียบเท่ากับโมเดลพื้นหลังที่ซ่อนอยู่ เราปฏิบัติต่อทั้งความเป็นจริงและตัวแบบเป็นกล่องดำและเราพยายามเขย่ากล่องรุ่น (ฝึกในศัพท์อย่างเป็นทางการ) เพื่อให้ผลลัพธ์นั้นคล้ายกับกล่องความเป็นจริง

แนวคิดของความน่าจะเป็นไม่เพียง แต่การเลือกแบบจำลองทั้งหมดที่อยู่บนพื้นฐานของข้อมูลการฝึกอบรมจะถูกแทนที่ด้วยการปรับความถูกต้องให้เหมาะสมที่สุด ทำให้สามารถปรับทั้งความแม่นยำและการเรียกคืนได้อย่างเหมาะสมที่สุด สิ่งนี้นำไปสู่แนวคิดของความสามารถในการพูดคุยทั่วไปซึ่งทำได้ในรูปแบบที่แตกต่างกันขึ้นอยู่กับประเภทของผู้เรียน

คำตอบของคำถามที่สองนั้นขึ้นอยู่กับคำจำกัดความ ยังฉันคิดว่าสถิติ nonparametric เป็นสิ่งที่เชื่อมต่อทั้งสอง


ฉันไม่แน่ใจว่าสิ่งนี้ถูกต้องทั้งหมด วิธีการเรียนรู้ของเครื่องทำงานอย่างไรโดยไม่มีการประมาณค่าพารามิเตอร์ (ภายในชุดพารามิเตอร์แบบกระจายหรือแบบกระจาย)
John L. Taylor

1
คุณกำลังประเมิน / คำนวณบางสิ่ง (คำที่แน่นอนอาจแตกต่างกัน) ตัวอย่างเช่นพิจารณาเครือข่ายประสาท คุณไม่ได้คำนวณน้ำหนักสุทธิเมื่อคุณพยายามที่จะทำนายบางสิ่งบางอย่าง? นอกจากนี้เมื่อคุณบอกว่าคุณฝึกฝนเพื่อจับคู่ผลลัพธ์กับความเป็นจริงคุณจะพูดถึงฟังก์ชันการสูญเสียบางอย่างโดยปริยาย

@John, @Srikant Learners มีพารามิเตอร์ แต่ไม่ใช่พารามิเตอร์ในแง่สถิติ พิจารณาการถดถอยเชิงเส้น y = a x (ไม่มีคำศัพท์ว่างสำหรับ simp) a เป็นพารามิเตอร์ที่วิธีการทางสถิติจะพอดีป้อนด้วยสมมติฐานที่ y = a x การเรียนรู้เครื่องก็จะพยายามผลิตx เมื่อถาม x อยู่ในช่วงของรถไฟ (นี้ทำให้รู้สึกเพราะมันไม่ได้สมมติ Y = a x); มันอาจพอดีกับหลายร้อยพารามิเตอร์ในการทำเช่นนี้

3
[ต้องการอ้างอิง] กล่าวอีกนัยหนึ่งคำตอบที่น่าสนใจแม้ว่ามันจะไม่ได้หลอกลวง (อย่างน้อย) กับวรรณกรรม ML จำนวนมาก
gappy

1
คลาสสิกอย่างหนึ่งคือ Breiman "การสร้างแบบจำลองเชิงสถิติ: สองวัฒนธรรม"

2

ฉันไม่คิดว่ามีความคิดพื้นฐานเกี่ยวกับการประมาณค่าพารามิเตอร์ในการเรียนรู้ของเครื่อง ฝูงชน ML จะเพิ่มโอกาสหรือผู้หลังอย่างมีความสุขตราบใดที่อัลกอริธึมมีประสิทธิภาพและทำนาย "ถูกต้อง" มุ่งเน้นไปที่การคำนวณและผลลัพธ์จากสถิติที่ใช้กันอย่างแพร่หลาย

หากคุณกำลังมองหาแนวคิดพื้นฐานโดยทั่วไปแล้วในทฤษฎีการเรียนรู้คอมพิวเตอร์PACเป็นศูนย์กลาง ในทฤษฎีการเรียนรู้ทางสถิติโครงสร้าง miniminization เสี่ยง ; และมีพื้นที่อื่น ๆ (ตัวอย่างเช่นดูโพสต์วิทยาศาสตร์การทำนายโดย John Langford)

ในการเชื่อมโยงสถิติ / ML การหารนั้นดูเหมือนว่าจะถูกทำให้ผิดเพี้ยน ฉันชอบคำตอบที่ดีของคำถาม "สองวัฒนธรรม"


ฝูงชนทางสถิติกำลังคลิกสุ่มใน SPSS จนกว่าค่า p ที่ต้องการจะปรากฏขึ้น

1

คุณสามารถเขียนปัญหาความน่าจะเป็นสูงสุด - เป็นปัญหาการลดความสูญเสียโดยการกำหนดความสูญเสียเป็นความน่าจะเป็นบันทึกเชิงลบ หากความน่าจะเป็นเป็นผลิตภัณฑ์ของความน่าจะเป็นอิสระหรือความหนาแน่นของความน่าจะเป็นการสูญเสียจะเป็นผลรวมของคำศัพท์อิสระซึ่งสามารถคำนวณได้อย่างมีประสิทธิภาพ นอกจากนี้หากตัวแปรสุ่มกระจายโดยทั่วไปปัญหาการลดความสูญเสียที่สอดคล้องกันจะเป็นปัญหากำลังสองน้อยที่สุด

หากเป็นไปได้ในการสร้างปัญหาการลดความสูญเสียโดยการเขียนโอกาสใหม่ให้มากที่สุดสิ่งนี้ควรจะสร้างปัญหาการลดการสูญเสียตั้งแต่เริ่มต้นเพราะมันจะทำให้เกิดปัญหาการลดความสูญเสียที่มากขึ้น (หวังว่า) ก่อตั้งขึ้นตามหลักวิชาและเฉพาะกิจน้อยกว่า ตัวอย่างเช่นน้ำหนักเช่นในสี่เหลี่ยมที่มีน้ำหนักน้อยที่สุดซึ่งโดยปกติคุณจะต้องคาดเดาค่าสำหรับจะเกิดขึ้นจากกระบวนการเขียนปัญหาความน่าจะเป็นเดิม - สูงสุดและมีค่าที่ดีที่สุด (หวังว่า)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.