ตัวอย่างชีวิตจริงของ“ แบบจำลองทางสถิติที่ไม่ใช่พารามิเตอร์” คืออะไร?


12

ฉันอ่านบทความ Wikipedia เกี่ยวกับแบบจำลองทางสถิติที่นี่และฉันค่อนข้างงุนงงกับความหมายของ "ตัวแบบทางสถิติที่ไม่ใช่พารามิเตอร์" โดยเฉพาะ:

แบบจำลองทางสถิติไม่ใช่พารามิเตอร์ถ้าชุดพารามิเตอร์Θ เป็นมิติที่ไม่มีที่สิ้นสุด แบบจำลองทางสถิติคือsemiparametricถ้ามันมีทั้งขอบเขต จำกัด และพารามิเตอร์อนันต์มิติ อย่างเป็นทางการถ้าdคือมิติของΘและnคือจำนวนของกลุ่มตัวอย่างทั้งสองรุ่น semiparametric และไม่อิงพารามิเตอร์มีdเป็นn ถ้าd/n0 เป็นnโมเดลจะเป็นแบบ semiparametric มิฉะนั้นโมเดลนั้นไม่ใช่พารามิเตอร์

ฉันเข้าใจว่าถ้ามิติ (ฉันใช้นั่นหมายถึงจำนวนพารามิเตอร์) ของโมเดลนั้น จำกัด แน่นอนนี่คือโมเดลพาราเมตริก

สิ่งที่ไม่สมเหตุสมผลสำหรับฉันคือวิธีที่เราสามารถมีแบบจำลองทางสถิติที่มีจำนวนพารามิเตอร์ที่ไม่สิ้นสุดเช่นที่เราจะเรียกมันว่า "แบบไม่อิงพารามิเตอร์" ยิ่งไปกว่านั้นแม้ว่าในกรณีนี้ทำไม "ไม่ใช่" หากในความเป็นจริงมีจำนวนมิติไม่สิ้นสุด สุดท้ายเนื่องจากฉันมาที่นี่จากภูมิหลังการเรียนรู้ของเครื่องมีความแตกต่างระหว่าง "แบบจำลองทางสถิติที่ไม่ใช่พารามิเตอร์" นี้หรือไม่และพูดว่า "แบบจำลองการเรียนรู้ด้วยเครื่องที่ไม่ใช่พารามิเตอร์" ในที่สุดตัวอย่างที่เป็นรูปธรรมอาจเป็นของโมเดลที่ไม่มีขอบเขตอนันต์แบบไม่มีพารามิเตอร์


3
ใช้อีกหน้าวิกิพีเดีย ( en.wikipedia.org/wiki/… ): 'โมเดลที่ไม่ใช่พารามิเตอร์ต่างจากโมเดลพาราเมตริกซึ่งโมเดลโครงสร้างนั้นไม่ได้ระบุไว้ก่อน แต่ถูกกำหนดจากข้อมูลแทน คำที่ไม่ใช่พารามิเตอร์ไม่ได้หมายความว่าแบบจำลองดังกล่าวขาดพารามิเตอร์อย่างสมบูรณ์ แต่จำนวนและลักษณะของพารามิเตอร์นั้นมีความยืดหยุ่นและไม่ได้รับการแก้ไขล่วงหน้า ' ดังนั้นไม่ใช่พารามิเตอร์ไม่มีพารามิเตอร์จำนวนอนันต์ แต่จำนวนพารามิเตอร์ที่ไม่รู้จัก
Riff

ฉันมีข้อสงสัย ในโมเดลที่ไม่ใช่พารามิเตอร์เราจะกำหนดโครงสร้างของโมเดลเป็นสำคัญ ตัวอย่างเช่นใน Decision Trees (ซึ่งเป็นโมเดลที่ไม่มีพารามิเตอร์) เรากำหนด max_depth ถ้าอย่างนั้นคุณจะบอกได้อย่างไรว่าพารามิเตอร์นี้ได้รับการเรียนรู้ / กำหนดจากข้อมูลจริงและไม่ได้กำหนดล่วงหน้า
Amarpreet Singh

คำตอบ:


5

ในฐานะที่เป็น Johnnyboycurtis มี answerd วิธีการที่ไม่ใช่พารามิเตอร์ก็คือถ้ามันไม่มีข้อสันนิษฐานเกี่ยวกับการกระจายตัวของประชากรหรือขนาดตัวอย่างเพื่อสร้างแบบจำลอง

โมเดล k-NN เป็นตัวอย่างของโมเดลที่ไม่มีพารามิเตอร์เนื่องจากไม่พิจารณาสมมติฐานใด ๆ เพื่อพัฒนาโมเดล Naive Bayes หรือ K-หมายความว่าเป็นตัวอย่างของตัวแปรตามที่มันถือว่าการกระจายสำหรับการสร้างแบบจำลอง

ตัวอย่างเช่น K-mean ถือว่าต่อไปนี้ในการพัฒนารูปแบบกลุ่มทั้งหมดเป็นทรงกลม (iid Gaussian) แกนทั้งหมดมีการกระจายตัวเดียวกันและแปรปรวน กลุ่มทั้งหมดมีขนาดเท่ากัน

สำหรับ k-NN จะใช้ชุดการฝึกอบรมที่สมบูรณ์แบบสำหรับการทำนาย มันคำนวณเพื่อนบ้านที่ใกล้ที่สุดจากจุดทดสอบสำหรับการทำนาย มันจะไม่มีการแจกแจงสำหรับการสร้างแบบจำลอง

สำหรับข้อมูลเพิ่มเติม:

  1. http://pages.cs.wisc.edu/~jerryzhu/cs731/stat.pdf
  2. https://stats.stackexchange.com/a/133841/86202
  3. https://stats.stackexchange.com/a/133694/86202

คุณช่วยขยายความในเรื่องนี้ได้ไหม? เหตุใด KNN จึงเป็นตัวอย่างของพารามิเตอร์ที่ไม่ได้ใช้แล้วเหตุใด K-mean จึงเป็นเช่นนั้น? มันคือรายละเอียดเหล่านั้นที่ฉันได้รับมายกตัวอย่างของวิธีการที่ไม่ใช้พารามิเตอร์และทำไม / อย่างไรที่พวกเขาไม่มีข้อสันนิษฐานเกี่ยวกับการกระจายตัวของประชากร ขอบคุณ!
Creatron

@Creatron ฉันได้แก้ไขคำตอบสำหรับคำอธิบายเพิ่มเติม
Prashanth

3

ดังนั้นฉันคิดว่าคุณขาดคะแนนไป ครั้งแรกและที่สำคัญที่สุดคือ

วิธีการทางสถิติเรียกว่า non-parametric หากไม่มีข้อสันนิษฐานเกี่ยวกับการกระจายตัวของประชากรหรือขนาดตัวอย่าง

นี่คือแบบฝึกหัด (ประยุกต์) ที่ใช้งานง่ายในแบบจำลองที่ไม่มีพารามิเตอร์: http://www.r-tutor.com/elementary-statistics/non-parametric-methods

นักวิจัยอาจตัดสินใจที่จะใช้โมเดล nonparemtric เทียบกับแบบจำลองพารามิเตอร์เช่นการถดถอยแบบ nonparamtric กับการถดถอยเชิงเส้นเนื่องจากข้อมูลละเมิดสมมติฐานที่จัดขึ้นโดยโมเดลพาราเมตริก เนื่องจากคุณมาจากพื้นหลัง ML ฉันจะสมมติว่าคุณไม่เคยเรียนรู้รูปแบบการถดถอยเชิงเส้นทั่วไป นี่คือการอ้างอิง: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

การละเมิดสมมติฐานสามารถเบี่ยงเบนการประมาณพารามิเตอร์ของคุณและท้ายที่สุดเพิ่มความเสี่ยงของข้อสรุปที่ไม่ถูกต้อง แบบจำลองที่ไม่ใช่พารามิเตอร์มีความทนทานต่อความผิดปกติมากกว่าความสัมพันธ์แบบไม่เชิงเส้นและไม่ได้ขึ้นอยู่กับสมมติฐานการกระจายตัวของประชากรจำนวนมากดังนั้นจึงสามารถให้ผลลัพธ์ที่น่าเชื่อถือและน่าเชื่อถือมากขึ้นเมื่อพยายามทำการอนุมานหรือการทำนาย

สำหรับการสอนด่วนเกี่ยวกับการถดถอยแบบไม่พารามิเตอร์เราขอแนะนำสไลด์เหล่านี้: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf


ขอบคุณสำหรับลิงค์ฉันจะผ่านพวกเขา แต่สิ่งหนึ่งที่เราควรจะแต่งงานกับสิ่งนี้ด้วย "จำนวนอนันต์ของพารามิเตอร์" ที่ทำขึ้นเป็นแบบ "ไม่ใช่พารามิเตอร์"? ขอบคุณ
Creatron

ไม่มีการอ้างอิงสำหรับ "พารามิเตอร์จำนวนอนันต์" ดังนั้นฉันไม่สามารถแสดงความคิดเห็นได้ ฉันไม่เคยเห็นการอ้างอิงถึงหัวข้อรูปแบบสถิติที่ไม่ใช่พารามิเตอร์ดังนั้นฉันจะต้องเห็นการอ้างอิงก่อนที่ฉันจะสามารถให้คำตอบ / ตีความได้ สำหรับตอนนี้ฉันจะกังวลเกี่ยวกับสมมติฐานของรุ่นเฉพาะเทียบกับทั้งฟิลด์
Jon

บทความวิกิพีเดียที่อ้างถึงในคำถามของฉันอ้างถึงมิติที่ไม่มีที่สิ้นสุด ตามตัวอักษร: "แบบจำลองทางสถิติไม่ใช่พารามิเตอร์ถ้าชุดพารามิเตอร์เป็นมิติที่ไม่มีที่สิ้นสุด" สิ่งนี้หมายความว่า? นี่คือสิ่งที่ฉันหมายถึง
Creatron

ฉันรู้ว่า. แต่วิกิพีเดียไม่ได้อ้างถึงข้อความดังกล่าว ไม่สามารถเชื่อถือสิ่งที่ไม่มีการอ้างอิง
Jon

3

ขณะนี้ฉันกำลังเรียนหลักสูตรการเรียนรู้ของเครื่องจักรซึ่งเราใช้คำจำกัดความของโมเดลที่ไม่ใช่พารามิเตอร์ต่อไปนี้: "โมเดลที่ไม่ใช่พารามิเตอร์จะซับซ้อนมากขึ้นตามขนาดของข้อมูล"

โมเดลพาราเมตริก

wd

f(x)=wTx

แบบจำลองที่ไม่ใช่พารามิเตอร์

การถดถอยของเคอร์เนลพยายามทำนายฟังก์ชันต่อไปนี้: โดยที่เรามีจุดข้อมูลคือน้ำหนักและเป็นฟังก์ชันเคอร์เนล ที่นี่จำนวนพารามิเตอร์คือขึ้นอยู่กับจำนวนของจุดข้อมูลnn α i k ( x i , x ) α i n

f(x)=i=1nαik(xi,x)
nαik(xi,x)αin

สิ่งนี้เป็นจริงสำหรับเคอร์เนล perceptron:

f(x)=sign(i=1nαiyik(xi,x)))

ลองกลับมาให้ความหมายของคุณและพูด d เป็นจำนวน\ถ้าเราปล่อยแล้ว\ นั่นคือสิ่งที่นิยามของวิกิพีเดียถาม n d αind

ฉันใช้ฟังก์ชั่นการถดถอยเคอร์เนลจากสไลด์บรรยายของฉันและฟังก์ชั่นเคอร์เนล perceptron จากวิกิพีเดีย: https://en.wikipedia.org/wiki/Kernel_method

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.