การประมาณฟังก์ชั่นสากล


15

มันเป็นที่รู้จักกันผ่านทฤษฎีการประมาณสากลว่าเครือข่ายประสาทที่มีชั้นเดียวที่ซ่อนอยู่และฟังก์ชั่นการเปิดใช้งานโดยพลสามารถประมาณฟังก์ชั่นใด ๆ อย่างต่อเนื่อง

รุ่นอื่น ๆ ที่มีตัวประมาณฟังก์ชั่นสากล


ฉันเข้าร่วมเว็บไซต์นี้เพื่อโหวตคำถามนี้และคำตอบบางส่วน
Prasad Raghavendra

คำตอบ:


20

นี่คือการปฏิบัติอย่างกว้างขวางในวรรณคดีสถิติภายใต้หัวข้อของการถดถอย การอ้างอิงมาตรฐานสองรายการที่นี่คือหนังสือของ Wasserman "สถิติที่ไม่ใช่พารามิเตอร์ทั้งหมด" และ "การแนะนำเบื้องต้นเกี่ยวกับการประเมินที่ไม่ใช่พารามิเตอร์" ของ Tsybakov ฉันจะพูดสั้น ๆ เกี่ยวกับบางสิ่งมาตรฐานและพยายามให้พอยน์เตอร์นอกสถิติ (นี่คือหัวข้อทั่วไปและสาขาต่าง ๆ มีวัฒนธรรมที่แตกต่างกัน: พิสูจน์ทฤษฎีบทต่าง ๆ , ตั้งสมมติฐานต่างกัน)

  1. (regressors เคอร์เนลบางครั้งเรียกว่า Nadaraya-Watson Estimator) ที่นี่คุณเขียนฟังก์ชัน ณ จุดใดก็ได้เป็นการรวมถ่วงน้ำหนักของค่าใกล้เคียง อย่างเป็นรูปธรรมมากขึ้นเนื่องจากนี่คือในเอกสารทางสถิติโดยทั่วไปคุณคิดว่าคุณมีตัวอย่างดึงมาจากการกระจายบางส่วนและแก้ไขเคอร์เนลK (อาจคิดว่านี่เป็น เกาส์เซียน แต่ศูนย์หมายถึงเป็นสิ่งที่สำคัญที่สุด) และการเขียน F ( x ) : = Σฉัน F ( x ฉัน((xผม,(xผม)))ผม=1nK ที่cn(คุณไวต่อระยะทางเล็ก ๆ เมื่อnเพิ่มขึ้น) การรับประกันคือเมื่อnเกณฑ์ความน่าจะเป็นของการบิดเบือน (ความคาดหวังของ sup-norm, ความน่าจะเป็นสูง, อะไรก็ตาม) ไปที่ศูนย์ (มันไม่ค่อยสำคัญว่าKจะเป็นอย่างไร --- มันสำคัญมากกว่าวิธีที่คุณเลือกcn.)

    ^(x)=Σผม(xผม)(K(n(x-xผม))ΣJK(n(x-xJ))),
    nnnKn
  2. L2^. เพื่อให้เข้าใจถึงความหลากหลายของวิธีการที่นี่กระดาษที่ประณีตคือ "การประมาณฟังก์ชั่นที่เหมือนกันด้วยฐานแบบสุ่ม" ของ Rahimi & Recht บางทีฉันควรจะพูดว่าหลวงพ่อของสิ่งเหล่านี้คือการขยายฟูริเยร์; มีเนื้อหาที่ดีมากมายในหนังสือเล่มนี้ของ Mallat ใน Wavelets

  3. (เมธอดทรี) อีกวิธีคือดูที่ฟังก์ชันเป็นทรี ในแต่ละระดับคุณกำลังทำงานกับพาร์ทิชันบางส่วนของโดเมนและกลับมาเช่นจุดเฉลี่ย (การตัดต้นไม้แต่ละต้นจะให้พาร์ติชันด้วย) ในข้อ จำกัด ความละเอียดของพาร์ติชันนี้จะไม่ทำให้ฟังก์ชันไม่น่าเชื่อถืออีกต่อไปและคุณได้สร้างมันขึ้นมาใหม่อีกครั้ง วิธีที่ดีที่สุดในการเลือกพาร์ติชันนี้เป็นปัญหาที่ยากลำบาก (คุณสามารถ google นี้ใต้ "tree tree")

  4. (วิธีการโพลิโนเมียลดูเส้นโค้งและเทคนิคการแก้ไขอื่น ๆ ) โดยทฤษฎีบทของเทย์เลอร์คุณรู้ว่าคุณสามารถเข้าใกล้ฟังก์ชันที่มีพฤติกรรมดี นี่อาจดูเหมือนเป็นวิธีพื้นฐานมาก (เช่นเพียงใช้ Lagrange interpolating polynomial) แต่สิ่งที่น่าสนใจคือการตัดสินใจว่าคะแนนเพื่อสอดแทรก สิ่งนี้ถูกตรวจสอบอย่างกว้างขวางในบริบทของการรวมเชิงตัวเลข คุณสามารถค้นหาคณิตศาสตร์ที่น่าอัศจรรย์ภายใต้หัวข้อ "การสร้างพื้นที่สี่เหลี่ยมจตุรัส" clenshaw-curtis "และ" การสร้างพื้นที่สี่เหลี่ยมจัตุรัส Gaussian " ฉันกำลังขว้างสิ่งนี้ในที่นี้เพราะประเภทของสมมติฐานและการรับประกันที่นี่แตกต่างอย่างมากจากที่ปรากฏด้านบน ฉันชอบสาขานี้ แต่วิธีการเหล่านี้ได้รับผลกระทบจากการสาปแช่งของมิติอย่างน้อยฉันคิดว่านี่เป็นสาเหตุที่พวกเขาพูดคุยกันน้อยกว่าที่เคยเป็น (ถ้าคุณทำการรวมเชิงตัวเลขกับ mathematica ฉันคิดว่ามันเป็นพื้นที่สี่เหลี่ยมจัตุรัส แต่เทคนิคการสุ่มตัวอย่างสำหรับโดเมนหลายตัวแปร)

เมื่อพิจารณาถึงข้อ จำกัด ต่าง ๆ ของคลาสฟังก์ชั่นของคุณคุณสามารถสร้างอินสแตนซ์ด้านบนเพื่อรับสถานการณ์จำลองที่ใช้กันอย่างแพร่หลายทุกประเภท ตัวอย่างเช่นด้วยฟังก์ชันบูลีนที่มีค่าบูลีน thresholding (1. ) จะมีลักษณะเหมือนตัวประมาณค่าเพื่อนบ้านที่ใกล้ที่สุดหรือ SVM ที่มีเคอร์เนลท้องถิ่น (Gaussian) สิ่งต่าง ๆ มากมายดังกล่าวได้รับความทุกข์ทรมานจากการสาปแช่งของมิติ (ขอบเขตแสดงการพึ่งพาเอกซ์โพเนนเชียลของมิติ) ในการเรียนรู้ของเครื่องคุณจะได้รับสิ่งนี้โดยการ จำกัด ชั้นเรียนของคุณให้กับบางครอบครัว (เช่น "วิธีการแบบพารามิเตอร์) หรือโดยข้อ จำกัด โดยนัยซึ่งมักจะเกี่ยวข้องกับคุณภาพของความใกล้เคียงกับความซับซ้อนของฟังก์ชันเป้าหมาย (เช่น ข้อสมมติฐานการเรียนรู้ที่อ่อนแอในการส่งเสริม)

:RdR

(x)=ΣJ=02dชั่วโมงJ(Σผม=1dก.J,ผม(xผม)),
ก.J,ผม:RRชั่วโมงJ:RRก.ชั่วโมงΘ(d2)ฟังก์ชั่นที่ลอยอยู่รอบ ๆ ฉันพบว่าสิ่งนี้น่าอัศจรรย์อย่างสิ้นเชิง

(คุณแค่ถามเกี่ยวกับคลาสฟังก์ชั่น แต่ฉันคิดว่าคุณจะสนใจวิธีการเช่นกัน .. หากไม่ใช่ .. โอ๊ะโอ)


"จากปี 1957!" นั่นคือเลขชี้กำลังของปี 1957 ดังนั้นมันมาจากอนาคตหรือไม่! :)
nbro
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.