อะไรทำให้เคอร์เนลเกาส์เซียนมีมนต์ขลังสำหรับ PCA และโดยทั่วไปแล้ว?


67

ฉันอ่านเกี่ยวกับเคอร์เนล PCA ( 1 , 2 , 3 ) กับเกาส์เซียนและเมล็ดพหุนาม

  • เคอร์เนลเกาส์เซียนนั้นแยกข้อมูลที่ไม่เป็นเชิงเส้นออกจากกันได้อย่างไรอย่างดีเป็นพิเศษ? กรุณาให้การวิเคราะห์ที่ใช้งานง่ายเช่นเดียวกับที่เกี่ยวข้องกับคณิตศาสตร์ถ้าเป็นไปได้

  • อะไรคือคุณสมบัติของเคอร์เนลเกาส์เซียน (มีอุดมคติ ) ที่เมล็ดอื่นไม่มี โครงข่ายประสาทเทียม SVM และเครือข่าย RBF เป็นสิ่งสำคัญσ

  • ทำไมเราไม่ใส่บรรทัดฐานพูด Cauchy PDF และคาดหวังผลลัพธ์เดียวกัน

1
+1 คำถามยอดเยี่ยมที่ฉันเกือบมองข้ามเพราะมันไม่มีแท็ก [pca]! แก้ไขแล้ว
อะมีบาพูดว่า Reinstate Monica

4
คำถามที่ดี. ฉันสงสัยว่าถ้าคำตอบอาจจะเป็น "โอ้ใช่เมล็ดอื่น ๆ อีกมากมายที่จะทำงานดีเกินไป แต่เกาส์เป็นที่รู้จักกันดี / ง่าย"
อ้วนเตี้ยโจพีท

@StumpyJoePete ฉันไม่คิดว่านั่นเป็นคำตอบที่ไม่สำคัญ พารามิเตอร์ตำแหน่งของการกระจายอื่น ๆ นั้นหมายถึงอะไร พารามิเตอร์สเกลการกระจายตัวอื่น ๆ นอกจากนี้ยังเป็นความแปรปรวนของมันด้วย? การกระจายอื่น ๆ นั้นใช้งานง่ายในระดับสากล? แน่นอนไม่ Cauchy กระจาย - มันไม่ได้มีความหมาย!
shadowtalker

3
@ssdecontrol ฉันยินดีที่จะพิสูจน์ผิด ฉันยกระดับทั้งคำถามและหนึ่งในคำตอบ - ฉันแค่คิดว่าคำตอบที่น่าเบื่อโฮ - ฮึมทำให้ฉันเริ่มต้นที่ดีที่คำตอบจริงควรหักล้าง
Stumpy Joe Pete

ฉันคิดว่านี่อาจช่วยได้: stats.stackexchange.com/questions/168051/…

คำตอบ:


54

ฉันคิดว่ากุญแจสำคัญในเวทย์มนตร์เป็นไปอย่างราบรื่น คำตอบยาว ๆ ของฉันซึ่งต่อไปนี้เป็นเพียงการอธิบายเกี่ยวกับความลื่นไหลนี้ อาจหรือไม่อาจเป็นคำตอบที่คุณคาดหวัง

คำตอบสั้น ๆ :

กำหนดบวกแน่นอนเคอร์เนลมีอยู่พื้นที่ที่สอดคล้องกันของฟังก์ชั่นH คุณสมบัติของฟังก์ชั่นถูกกำหนดโดยเคอร์เนล ปรากฎว่าถ้าเป็นเคอร์เนลแบบเกาส์ฟังก์ชันในจะราบรื่นมาก ดังนั้นฟังก์ชั่นที่เรียนรู้ (เช่นฟังก์ชั่นการถดถอยส่วนประกอบหลักใน RKHS เช่นเดียวกับเคอร์เนล PCA) นั้นราบรื่นมาก โดยทั่วไปแล้วสมมติฐานความราบรื่นจะเหมาะสมสำหรับชุดข้อมูลส่วนใหญ่ที่เราต้องการจัดการ นี่อธิบายได้ว่าทำไมเคอร์เนลเกาส์เซียนจึงมีมนต์ขลังkHHkH

คำตอบยาวว่าทำไมเคอร์เนล Gaussian ให้การทำงานที่ราบรื่น:

เคอร์เนลที่แน่นอนเชิงบวกกำหนด (โดยนัย) ผลิตภัณฑ์ภายใน สำหรับฟีเจอร์ vectorสร้างจากอินพุตของคุณและ เป็นพื้นที่ฮิลแบร์ต สัญกรณ์ หมายถึงสินค้าภายในระหว่างและ(y) สำหรับจุดประสงค์ของเราคุณสามารถจินตนาการให้เป็นพื้นที่ยูคลิดตามปกติ แต่อาจมีจำนวนมิติไม่ จำกัด ลองนึกภาพเวกเตอร์ปกติที่มีความยาวไม่สิ้นสุดเช่นk ( x , Y ) = φ ( x ) , φ ( Y ) H φ ( x ) x H φ ( x ) , φ ( Y ) φ ( x ) φ ( Y ) H ϕ ( x ) = ( ϕ 1 ( xk(x,y)k(x,y)=ϕ(x),ϕ(y)Hϕ(x)xHϕ(x),ϕ(y)ϕ(x)ϕ(y)H H f ( x ) = f , ϕ ( x ) f ( x )ϕ(x)=(ϕ1(x),ϕ2(x),). ในวิธีการของเคอร์เนลเป็นช่องว่างของฟังก์ชันที่เรียกว่า reproducing kernel Hilbert space (RKHS) พื้นที่นี้มีคุณสมบัติพิเศษที่เรียกว่า `` ทำซ้ำคุณสมบัติ '' ซึ่งเป็นที่ฉ นี้กล่าวว่าในการประเมิน , แรกที่คุณสร้างเวกเตอร์คุณลักษณะ (อนันต์ยาวตามที่กล่าวไว้) สำหรับฉจากนั้นคุณสร้างเวกเตอร์คุณลักษณะของคุณสำหรับแทนด้วย (ยาวไม่สิ้นสุด) การประเมินผลนั้นได้มาจากการใช้ผลิตภัณฑ์ภายในของทั้งสอง เห็นได้ชัดว่าในทางปฏิบัติไม่มีใครสร้างเวกเตอร์ที่มีความยาวไม่สิ้นสุด เนื่องจากเราจะดูแลเกี่ยวกับผลิตภัณฑ์ภายในของเราก็ประเมินโดยตรงเคอร์เนลHf(x)=f,ϕ(x)f(x)fxϕ(x)f(x)k. การข้ามการคำนวณของคุณสมบัติที่ชัดเจนและการคำนวณผลิตภัณฑ์ภายในโดยตรงนั้นเรียกว่า "เคอร์เนลหลอก"

ฟีเจอร์คืออะไร?

ฉันพูดถึงคุณสมบัติโดยไม่ได้ระบุว่ามันคืออะไร รับเคอร์เนลคุณสมบัติไม่ซ้ำกัน แต่ ถูกกำหนดโดยไม่ซ้ำกัน เพื่ออธิบายความนุ่มนวลของฟังก์ชั่นให้เราพิจารณาคุณสมบัติของฟูริเยร์ สมมติว่าค่าคงที่เคอร์เนลการแปลหมายถึง เช่นเคอร์เนลขึ้นอยู่กับความแตกต่างของอาร์กิวเมนต์สองตัวเท่านั้น เคอร์เนลเสียนมีคุณสมบัตินี้ Letแสดงว่าฟูเรียร์ของkϕ1(x),ϕ2(x),kϕ(x),ϕ(y)kk(x,y)=k(xy)k^k

ในมุมมองฟูริเยร์นี้คุณลักษณะของ ถูกกำหนดโดย . นี้จะบอกว่าการแสดงคุณลักษณะของการทำงานของคุณ จะได้รับจากฟูริเยร์ของแปลงหารด้วย Fourer เปลี่ยนของเคอร์เนลkคุณลักษณะที่เป็นตัวแทนของซึ่งคือ คือ โดยที่{-1} หนึ่งสามารถแสดงให้เห็นว่าทรัพย์สินทำซ้ำถือ (การออกกำลังกายให้ผู้อ่าน)ff:=(,f^l/k^l,)fkxϕ(x)(,k^lexp(ilx),)i=1

เช่นเดียวกับในทุกพื้นที่ของ Hilbert องค์ประกอบทั้งหมดที่อยู่ในพื้นที่นั้นจะต้องมีบรรทัดฐานที่แน่นอน ให้เราพิจารณาบรรทัดฐานกำลังสองของ :fH

fH2=f,fH=l=f^l2k^l.

ดังนั้นเมื่อไรค่าปกตินี้คือเป็นของอวกาศ? เมื่อลดลงเร็วกว่าเพื่อให้ผลรวมมาบรรจบกัน ตอนนี้การแปลงฟูริเยร์ของเคอร์เนลแบบเกาส์ff^l2k^l k(x,y)=exp(xy2σ2)

เป็นเสียนที่อื่นลดลงอย่างรวดเร็วด้วยการชี้แจงต่อลิตรดังนั้นหากคือการอยู่ในพื้นที่นี้ฟูริเยร์มันเปลี่ยนจะต้องลดลงได้เร็วยิ่งขึ้นกว่าที่ของkซึ่งหมายความว่าฟังก์ชั่นจะมีประสิทธิภาพเพียงไม่กี่องค์ประกอบความถี่ต่ำที่มีน้ำหนักสูง สัญญาณที่มีส่วนประกอบที่มีความถี่ต่ำเท่านั้นไม่สั่นสะเทือนมาก สิ่งนี้อธิบายว่าทำไมเคอร์เนล Gaussian ให้ฟังก์ชันที่ราบรื่นแก่คุณk^llfk

พิเศษ: แล้วเคอร์เนล Laplace ล่ะ?

หากคุณพิจารณาเคอร์เนล Laplace , ฟูริเยร์ของมันเปลี่ยนเป็น Cauchy กระจายซึ่งลดลงช้ากว่าชี้แจง ฟังก์ชั่นในการแปลงฟูริเยร์ของเคอร์เนลเกาส์เซียน นี่หมายความว่าฟังก์ชั่นจะมีส่วนประกอบความถี่สูงมากขึ้น เป็นผลให้ฟังก์ชั่นที่ได้รับจากเคอร์เนล Laplace คือ `` หยาบกว่า '' มากกว่าที่ได้รับจากเคอร์เนลเกาส์เซียนk(x,y)=exp(xyσ)f

อะไรคือคุณสมบัติของเคอร์เนลเกาส์เซียนที่เมล็ดอื่นไม่มี?

คุณสมบัติหนึ่งคือเคอร์เนลเกาส์เซียนเป็น `` universal '' สังหรณ์ใจซึ่งหมายความว่ากำหนดขอบเขตการทำงานอย่างต่อเนื่อง (พล) มีอยู่ฟังก์ชั่นเช่นว่าและ อยู่ใกล้ (ในความหมายของสูงสุดที่ต้องการโดยพลการ โดยทั่วไปสิ่งนี้หมายถึงเคอร์เนล Gaussian ให้ฟังก์ชันที่สามารถประมาณฟังก์ชั่น "ดี" (ขอบเขต, ต่อเนื่อง) โดยพลการได้ดี เมล็ด Gaussian และ Laplace เป็นสากล เคอร์เนลพหุนามยกตัวอย่างเช่นไม่ใช่gfHfg)

ทำไมเราไม่ใส่บรรทัดฐานพูด Cauchy PDF และคาดหวังผลลัพธ์เดียวกัน

โดยทั่วไปแล้วคุณสามารถทำอะไรก็ได้ที่คุณต้องการตราบใดที่ผลลัพธ์ นั้นเป็นค่าบวกแน่นอน ความหมายเชิงบวกถูกกำหนดเป็น สำหรับทั้งหมด ,และ (ชุดจำนวนธรรมชาติ) . หากไม่แน่นอนแน่นอนก็จะไม่สอดคล้องกับพื้นที่ผลิตภัณฑ์ภายใน การวิเคราะห์ทั้งหมดแตกเพราะคุณไม่มีช่องว่างของฟังก์ชั่น ตามที่กล่าวไว้ อย่างไรก็ตามมันอาจใช้งานได้จริง ตัวอย่างเช่นเคอร์เนลไฮเพอร์โบลิกแทนเจนต์ (ดูหมายเลข 7 ในหน้านี้ )ki=1Nj=1Nk(xi,xj)αiαj>0αiR{xi}i=1NNNkH

k(x,y)=tanh(αxy+c)

ซึ่งมีวัตถุประสงค์ที่จะเลียนแบบการเปิดใช้งานหน่วย sigmoid ในเครือข่ายประสาทเป็นเพียงบวกแน่นอนสำหรับการตั้งค่าของบางส่วนและคยังมีรายงานว่าใช้งานได้จริงαc

คุณสมบัติอื่น ๆ

ฉันบอกว่าคุณสมบัติไม่ซ้ำกัน สำหรับเคอร์เนลแบบเกาส์, ชุดของคุณลักษณะอื่นจะได้รับจากการขยายตัวของเมอร์เซอร์ ดูมาตรา 4.3.1 ที่มีชื่อเสียงของหนังสือเล่มกระบวนการเสียน ในกรณีนี้คุณสมบัติเป็นพหุนาม Hermite ประเมินxϕ(x)x


2
ฉันยังไม่ได้รับรางวัลเงินรางวัล แต่ฉันอยากจะให้รางวัลกับคำตอบนี้เพราะมันเป็นเป้าหมายของคำถามและทำการเปรียบเทียบกับเมล็ดอื่นอย่างชัดเจน
shadowtalker

ในที่สุดคำถามนี้ได้คำตอบที่ยอดเยี่ยม! (+1) ฉันสับสนโดยสังเขปโดยสัญกรณ์ที่คุณใช้ที่นี่: - และในย่อหน้าต่อไปนี้ จะไม่ใช่สัญกรณ์ที่ชัดเจนมากขึ้นชัดเจนขึ้นโดยการแยกฟังก์ชันจากพื้นที่เดิมและเวกเตอร์ , ที่ทำงานได้อย่างไร? อย่างไรก็ตามฟังก์ชั่นใดบ้างที่รับประกันว่าจะ "ทำซ้ำ" โดย "คุณสมบัติการทำซ้ำ" ทั้งหมดหรือไม่ อย่างต่อเนื่อง? เรียบ? f(x)=f,ϕ(x)f(x)=Ψ(f),ϕ(x)f()Ψ(f)HΨ()
อะมีบาพูดว่า Reinstate Monica

@amoeba ในวรรณคดีผู้คนไม่แยกแยะการเป็นตัวแทนของและฟังก์ชันเอง หากจำเป็นบางครั้งพวกเขาใช้เพื่อเป็นตัวแทนและสำหรับฟังก์ชั่น ฟังก์ชั่นทั้งหมดในช่องว่างมีคุณสมบัติการทำซ้ำ ราบรื่นหรือไม่นั้นระบุโดยเคอร์เนล :)fff()H
Wij

อัปเดตโพสต์แล้ว เพิ่มอีกเล็กน้อยบนเคอร์เนล tanh
Wij

อืมฉันคิดว่าฉันสับสนอยู่ที่นี่ เราเริ่มต้นด้วยพื้นที่ว่างแบบเวกเตอร์ซึ่งมีจุดข้อมูลอยู่จากนั้นเราก็เลือกที่เป็นบวกแน่นอนเคอร์เนลR จากนั้นเราก็อ้างว่าทฤษฎีบท 1ถือ:สามารถรับรู้ได้ว่าเป็นผลิตภัณฑ์จุดในบางพื้นที่ของฮิลแบร์ตเช่นนั้นโดยที่H ถูก และตอนนี้คุณบอกว่าฟังก์ชันใด ๆทำหน้าที่สามารถรับรู้ได้ว่าเป็นผลคูณสเกลาร์ของการเป็นตัวแทนXxk(,):X×XRkHk(x,y)=ϕ(x),ϕ(y)ϕ:XHf(x)XfHด้วย ? ถูกต้องหรือไม่ ϕ(x)
อะมีบาพูดว่า Reinstate Monica

18

ฉันจะพยายามอย่างดีที่สุดเพื่อตอบคำถามนี้ไม่ใช่เพราะฉันเป็นผู้เชี่ยวชาญในหัวข้อ (ค่อนข้างตรงข้าม) แต่เพราะฉันอยากรู้เกี่ยวกับสนามและหัวข้อรวมกับความคิดที่ว่ามันอาจเป็นประสบการณ์การศึกษาที่ดี . อย่างไรก็ตามนี่คือผลของการวิจัยมือสมัครเล่นสั้น ๆ ของฉันในเรื่อง

TL; DR : ฉันจะพิจารณาข้อความต่อไปนี้จากรายงานการวิจัย"การเชื่อมต่อระหว่างผู้ให้บริการด้านกฎระเบียบและการสนับสนุนเวกเตอร์เมล็ด"เป็นคำตอบสั้น ๆ สำหรับคำถามนี้:

เมล็ดเกาส์เซียนมีแนวโน้มที่จะให้ประสิทธิภาพที่ดีภายใต้สมมติฐานความเรียบทั่วไปและควรได้รับการพิจารณาเป็นพิเศษหากไม่มีความรู้เพิ่มเติมเกี่ยวกับข้อมูล

ตอนนี้คำตอบโดยละเอียด (เพื่อความเข้าใจที่ดีที่สุดของฉันสำหรับรายละเอียดทางคณิตศาสตร์โปรดใช้การอ้างอิง)

ที่เรารู้ว่าการวิเคราะห์องค์ประกอบหลัก (PCA)เป็นวิธีการที่ได้รับความนิยมอย่างมากในการลดมิติ , อยู่คนเดียวและสำหรับการจำแนกประเภทตามมาของข้อมูล: http://www.visiondummy.com/2014/05/feature-extraction-using-pca อย่างไรก็ตามในสถานการณ์เมื่อข้อมูลมีการพึ่งพาแบบไม่เชิงเส้น (ในคำอื่น ๆ ที่แยกออกไม่ได้เชิงเส้น ) PCA แบบดั้งเดิมไม่สามารถใช้งานได้ (ทำงานได้ไม่ดี) สำหรับกรณีเหล่านี้สามารถใช้วิธีการอื่นและPCA ที่ไม่ใช่เชิงเส้นเป็นหนึ่งในนั้น

วิธีการที่ PCA ยึดตามการใช้ฟังก์ชันเคอร์เนลมักจะอ้างถึงโดยใช้คำว่า "kernel PCA" ( kPCA ) ร่ม การใช้เคอร์เนลฟังก์ชันพื้นฐานเรเดียนซ์ (RBF)น่าจะเป็นรูปแบบที่นิยมมากที่สุด วิธีการนี้มีการอธิบายอย่างละเอียดในหลาย ๆ แหล่ง แต่ฉันชอบคำอธิบายที่ยอดเยี่ยมโดย Sebastian Raschka ในโพสต์บล็อกนี้ อย่างไรก็ตามในขณะที่กล่าวถึงความเป็นไปได้ของการใช้ฟังก์ชั่นเคอร์เนลนอกเหนือจาก Gaussian RBF โพสต์มุ่งเน้นไปที่หลังเนื่องจากความนิยม โพสต์บล็อกที่ดีนี้แนะนำการประมาณเคอร์เนลและเคล็ดลับเคอร์เนลกล่าวถึงเหตุผลที่เป็นไปได้อีกประการหนึ่งสำหรับความนิยมเคอร์เนล Gaussian สำหรับ PCA: มิติที่ไม่มีที่สิ้นสุด.

ข้อมูลเชิงลึกเพิ่มเติมสามารถพบได้ในหลายคำตอบใน Quora โดยเฉพาะอย่างยิ่งการอ่านการสนทนาที่ยอดเยี่ยมนี้เผยให้เห็นหลาย ๆ จุดเกี่ยวกับสาเหตุที่เป็นไปได้ของความนิยมของเคอร์เนล Gaussian ดังนี้

  • เมล็ดเกาส์เซียนเป็นสากล :

เมล็ดเกาส์เซียนเป็นเมล็ดข้าวสากลเช่นการใช้กับการทำให้เป็นมาตรฐานที่เหมาะสมรับประกันว่าจะมีตัวพยากรณ์ที่เหมาะสมที่สุดในโลกซึ่งจะลดข้อผิดพลาดทั้งการประมาณค่าและการประมาณค่าของลักษณนาม

  • เมล็ด Gaussian เป็นวงกลม (ซึ่งนำไปสู่มิติที่ไม่มีที่สิ้นสุดที่กล่าวถึงข้างต้นหรือไม่)
  • เมล็ดเกาส์เซียนสามารถเป็นตัวแทนของ "ภูมิประเทศที่หลากหลาย"
  • จุดต่อไปนี้ซึ่งสนับสนุนข้อสรุปหลักข้างต้นนั้นส่งได้ดีกว่าโดยการอ้างถึงผู้แต่ง:

เคอร์เนล Gaussian RBF เป็นที่นิยมมากและสร้างเคอร์เนลเริ่มต้นที่ดีโดยเฉพาะอย่างยิ่งในกรณีที่ไม่มีความรู้จากผู้เชี่ยวชาญเกี่ยวกับข้อมูลและโดเมนเนื่องจากเป็นส่วนย่อยของพหุนามและเคอร์เนลเชิงเส้นเช่นกัน เคอร์เนลเชิงเส้นและเมล็ดพหุนามเป็นกรณีพิเศษของเคอร์เนล Gaussian RBF เมล็ดแบบเกาส์อาร์เอฟอาร์เป็นแบบจำลองที่ไม่ใช้พารามิเตอร์ซึ่งหมายความว่าความซับซ้อนของแบบจำลองนั้นอาจไม่มีที่สิ้นสุดเนื่องจากจำนวนหน้าที่การวิเคราะห์นั้นไม่มีที่สิ้นสุด

  • เมล็ดเกาส์เซียนดีที่สุด (บนความนุ่มนวลอ่านเพิ่มเติมที่นี่ - ผู้เขียนคนเดียวกัน):

เคอร์เนลเกาส์เซียนเป็นเพียงตัวกรองผ่านแถบ มันเลือกทางออกที่ราบรื่นที่สุด [... ] เคอร์เนล Gaussian ทำงานได้ดีที่สุดเมื่อผลรวมอนุพันธ์ลำดับสูงมาบรรจบกันเร็วที่สุด - และนั่นเกิดขึ้นสำหรับการแก้ปัญหาที่ราบรื่นที่สุด

ในที่สุดคะแนนเพิ่มเติมจากคำตอบที่ดีนี้ :

  • เมล็ดเกาส์เซียนรองรับโมเดลที่ซับซ้อนอย่างไม่มีที่สิ้นสุด
  • เมล็ดเกาส์เซียนนั้นมีความยืดหยุ่นมากกว่า

หมายเหตุ:

จุดอ้างอิงข้างต้นเกี่ยวกับเคอร์เนลเกาส์เซียนเป็นตัวเลือกที่ดีที่สุดโดยเฉพาะเมื่อไม่มีความรู้ล่วงหน้าเกี่ยวกับข้อมูลได้รับการสนับสนุนโดยประโยคต่อไปนี้จากคำตอบ CV นี้ :

ในกรณีที่ไม่มีความรู้จากผู้เชี่ยวชาญเคอร์เนล Radial Basis จะสร้างเคอร์เนลเริ่มต้นที่ดี (เมื่อคุณสร้างแล้วมันเป็นปัญหาที่ต้องใช้โมเดลที่ไม่ใช่เชิงเส้น)

สำหรับผู้ที่อยากรู้เกี่ยวกับความแตกต่างที่ไม่จำเป็นระหว่างเคอร์เนล RBF เกาส์และมาตรฐานเคอร์เนล Gaussian คำตอบนี้อาจจะเป็นที่น่าสนใจ: https://stats.stackexchange.com/a/79193/31372

สำหรับผู้ที่สนใจในการนำkPCAไปใช้เพื่อความเพลิดเพลินหรือเพื่อธุรกิจการโพสต์บล็อกที่ดีอาจมีประโยชน์ มันเขียนโดยหนึ่งในผู้เขียน (ผู้สร้าง?) ของAccord.NET -. กรอบโอเพนซอร์ซ. NET ที่น่าสนใจมากสำหรับการวิเคราะห์ทางสถิติ, การเรียนรู้ของเครื่อง, การประมวลผลสัญญาณและอีกมากมาย


5
ฉันขอขอบคุณและชื่นชมความพยายามในการเขียนคำตอบนี้ แต่ในขณะเดียวกันต้องบอกว่ามันอ้างอิงจากแหล่งข้อมูลมากมายที่ไม่น่าเชื่อถือและให้คำอธิบายที่เป็นคลื่นทั่วไปที่อาจถูกต้อง แต่อาจ ยังเป็นเท็จอย่างสมบูรณ์ ดังนั้นเคอร์เนล RBF จึงเป็นเคอร์เนลแบบคงที่แบบไอโซโทรปิกที่มีการสร้างพื้นที่ฮิลแบร์ตแบบไร้มิติ ดี! มีเมล็ดอื่นที่มีคุณสมบัติเหล่านี้หรือไม่? ถ้าเป็นเช่นนั้นทำไม RBF ถึงดีกว่าพวกเขาทั้งหมด ในความเป็นจริงมีการสนับสนุนเชิงประจักษ์ต่อข้ออ้างที่ว่า RBF มีประสิทธิภาพเหนือกว่าคู่แข่งเช่นนี้หรือไม่?
อะมีบาพูดว่า Reinstate Monica

@amoeba: ขอบคุณสำหรับคำพูดดี ๆ ในแง่ของแหล่งข้อมูลที่ฉันใช้คุณมีสิทธิ์บางส่วน - มันเป็นการผสมผสานและแหล่งข้อมูลบางส่วนเป็นเพียงความคิดเห็น อย่างไรก็ตามบางแหล่ง (เช่นโพสต์ในบล็อก) อ้างถึงเอกสารที่เป็นของแข็ง เมื่อมาถึงจุดนี้ฉันถูกดึงดูดด้วยคำอธิบายที่มีคุณภาพมากกว่าความเข้มงวด เท่าที่คำถามของคุณไปฉันกำลังเตรียมที่จะตอบคำถามเหล่านี้ในภายหลัง ฉันจำเป็นต้องอ่านทฤษฎีอีกเล็กน้อย ฉันได้รวบรวมแหล่งข้อมูลด้วยการสนับสนุนเชิงประจักษ์แล้ว แต่ต้องการเวลามากขึ้นสำหรับการจัดระบบของพวกเขา (และการนอนหลับบ้าง :)
Aleksandr Blekh

1
ฉันรู้สึกว่าข้อเท็จจริงที่ว่าเกาส์มีเอนโทรปีสูงสุดในการกระจายสมมาตรที่แท้จริงมีบทบาทในจุดแรกของคุณเกี่ยวกับผลงานที่ดีภายใต้ข้อสันนิษฐานทั่วไป
shadowtalker

2
ยัง @AleksandrBlekh นี่คือการรวบรวมที่ยอดเยี่ยม ผู้คนจะชอบเศษผ้าใน Quora แต่ก็ไม่ได้มีอำนาจอะไรมากไปกว่าการเชื่อมโยงไปยังคำตอบอื่นที่นี่
shadowtalker

@ssdecontrol: ขอบคุณสำหรับคำพูดที่ใจดี ดีใจที่เราอยู่ในหน้าเดียวกันเกี่ยวกับหัวข้อ ฉันมีข้อมูลเพิ่มเติมบางอย่างเพื่อแสดงความคิดเห็นของอะมีบาดังนั้นโปรดดูพื้นที่นี้หากคุณสนใจ
Aleksandr Blekh

8

ขอผมใส่สองเซ็นต์

วิธีที่ฉันคิดเกี่ยวกับเมล็ดเกาส์เซียนนั้นเป็นตัวแยกประเภทเพื่อนบ้านที่ใกล้ที่สุดในบางแง่มุม สิ่งที่เคอร์เนล Gaussian ทำคือมันแสดงถึงแต่ละจุดด้วยระยะทางไปยังจุดอื่น ๆ ทั้งหมดในชุดข้อมูล ตอนนี้คิดถึงตัวแยกประเภทที่มีขอบเขตเชิงเส้นหรือพหุนามขอบเขตถูก จำกัด ไว้ที่รูปร่างบางอย่าง อย่างไรก็ตามเมื่อคุณมองไปที่เพื่อนบ้านที่ใกล้ที่สุดเขตแดนอาจเป็นรูปเป็นร่างได้ นั่นคือฉันคิดว่าทำไมเราถึงคิดว่าเกาส์เคอร์เนลก็เป็นแบบไม่พารามิเตอร์เช่นการปรับขอบเขตขึ้นอยู่กับข้อมูล อีกวิธีที่จะคิดคือเคอร์เนลเกาส์เซ่ปรับให้เข้ากับรูปร่างของท้องถิ่นในภูมิภาคคล้ายกับเพื่อนบ้านที่ใกล้ที่สุดปรับขอบเขตโดยดูจากระยะทางไปยังจุดอื่น ๆ ในภูมิภาค

ฉันไม่มีข้อโต้แย้งทางคณิตศาสตร์สำหรับเรื่องนี้ แต่ฉันคิดว่าความจริงที่ว่าเคอร์เนลเกาส์เซียนในความเป็นจริงแมปไปยังพื้นที่มิติที่ไม่มีที่สิ้นสุดนั้นเกี่ยวข้องกับความสำเร็จของมัน สำหรับเมล็ดเชิงเส้นและพหุนามผลิตภัณฑ์ดอทจะถูกถ่ายในพื้นที่ จำกัด ดังนั้นจึงดูเหมือนมีประสิทธิภาพมากกว่าในการทำสิ่งต่าง ๆ ในพื้นที่ขนาดใหญ่ ฉันหวังว่าบางคนจะเข้าใจสิ่งเหล่านี้ได้ดีขึ้น นั่นก็หมายความว่าถ้าเราสามารถหาเมล็ดอื่นที่มีช่องว่างขนาดไม่ จำกัด พวกเขาก็ควรจะมีพลังมาก น่าเสียดายที่ฉันไม่คุ้นเคยกับเคอร์เนลใด ๆ

สำหรับประเด็นสุดท้ายของคุณฉันคิดว่า Cauchy pdf หรือ PDF อื่นใดที่วัดระยะทางไปยังจุดอื่นควรทำงานได้ดีพอ ๆ กัน อีกครั้งฉันไม่มีอาร์กิวเมนต์ทางคณิตศาสตร์ที่ดีสำหรับมัน แต่การเชื่อมต่อกับเพื่อนบ้านที่ใกล้ที่สุดทำให้เป็นไปได้

แก้ไข:

ต่อไปนี้เป็นแนวคิดบางส่วนเกี่ยวกับวิธีคิดลักษณนามโดยใช้เมล็ดเกาส์เซียนเป็นลักษณนามใกล้เคียง ก่อนอื่นให้เราคิดว่าลักษณนามเพื่อนบ้านใกล้เคียงทำอะไร โดยพื้นฐานแล้วลักษณนามเพื่อนบ้านที่ใกล้ที่สุดคือลักษณนามมาตรฐานที่ใช้ระยะทางระหว่างจุดเป็นอินพุต อย่างเป็นทางการมากขึ้นลองจินตนาการว่าเราสร้างการแสดงคุณลักษณะสำหรับแต่ละจุดในชุดข้อมูลโดยการคำนวณระยะทางไปยังจุดอื่นทั้งหมด เหนือ,คือฟังก์ชันระยะทาง จากนั้นสิ่งที่ลักษณนามเพื่อนบ้านที่ใกล้ที่สุดทำคือการทำนายเลเบลคลาสสำหรับจุดที่อิงตามการแสดงคุณลักษณะและเลเบลคลาสสำหรับข้อมูล โดยที่ϕixi

ϕi=(d(xi,x1),d(xi,x2),,d(xi,xn))
d
pi=f(ϕi,y)
piเป็นคำทำนายสำหรับจุดข้อมูลและเป็นเวกเตอร์ของป้ายชั้นเรียนสำหรับx_nxiyx1,x2,,xn

วิธีที่ฉันคิดเกี่ยวกับเมล็ดข้าวคือพวกเขาทำสิ่งเดียวกัน พวกเขาสร้างการแสดงคุณสมบัติของแต่ละจุดโดยใช้ค่าเคอร์เนลกับจุดอื่น ๆ ในชุดข้อมูล คล้ายกับกรณีเพื่อนบ้านที่ใกล้ที่สุดอย่างเป็นทางการมากกว่านี้จะเป็น ตอนนี้การเชื่อมต่อกับเพื่อนบ้านที่ใกล้ที่สุดค่อนข้างชัดเจน หากฟังก์ชันเคอร์เนลของเราคือการวัดบางอย่างที่เกี่ยวข้องกับการวัดระยะทางที่เราใช้ในตัวแยกประเภทเพื่อนบ้านที่ใกล้ที่สุดตัวจําแนกตามเคอร์เนลของเราจะคล้ายกับโมเดลเพื่อนบ้านที่ใกล้ที่สุด

ϕi=(k(xi,x1),k(xi,x2),,k(xi,xn))

หมายเหตุ: ตัวแยกประเภทที่เราฝึกใช้เมล็ดไม่ทำงานโดยตรงกับการเป็นตัวแทนเหล่านี้แต่ฉันคิดว่านั่นคือสิ่งที่พวกเขาทำโดยปริยายϕi


การตีความเพื่อนบ้านที่ใกล้ที่สุดนั้นน่าสนใจ คุณคิดว่าคุณจะสามารถขยายความได้บ้างหรือเปล่า? ฉันคิดว่าฉันเข้าใจ แต่ฉันไม่แน่ใจ
shadowtalker

@ssdecontrol ฉันเพิ่มความคิดเห็น ฉันหวังว่าพวกเขาจะเป็นประโยชน์
goker

6

เหตุผลก็คือมิติVCสำหรับเมล็ดเกาส์เซียนนั้นไม่มีที่สิ้นสุดดังนั้นด้วยค่าที่ถูกต้องสำหรับพารามิเตอร์ (ซิกม่า) พวกเขาสามารถจำแนกตัวอย่างจำนวนมากได้ตามใจชอบ

RBF ทำงานได้ดีเพราะพวกเขามั่นใจว่าเมทริกซ์นั้นอยู่ในอันดับเต็ม แนวคิดก็คือว่าและนอกเส้นทแยงมุมแง่สามารถทำขนาดเล็กโดยพลการโดยการลดค่าของ\ขอให้สังเกตว่าเคอร์เนลสอดคล้องกับผลิตภัณฑ์จุดในพื้นที่คุณสมบัติ ในพื้นที่คุณลักษณะนี้มิตินั้นไม่มีที่สิ้นสุด (โดยพิจารณาจากการขยายอนุกรมของเลขชี้กำลัง) หนึ่งสามารถเห็นสิ่งนี้เป็นการฉายจุดเหล่านั้นในมิติที่แตกต่างกันเพื่อให้คุณสามารถแยกพวกเขาK(xi,xj)K(xi,xi)>0σ

พิจารณาจากความแตกต่างกรณีของเมล็ดเชิงเส้นซึ่งสามารถแตกสี่จุดบนระนาบเท่านั้น

คุณอาจดูเอกสารนี้แม้ว่าจะเป็นเรื่องเทคนิค หนึ่งในหนังสือมาตรฐานของ SVM ควรทำให้แนวคิดนี้เข้าถึงได้ง่ายขึ้น


1
'RBF ทำงานได้ดีเพราะพวกเขามั่นใจได้ว่าเมทริกซ์นั้นอยู่ในอันดับเต็ม': นี่เป็นความจริงของฟังก์ชั่นเคอร์เนล (Mercer) ที่ถูกต้อง (รวมถึงเชิงเส้น) ดังนั้นฉันไม่แน่ใจว่ามันอธิบายถึงข้อกล่าวหาอย่างไร - ประสิทธิภาพของ RBF K(xi,xj)
user603

2
นอกจากสิ่งที่ @ user603 เพิ่งเขียน: มีเมล็ดอื่นที่เป็นที่นิยมที่มีมิติ VC ไม่ จำกัด (มิติของพื้นที่เป้าหมาย) หรือไม่ ถ้าเป็นเช่นนั้นพวกเขาจะดีเท่า RBF หรือไม่?
อะมีบากล่าวว่า Reinstate Monica

2
VC มิติไม่ใช่คุณสมบัติของชุดของตัวแยกประเภทไม่ใช่คุณสมบัติของเคอร์เนลใช่หรือไม่
Wij

2
@ user603: นี่ไม่เป็นความจริง เคอร์เนลของเมอร์เซอร์ต้องการเพียงแค่ว่าเคอร์เนลเมทริกซ์นั้นเป็นเซมิโคลอนค่าบวก พวกเขาสามารถเอกพจน์ ตัวอย่างเช่นเคอร์เนลเชิงเส้นในความเป็นจริงให้เมทริกซ์เคอร์เนลเอกพจน์หากอยู่ในชุดคะแนนของคุณ (แน่นอนเมล็ดส่วนใหญ่จะมีความแน่นอนในเชิงบวกอย่างเข้มงวดดังนั้นนี่จึงไม่ใช่สมบัติที่โดดเด่นเป็นพิเศษของ Gaussian RBF.)xi=0
Dougal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.