สัญชาตญาณที่อยู่เบื้องหลังความจริงที่ว่า SVM พร้อมเคอร์เนล Gaussian มีพื้นที่มิติคุณลักษณะ dimensional nite คืออะไร?
สัญชาตญาณที่อยู่เบื้องหลังความจริงที่ว่า SVM พร้อมเคอร์เนล Gaussian มีพื้นที่มิติคุณลักษณะ dimensional nite คืออะไร?
คำตอบ:
คำตอบนี้อธิบายต่อไปนี้:
การแยกที่สมบูรณ์แบบเป็นไปได้เสมอด้วยเคอร์เนลเกาส์เซียน (หากไม่มีสองคะแนนจากคลาสที่แตกต่างกันจะเหมือนกันทุกประการ) เนื่องจากคุณสมบัติท้องถิ่นของเคอร์เนลซึ่งนำไปสู่ขอบเขตการตัดสินใจที่ยืดหยุ่นโดยพลการ สำหรับแบนด์วิดท์เคอร์เนลขนาดเล็กเพียงพอขอบเขตการตัดสินใจจะดูเหมือนว่าคุณวาดวงกลมเล็ก ๆ รอบจุดเมื่อใดก็ตามที่พวกเขาต้องการแยกตัวอย่างบวกและลบ:
(เครดิต: หลักสูตรการเรียนรู้เครื่องออนไลน์ของ Andrew Ng )
แล้วทำไมสิ่งนี้ถึงเกิดขึ้นจากมุมมองทางคณิตศาสตร์?
พิจารณาการตั้งค่ามาตรฐาน: คุณมี Gaussian เคอร์เนล และการฝึกอบรมข้อมูล( x ( 1 ) , Y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , … , ( x ( n ) ,ที่ Y ( ฉัน)มีค่า ± 1 เราต้องการเรียนรู้ฟังก์ชั่นลักษณนาม
ตอนนี้วิธีการที่เราจะเคยกำหนดน้ำหนัก ? เราต้องการช่องว่างมิติที่ไม่มีที่สิ้นสุดและอัลกอริทึมการเขียนโปรแกรมสมการกำลังสองหรือไม่? ไม่เพราะฉันแค่ต้องการแสดงให้เห็นว่าฉันสามารถแยกประเด็นได้อย่างสมบูรณ์แบบ ดังนั้นผมจึงทำให้σพันล้านครั้งมีขนาดเล็กกว่าแยกเล็ก| | x ( i ) - x ( j ) | | ระหว่างสองตัวอย่างการฝึกอบรมและฉันเพียงแค่ตั้งW ฉัน = 1 ซึ่งหมายความว่าทุกจุดการฝึกอบรมเป็นพันล้าน sigmas นอกเหนือเท่าที่เคอร์เนลเป็นห่วงและแต่ละจุดสมบูรณ์ควบคุมสัญลักษณ์ของปีในละแวกของมัน อย่างเป็นทางการเรามี
โดยที่เป็นค่าที่น้อยมากตามอำเภอใจ เรารู้ว่าεเป็นขนาดเล็กเพราะx ( k )เป็นพันล้าน sigmas ห่างจากจุดอื่น ๆ เพื่อให้ทุกฉัน≠ kเรามี
ตั้งแต่มีขนาดเล็กดังนั้น Y ( x ( k ) )แน่นอนมีการเข้าสู่ระบบเดียวกับY ( k )และจําแนกประสบความสำเร็จในความถูกต้องสมบูรณ์แบบในข้อมูลการฝึกอบรม
ความจริงที่ว่าสิ่งนี้สามารถตีความได้ว่าเป็น "การแยกเชิงเส้นที่สมบูรณ์แบบในพื้นที่คุณลักษณะมิติที่ไม่มีที่สิ้นสุด" มาจากเคอร์เนลเคล็ดลับซึ่งช่วยให้คุณสามารถตีความเคอร์เนลเป็นผลิตภัณฑ์ภายในในพื้นที่คุณลักษณะ (อาจไม่มีที่สิ้นสุดมิติ):
โดยที่คือการแม็พจากพื้นที่ข้อมูลไปยังพื้นที่คุณลักษณะ มันดังต่อไปทันทีว่าY ( x )ฟังก์ชั่นเป็นฟังก์ชันเชิงเส้นในพื้นที่คุณลักษณะ:
โดยที่ฟังก์ชันเชิงเส้นถูกนิยามไว้บนเวกเตอร์พื้นที่คุณลักษณะvเป็น
ฟังก์ชั่นนี้เป็นแบบเชิงเส้นในเพราะมันเป็นเพียงการผสมผสานเชิงเส้นของผลิตภัณฑ์ภายในกับเวกเตอร์คงที่ ในพื้นที่คุณลักษณะการตัดสินใจเขตแดนY ( x ) = 0เป็นเพียงL ( V ) = 0 , ชุดระดับของฟังก์ชั่นการเชิงเส้น นี่คือคำจำกัดความของไฮเปอร์เพลนในพื้นที่คุณลักษณะ
หมายเหตุ:ในส่วนนี้สัญกรณ์หมายถึงชุด nจุดโดยพลการและไม่ใช่ข้อมูลการฝึกอบรม นี่คือคณิตศาสตร์บริสุทธิ์ ข้อมูลการฝึกอบรมไม่ได้คิดในส่วนนี้เลย!
วิธีการของเคอร์เนลไม่เคย "ค้นหา" หรือ "คำนวณ" จริง ๆ ของพื้นที่คุณลักษณะหรือการแมปอย่างชัดเจน วิธีการเรียนรู้เคอร์เนลเช่น SVM ไม่ต้องการให้ทำงาน พวกเขาจะต้องฟังก์ชั่นเคอร์เนลK
ที่กล่าวว่ามันเป็นไปได้ที่จะเขียนลงสูตรสำหรับΦพื้นที่คุณลักษณะที่Φแมปไปนั้นเป็นนามธรรม (และอาจเป็นมิติไม่สิ้นสุด) แต่โดยพื้นฐานแล้วการทำแผนที่นั้นใช้เคอร์เนลเพื่อทำวิศวกรรมฟีเจอร์แบบง่าย ๆ ในแง่ของผลลัพธ์สุดท้ายแบบจำลองที่คุณเรียนรู้ด้วยการใช้เมล็ดไม่แตกต่างจากวิศวกรรมฟีเจอร์ดั้งเดิมที่นิยมใช้ในการถดถอยเชิงเส้นและการสร้างแบบจำลอง GLM เช่นการบันทึกล็อกของตัวแปรทำนายเชิงบวกก่อนป้อนลงในสูตรการถดถอย คณิตศาสตร์ส่วนใหญ่อยู่ที่นั่นเพื่อช่วยให้แน่ใจว่าเคอร์เนลเล่นได้ดีกับอัลกอริธึม SVM ซึ่งมีข้อได้เปรียบของการ sparsity และการปรับสเกลให้ดีกับชุดข้อมูลขนาดใหญ่
หากคุณยังสนใจนี่คือวิธีการใช้งาน เป็นหลักที่เราใช้ตัวตนที่เราต้องการที่จะถือและสร้างพื้นที่และสินค้าภายในดังกล่าวว่าจะถือตามคำนิยาม การทำเช่นนี้เรากำหนดนามธรรมปริภูมิเวกเตอร์Vซึ่งแต่ละเวกเตอร์เป็นฟังก์ชั่นจากพื้นที่ข้อมูลที่อาศัยอยู่ในที่Xเพื่อตัวเลขจริงR เวกเตอร์fในVเป็นฟังก์ชันที่เกิดขึ้นจากการรวมกันเชิงเส้นของเคอร์เนลชิ้น: f ( x สะดวกในการเขียน f ที่มีขนาดกะทัดรัดมากขึ้นเมื่อ f = n ∑ฉัน= 1 α ฉันK x ( i ) โดยที่ k x ( y ) = K ( x , Y )เป็นฟังก์ชั่นให้ชิ้น "" ของเคอร์เนลที่x
ผลิตภัณฑ์ชั้นในบนอวกาศไม่ใช่ผลิตภัณฑ์ดอทธรรมดา แต่เป็นผลิตภัณฑ์ชั้นในที่เป็นนามธรรมซึ่งอ้างอิงจากเคอร์เนล:
คำตอบนี้ให้คำอธิบายที่ดีเกี่ยวกับพีชคณิตเชิงเส้น แต่นี่เป็นมุมมองทางเรขาคณิตที่มีทั้งสัญชาตญาณและการพิสูจน์
. ตอนนี้ถ้าพื้นที่ของฟีเจอร์มีเพียงมิติ จำกัด นั่นก็หมายความว่าเราสามารถทำการกระแทกแบบ จำกัด ได้ที่จุดคงที่และสร้างแบบเกาส์ใด ๆ ที่ใดก็ได้ แต่ชัดเจนไม่มีวิธีที่เราสามารถทำได้ คุณไม่สามารถสร้างการชนแบบใหม่จากการกระแทกแบบเก่าได้เนื่องจากการชนแบบใหม่อาจอยู่ห่างไกลจากสิ่งเก่า ดังนั้นไม่ว่าเราจะมีเวกเตอร์ฟีเจอร์กี่ (กระแทก) เราสามารถเพิ่มการกระแทกใหม่ได้เสมอและในพื้นที่ฟีเจอร์เหล่านี้คือเวกเตอร์อิสระใหม่ ดังนั้นพื้นที่ของฟีเจอร์ไม่สามารถ จำกัด ขนาดได้ มันจะต้องไม่มีที่สิ้นสุด
พิสูจน์จากความขัดแย้ง สมมติว่าตรงกันข้าม
Burges, CJC (1999) เรขาคณิตและความแปรปรวนของวิธีการแบบเคอร์เนล. ใน B. Schölkopf, CJC Burges, & AJ Smola (บรรณาธิการ), ความก้าวหน้าในวิธีการเคอร์เนลรองรับการเรียนรู้เวกเตอร์ (หน้า 89–116) กด MIT
สำหรับพื้นหลังและสัญกรณ์ที่ฉันอ้างถึงคำตอบวิธีการคำนวณขอบเขตการตัดสินใจจากเวกเตอร์สนับสนุน? .
ฉันจะพยายามให้คำอธิบายที่ 'เข้าใจง่าย'ในสิ่งที่นี้ดูเหมือนดังนั้นคำตอบนี้ไม่มีข้อพิสูจน์อย่างเป็นทางการมันแค่ต้องการให้ความรู้สึกว่าฉันคิดว่ามันทำงานอย่างไร อย่าลังเลที่จะแก้ไขให้ฉันถ้าฉันผิด พื้นฐานสำหรับคำอธิบายของฉันคือส่วนที่ 2.2.1 ของไฟล์ PDF นี้
ฉันต้อง 'แปลง' พื้นที่คุณลักษณะของฉัน (ดังนั้นของฉัน) เป็นพื้นที่คุณลักษณะ 'ใหม่' บางส่วนซึ่งการแยกเชิงเส้นจะถูกแก้ไข
สำหรับการสังเกตแต่ละครั้ง ฉันกำหนดฟังก์ชันดังนั้นฉันจึงมีฟังก์ชั่นสำหรับแต่ละองค์ประกอบของตัวอย่างการฝึกอบรมของฉัน ฟังก์ชั่นเหล่านี้ขยายพื้นที่เวกเตอร์ ปริภูมิเวกเตอร์ทอดโดยทราบมันN}) (คือขนาดของตัวอย่างการฝึกอบรม)
ฉันจะพยายามยืนยันว่าเวกเตอร์สเปซนี้คือสเปซเวกเตอร์ที่การแยกเชิงเส้นจะเป็นไปได้ เวกเตอร์แต่ละตัวในเวกเตอร์สเปซสามารถเขียนเป็นชุดเชิงเส้นของเช่น:โดยที่เป็นจำนวนจริง ดังนั้นในความเป็นจริง
โปรดทราบว่าเป็นพิกัดของเวกเตอร์ในปริภูมิเวกเตอร์V
คือขนาดของตัวอย่างการฝึกอบรมดังนั้นขนาดของปริภูมิเวกเตอร์สามารถเพิ่มได้ถึงขึ้นอยู่กับว่ามีความเป็นอิสระเชิงเส้น ในขณะที่ (ดู supra เราได้นิยามด้วยวิธีนี้) ซึ่งหมายความว่าขนาดของขึ้นอยู่กับเคอร์เนลที่ใช้และสามารถขึ้นอยู่กับขนาดของตัวอย่างการฝึกอบรม
หากเคอร์เนลมี 'ซับซ้อนเพียงพอ' ดังนั้นทั้งหมดจะเป็นอิสระจากนั้นขนาดของจะเป็นขนาดของตัวอย่างการฝึกอบรม
การแปลงที่แมปพื้นที่คุณลักษณะดั้งเดิมของฉันไปที่ถูกกำหนดเป็น
x)
แผนที่นี้แมปพื้นที่ฟีเจอร์ดั้งเดิมของฉันไปยังพื้นที่เวคเตอร์ที่สามารถมีมิติที่เพิ่มขึ้นตามขนาดของตัวอย่างการฝึกอบรมของฉัน ดังนั้นแมปแต่ละการสังเกตในตัวอย่างการฝึกของฉันลงในพื้นที่เวคเตอร์ที่ฟังก์ชันเวกเตอร์ เวกเตอร์จากตัวอย่างการฝึกของฉันคือ 'แมป' กับเวกเตอร์ในคือ vectorมีพิกัดเท่ากับเท่ากับศูนย์ยกเว้นพิกัด -th คือ 1
เห็นได้ชัดว่าการแปลงนี้ (a) ขึ้นอยู่กับเคอร์เนล (b) ขึ้นอยู่กับค่าในตัวอย่างการฝึกอบรมและ (c) สามารถขึ้นอยู่กับเคอร์เนลของฉันมีมิติที่ขึ้นอยู่กับขนาดของตัวอย่างการฝึกอบรมของฉันและ ( d) เวกเตอร์ของดูเหมือนโดยที่เป็นจำนวนจริง
ดูฟังก์ชันในวิธีการคำนวณขอบเขตการตัดสินใจจากเวกเตอร์สนับสนุน? ก็จะเห็นได้ว่า B การตัดสินใจเขตแดนพบโดย SVM เป็น 0
กล่าวอีกนัยหนึ่งเป็นการรวมกันเชิงเส้นของและเป็นไฮเพอร์เพลตแบบแยกเชิงเส้นใน -space : มันเป็นตัวเลือกเฉพาะของคือ !
เป็นที่รู้จักจากการสังเกตของเราเป็นตัวคูณ Lagrange ที่ SVM ได้พบ ในคำอื่น ๆ SVM พบว่าผ่านการใช้เคอร์เนลและโดยการแก้ปัญหาการเขียนโปรแกรมสมการกำลังสองการแยกเชิงเส้นใน -spaveα i V
นี่คือความเข้าใจง่ายของฉันว่า 'เคอร์เนลเคล็ดลับ' ช่วยให้หนึ่งใน 'โดยปริยาย' เปลี่ยนพื้นที่คุณลักษณะเดิมเป็นคุณลักษณะใหม่พื้นที่มีมิติที่แตกต่าง มิตินี้ขึ้นอยู่กับเคอร์เนลที่คุณใช้และสำหรับเคอร์เนล RBF มิตินี้สามารถขึ้นอยู่กับขนาดของตัวอย่างการฝึกอบรม ในฐานะที่เป็นตัวอย่างการฝึกอบรมอาจจะมีขนาดใด ๆ นี้อาจจะไปถึง 'อนันต์' เห็นได้ชัดว่าในพื้นที่ที่มีมิติสูงมากความเสี่ยงของการเกิดoverfittingจะเพิ่มขึ้น
ดังนั้นเมล็ดเป็นเทคนิคที่ช่วยให้ SVM ในการแปลงพื้นที่คุณลักษณะของคุณเห็นสิ่งที่ทำให้เคอร์เนลเกาส์จึงมีมนต์ขลังสำหรับ PCA และยังอยู่ในทั่วไป?
น่าเสียดายที่คำอธิบายของ fcop ค่อนข้างไม่ถูกต้อง ก่อนอื่นเขาบอกว่า "เป็นที่รู้กันว่าเคอร์เนลสามารถเขียนได้เป็น ... โดยที่ ... คือการแปลง (โดยปริยายและไม่ทราบ) ให้เป็นพื้นที่ว่างใหม่" ไม่เป็นที่รู้จัก นี่คือความจริงแล้วพื้นที่ที่คุณสมบัติถูกแมปและนี่คือพื้นที่ที่อาจเป็นมิติที่ไม่มีที่สิ้นสุดเช่นในกรณี RBF เคอร์เนลทั้งหมดจะใช้ผลิตภัณฑ์ภายในของเวกเตอร์คุณลักษณะที่แปลงด้วยเวกเตอร์คุณลักษณะที่แปลงแล้วของตัวอย่างการฝึกอบรมและใช้ฟังก์ชันบางอย่างกับผลลัพธ์ ดังนั้นมันจึงแสดงถึงเวกเตอร์คุณลักษณะมิติที่สูงกว่านี้โดยปริยาย คิดว่าการเขียน (x + y) ^ 2 แทน x ^ 2 + 2xy + y ^ 2 ทีนี้ลองคิดว่าซีรี่ย์อินฟินิตี้ใดที่มีการแสดงออกโดยปริยายโดยฟังก์ชันเลขชี้กำลัง ... คุณมีพื้นที่คุณลักษณะที่ไม่มีที่สิ้นสุดของคุณ
วิธีที่ถูกต้องในการคิดเกี่ยวกับ SVMs คือคุณแมปฟีเจอร์ของคุณไปยังพื้นที่ฟีเจอร์มิติที่ไม่มีที่สิ้นสุดซึ่งเกิดขึ้นที่จะแสดงได้โดยปริยายในพื้นที่คุณลักษณะ "เคอร์เนล" อีกมิติหนึ่งที่มีขนาดอาจใหญ่เท่ากับขนาดชุดฝึกอบรม