เมื่อใช้ SVM ทำไมฉันต้องขยายขนาดคุณสมบัติ

ตามเอกสารของStandardScalerวัตถุใน scikit-learn:

เช่นองค์ประกอบหลายอย่างที่ใช้ในฟังก์ชันวัตถุประสงค์ของอัลกอริทึมการเรียนรู้ (เช่นเคอร์เนล RBF ของ Support Vector Machines หรือ L1 และ L1 normalizers โมเดลเชิงเส้น) สมมติว่าคุณลักษณะทั้งหมดอยู่กึ่งกลางรอบ 0 และมีความแปรปรวนในลำดับเดียวกัน หากคุณลักษณะมีความแปรปรวนที่เป็นลำดับความสำคัญมากกว่าที่อื่น ๆ มันอาจครอบงำฟังก์ชันวัตถุประสงค์และทำให้ตัวประมาณไม่สามารถเรียนรู้จากคุณลักษณะอื่นได้อย่างถูกต้องตามที่คาดไว้

ฉันควรปรับขนาดคุณสมบัติของฉันก่อนจัดประเภท มีวิธีง่าย ๆ ที่จะแสดงว่าทำไมฉันควรทำเช่นนี้? การอ้างอิงบทความทางวิทยาศาสตร์จะดียิ่งขึ้น ฉันได้พบหนึ่งแต่อาจมีอื่น ๆ อีกมากมาย

— Scallywag
แหล่งที่มา

คำตอบ:

วิธีเคอร์เนลทั้งหมดขึ้นอยู่กับระยะทาง ฟังก์ชันเคอร์เนล RBF คือ (โดยใช้สำหรับ ความเรียบง่าย) $\kappa(\mathbf{u},\mathbf{v}) = \exp(-\|\mathbf{u}-\mathbf{v}\|^2)$ $\gamma=1$

ได้รับ 3 คุณสมบัติเวกเตอร์:

x_{1} = [1000, 1, 2], x_{2} = [900, 1, 2], x_{3} = [1050, - 10, 20] .

$\mathbf{x}_1 = [1000, 1, 2], \quad \mathbf{x}_2 = [900, 1, 2], \quad \mathbf{x}_3 = [1050, -10, 20].$

แล้วที่เป็นเป็นที่คาดคะเนขึ้นคล้ายกับแล้ว\ $\kappa( \mathbf{x}_1, \mathbf{x}_2) = \exp(-10000) \ll \kappa(\mathbf{x}_1, \mathbf{x}_3) = \exp(-2905)$ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_2$

ความแตกต่างสัมพัทธ์ระหว่างและ: $\mathbf{x}_1$

x_{2} \to [0.1, 0, 0], x_{3} \to [0.05, - 10, 10] .

$\mathbf{x}_2 \rightarrow [0.1, 0, 0],\quad \mathbf{x}_3 \rightarrow [0.05, -10, 10].$

ดังนั้นหากไม่มีการปรับสเกลเราสรุปได้ว่านั้นคล้ายคลึงกับมากกว่าแม้ว่าความแตกต่างสัมพัทธ์ต่อคุณลักษณะระหว่างและมีขนาดใหญ่กว่าของและ\ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_2$ $\mathbf{x}_1$ $\mathbf{x}_3$ $\mathbf{x}_1$ $\mathbf{x}_2$

กล่าวอีกนัยหนึ่งถ้าคุณไม่ปรับขนาดฟีเจอร์ทั้งหมดเป็นช่วงเปรียบเทียบคุณสมบัติที่มีช่วงที่ใหญ่ที่สุดจะมีอิทธิพลอย่างสมบูรณ์ในการคำนวณเคอร์เนลเมทริกซ์

คุณสามารถหาตัวอย่างง่าย ๆ เพื่ออธิบายสิ่งนี้ได้ในบทความต่อไปนี้: คู่มือปฏิบัติเพื่อสนับสนุนการจำแนกประเภทเวกเตอร์ (ส่วนที่ 2.2)

— Marc Claesen
แหล่งที่มา

คุณยังอาจต้องการที่จะหารือเกี่ยวกับกู: ขนาดของน้ำหนักขึ้นอยู่กับขนาดของปัจจัยการผลิตที่ ...

— seanv507

ผลของการทำให้เป็นปกติคือ scalings ที่แตกต่างกันบ่งบอกถึงเหมาะสมที่สุดซึ่งค่อนข้างตั้งฉากกับปัญหานี้โดยเฉพาะ

C

$C$

— Marc Claesen

แต่มันอาจเป็นไปได้ว่าความใกล้ชิดในมิติเดียวนั้นสำคัญกว่า ดังนั้นเป้าหมายไม่ได้มีความแปรปรวนเหมือนกันในคุณลักษณะทั้งหมด แต่ให้ปรับขนาดเพื่อให้ระยะทางตามทุกคุณลักษณะมีความสำคัญเท่ากันกับงาน

— isarandi

@ Marc Claesen หากตัวแปรของคุณมีขนาดต่างกันน้ำหนักของคุณก็จะแตกต่างกันตามลำดับและ l2 norm จะมุ่งเน้นไปที่อินพุตที่มีความแปรปรวนเล็กน้อยและน้ำหนักที่มีขนาดใหญ่ตามลำดับ อีกวิธีหนึ่งการทำให้น้ำหนักเป็นบรรทัดฐานปกติทำให้มั่นใจได้ว่าอินพุต 'เล็ก' มีผลขนาดเล็ก นี่จะสมเหตุสมผลถ้าคุณมี 'เล็ก' มาตรฐาน (ในอินพุตของคุณ) เช่นโดยการทำให้ตัวแปรของคุณเป็นมาตรฐาน

— seanv507

@ seanv507 ที่ใช้กับ SVM เชิงเส้นเท่านั้น

— Marc Claesen

ขึ้นอยู่กับเคอร์เนลที่คุณใช้ โดยไกลที่ใช้กันมากที่สุด (นอกเหนือจากเชิงเส้น) เป็นแก่นเคอร์เนลซึ่งมีรูปแบบ

f = e x p (\frac{- | | x_{1} - x_{2} | |^{2}}{2 σ^{2}})

$f = exp \left ( \frac{- || x{_{1}} - x{_{2}} || ^2 }{2\sigma ^2} \right )$

SVM ใช้ฟังก์ชั่นนี้และใช้เพื่อเปรียบเทียบความคล้ายคลึงกันของจุด ( ) กับจุดอื่น ๆ ในชุดการฝึกอบรมโดยรวมความแตกต่างดังนี้: $x1$

(x_{1} - l_{1})^{2} + (x_{2} - l_{2})^{2} . . . + (x_{n} - l_{n})^{2}

$(x{_{1}}-l{_{1}})^2+(x{_{2}}-l{_{2}})^2...+(x{_{n}}-l{_{n}})^2$

โดยที่เป็นตัวอย่างของคุณและค่าของคือจุดสังเกต $x$ $l$

หากฟีเจอร์มีช่วงตั้งแต่ 0 - 50,000 ในขณะที่ฟีเจอร์มีช่วงตั้งแต่ 0 - 0.01 คุณจะเห็นว่าจะมีอิทธิพลเหนือจำนวนนั้นในขณะที่จะไม่มีผลกระทบใด ๆ ด้วยเหตุนี้จึงมีความจำเป็นต้องปรับขนาดคุณสมบัติก่อนใช้ kernal $x{_{1}}$ $x{_{2}}$ $x{_{1}}$ $x{_{2}}$

หากคุณต้องการเรียนรู้เพิ่มเติมฉันแนะนำโมดูล 12 (Support Vector Machines) จากหลักสูตรออนไลน์ของ Stanford ในการเรียนรู้ของเครื่องที่ Coursera (ฟรีและใช้ได้ตลอดเวลา): https://www.coursera.org/course/ml

— ralph346526
แหล่งที่มา