ทำไมเราจึงเห็นการและเท่านั้น แต่ไม่ใช่บรรทัดฐานอื่น

ฉันแค่อยากรู้ว่าทำไมมักจะมีบรรทัดฐานปกติและมีข้อพิสูจน์ว่าทำไมสิ่งเหล่านี้ถึงดีกว่า? $L_1$ $L_2$

lasso regularization ridge-regression

(+1) ฉันไม่ได้ตรวจสอบคำถามนี้โดยเฉพาะ แต่ประสบการณ์กับสถานการณ์ที่คล้ายกันชี้ให้เห็นว่าอาจมีคำตอบเชิงคุณภาพที่ดี: บรรทัดฐานทั้งหมดที่มีความแตกต่างที่สองที่จุดกำเนิดจะเทียบเท่ากับแต่ละท้องถิ่นซึ่งบรรทัดฐานคือมาตรฐาน บรรทัดฐานอื่น ๆ ทั้งหมดจะไม่สามารถสร้างความแตกต่างได้ในแหล่งกำเนิดและสร้างพฤติกรรมของพวกเขาในเชิงคุณภาพ ที่ครอบคลุมขอบเขต ผลที่ได้คือการรวมกันเชิงเส้นของบรรทัดฐานและใกล้เคียงกับบรรทัดฐานใด ๆกับลำดับที่สองที่จุดกำเนิด - และนี่คือสิ่งที่สำคัญที่สุดในการถดถอย

L^{2}

$L^2$

L^{1}

$L^1$

L^{1}

$L^1$

L^{2}

$L^2$

— whuber

ใช่: นี่เป็นทฤษฎีบทของเทย์เลอร์เป็นหลัก

— whuber

สมมติฐานของคำถามนี้เป็นเท็จ: มีการใช้อื่น ๆแม้ว่าจะพบได้น้อยกว่าทั่วไป

ℓ_{p}

$\ell_p$

— Firebug

การรวมกันเชิงเส้นที่ @whuber กล่าวมักจะเรียกว่าสุทธิยืดหยุ่น

— Luca Citi

นอกจากนี้ในบรรดาบรรทัดฐาน Lpยังได้รับไมล์สะสมจำนวนมาก

L^{\infty}

$L^\infty$

— user795305

คำตอบ:

นอกเหนือจากความเห็นของ @ whuber (*)

หนังสือโดย Hastie et al, สถิติการเรียนรู้กับ Sparsityกล่าวถึงเรื่องนี้ พวกเขายังใช้สิ่งที่เรียกว่า "norm" (เครื่องหมายคำพูดเพราะนี่ไม่ใช่บรรทัดฐานในความหมายทางคณิตศาสตร์ที่เข้มงวด (**)) ซึ่งนับจำนวนส่วนประกอบที่ไม่ใช่ศูนย์ของเวกเตอร์ $L_0$

ในความหมายนั้นบรรทัดฐานใช้สำหรับการเลือกตัวแปร แต่มันพร้อมกับบรรทัดฐานมีนั้นไม่นูนดังนั้นจึงยากที่จะปรับให้เหมาะสม พวกเขาโต้แย้ง (การโต้เถียงที่ฉันคิดว่ามาจาก Donohoe ในการรับรู้ที่ถูกบีบอัด) ว่า norm นั่นคือ lasso นั้นเป็น convexification ที่ดีที่สุดของ "norm" ("การผ่อนคลายนูนที่ดีที่สุดของการเลือกเซตย่อยที่ดีที่สุด") หนังสือเล่มนั้นยังอ้างอิงถึงการใช้งานบางอย่างของบรรทัดฐานอื่น ๆ ลูกบอลหน่วยใน -norm ด้วยมีลักษณะเช่นนี้ $L_0$ $l_q$ $q<1$ $L_1$ $L_0$ $L_q$ $l_q$ $q<1$

(ภาพจากวิกิพีเดีย) ในขณะที่การอธิบายภาพว่าทำไมเชือกสามารถให้การเลือกตัวแปรได้

ภาพนี้มาจากหนังสืออ้างอิงด้านบน คุณจะเห็นได้ว่าในกรณี lasso (ลูกบอลหน่วยที่ถูกวาดเป็นเพชร) มีความเป็นไปได้มากกว่าที่รูปทรงวงรี (ผลรวมของรูปสี่เหลี่ยม) จะสัมผัสกับเพชรที่มุมใดมุมหนึ่งก่อน ในกรณีที่ไม่นูน (รูปที่ลูกบอลหน่วยแรก) มีโอกาสมากขึ้นที่การสัมผัสครั้งแรกระหว่างรูปวงรีและลูกบอลหน่วยจะอยู่ที่มุมใดมุมหนึ่งดังนั้นกรณีนี้จะเน้นการเลือกตัวแปรมากกว่าเชือก

ถ้าคุณพยายามที่นี้ "เชือกที่ไม่ใช่นูนโทษ" ใน google คุณจะได้รับจำนวนมากของเอกสารการทำเชือกเหมือนปัญหากับโทษที่ไม่นูนเหมือนกับ<1 $l_q$ $q < 1$

(*) เพื่อความสมบูรณ์ฉันคัดลอกความเห็นของ whuber ที่นี่:

ฉันไม่ได้ตรวจสอบคำถามนี้โดยเฉพาะ แต่ประสบการณ์กับสถานการณ์ที่คล้ายคลึงกันชี้ให้เห็นว่าอาจมีคำตอบเชิงคุณภาพที่ดี: บรรทัดฐานทั้งหมดที่มีความแตกต่างที่สองที่จุดกำเนิดจะเทียบเท่ากับแต่ละท้องถิ่นซึ่งมาตรฐานเป็นมาตรฐาน บรรทัดฐานอื่น ๆ ทั้งหมดจะไม่สามารถแยกความแตกต่างได้ที่จุดกำเนิดและทำซ้ำพฤติกรรมของพวกเขาในเชิงคุณภาพ ที่ครอบคลุมขอบเขต ผลที่ตามมาคือการรวมกันเชิงเส้นของและ norm ใกล้เคียงกับบรรทัดฐานใด ๆ กับลำดับที่สองที่จุดกำเนิด - และนี่คือสิ่งที่สำคัญที่สุดในการถดถอยโดยไม่ต้องมีเศษเหลือ $L_2$ $L_1$ $L_1$ $L_2$

(**) - "norm" ขาดความเป็นเนื้อเดียวกันซึ่งเป็นหนึ่งในสัจพจน์สำหรับบรรทัดฐาน ความสม่ำเสมอของคำว่า that. $l_0$ $\alpha \ge 0$ $\| \alpha x \| = \alpha \| x \|$

— kjetil b halvorsen
แหล่งที่มา

@kjetilbhalvorsen ขอขอบคุณสำหรับคำตอบที่ลึกซึ้ง ฉันเลือกการยกตัวผิดปกติเพื่อให้สอดคล้องกับคำถามและชื่อเรื่อง แน่นอนคุณสามารถเขียนมันในแบบที่คุณต้องการ

— Ferdi

@kjetilbhalvorsen คุณช่วยขยายความคิดเห็นเล็กน้อยได้ไหม? เป็นที่ทราบกันดีว่าบรรทัดฐานนั้นไม่มีความแตกต่างกันในแหล่งกำเนิด (เช่นเป็นต้น) มันไม่ชัดเจนว่าอะไรคือความหมายของ 'ความเท่าเทียมกันในท้องถิ่น' ของบรรทัดฐาน จำเป็นต้องมีการอ้างอิงเพื่อพูดน้อยที่สุด

L^{2}

$L^2$

x \mapsto | x |

$x \mapsto |x|$

— Olivier

@Olivierซ้ำกันที่จุดกำเนิดคุณคิดเกี่ยวกับ -norm

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

— Firebug

@ Firebug ไม่ฉันกำลังคิดเกี่ยวกับบรรทัดฐานใน 1 มิติซึ่งมีเหมือนกับบรรทัดฐานฉันพลาดอะไรไปรึเปล่า?

L^{2}

$L^2$

L^{1}

$L^1$

— Olivier

@ Olivier โอ้จริงแล้วคุณพูดถูก ฉันเข้าใจผิดเพราะกำลังใช้ squaredจริงและมันเปลี่ยนแปลงได้ทุกที่

ℓ_{2}

$\ell_2$

— Firebug

ฉันคิดว่าคำตอบของคำถามขึ้นอยู่กับว่าคุณให้คำจำกัดความ "ดีกว่า" มากแค่ไหน หากฉันตีความถูกต้องคุณต้องการทราบว่าทำไมบรรทัดฐานเหล่านี้จึงปรากฏบ่อยครั้งเมื่อเทียบกับตัวเลือกอื่น ๆ ในกรณีนี้คำตอบคือความเรียบง่าย สัญชาตญาณที่อยู่เบื้องหลังการทำให้เป็นปกติคือฉันมีเวกเตอร์บางตัวและฉันต้องการให้เวกเตอร์นั้น "เล็ก" ในบางแง่มุม คุณอธิบายขนาดของเวกเตอร์อย่างไร คุณมีทางเลือก:

คุณนับองค์ประกอบที่มีหรือไม่ $(L_0)$
คุณเพิ่มองค์ประกอบทั้งหมดหรือไม่ $(L_1)$
คุณวัดความยาวของ "ลูกศร"หรือไม่? $(L_2)$
คุณใช้ขนาดขององค์ประกอบที่ใหญ่ที่สุดหรือไม่? $(L_\infty)$

คุณสามารถใช้บรรทัดฐานทางเลือกเช่นแต่พวกเขาไม่มีการตีความที่เป็นมิตรและกายภาพเหมือนอย่างที่กล่าวไว้ข้างต้น $L_3$

ภายในรายการนี้บรรทัดฐานนั้นมีวิธีการวิเคราะห์แบบปิดที่ดีสำหรับสิ่งต่าง ๆ เช่นปัญหากำลังสองน้อยที่สุด ก่อนที่คุณจะมีพลังการคำนวณที่ไม่ จำกัด ใคร ๆ ก็จะไม่สามารถทำอะไรให้ก้าวหน้าได้มากนัก ฉันจะคาดเดาว่าภาพ "ความยาวของลูกศร" นั้นดึงดูดผู้คนได้มากกว่าขนาดอื่น ๆ แม้ว่าบรรทัดฐานที่คุณเลือกสำหรับการทำให้เป็นปกติจะส่งผลกระทบต่อประเภทของสารตกค้างที่คุณได้รับด้วยวิธีแก้ปัญหาที่ดีที่สุด แต่ฉันไม่คิดว่าคนส่วนใหญ่จะเป็น) ตระหนักถึงสิ่งนั้นหรือข) พิจารณาอย่างลึกซึ้งเมื่อกำหนดปัญหา ณ จุดนี้ฉันคาดว่าคนส่วนใหญ่ใช้เพราะเป็น "สิ่งที่ทุกคนทำ" $L_2$ $L_2$

การเปรียบเทียบจะเป็นฟังก์ชันเลขชี้กำลัง - สิ่งนี้ปรากฏขึ้นทุกหนทุกแห่งในฟิสิกส์เศรษฐศาสตร์สถิติการเรียนรู้ของเครื่องหรือฟิลด์ที่ขับเคลื่อนด้วยคณิตศาสตร์ ฉันสงสัยตลอดไปว่าทำไมทุกสิ่งในชีวิตดูเหมือนจะถูกอธิบายโดยการอธิบายแทนจนกระทั่งฉันรู้ว่ามนุษย์เราแค่ไม่มีลูกเล่นมากมาย เอกซ์โปเนนเชียลมีคุณสมบัติที่มีประโยชน์มากสำหรับการทำพีชคณิตและแคลคูลัสดังนั้นพวกมันจึงกลายเป็นฟังก์ชันอันดับ 1 ในกล่องเครื่องมือของนักคณิตศาสตร์ทุกคนเมื่อพยายามสร้างแบบจำลองในโลกแห่งความจริง มันอาจเป็นไปได้ว่าสิ่งต่าง ๆ เช่นเวลา decoherence นั้น "ดีกว่า" ซึ่งอธิบายโดยพหุนามที่มีลำดับสูง แต่สิ่งเหล่านี้ค่อนข้างยากที่จะทำพีชคณิตด้วยและในตอนท้ายของวันสิ่งที่สำคัญคือ บริษัท ของคุณกำลังทำเงิน เรียบง่ายและดีพอ $e^x$

มิฉะนั้นทางเลือกของบรรทัดฐานมีผลกระทบที่เป็นอัตวิสัยมากและมันก็ขึ้นอยู่กับคุณในฐานะคนที่ระบุปัญหาเพื่อกำหนดสิ่งที่คุณต้องการในการแก้ปัญหาที่ดีที่สุด คุณสนใจมากกว่านี้หรือไม่ว่าส่วนประกอบทั้งหมดในเวกเตอร์โซลูชันของคุณมีขนาดใกล้เคียงกันหรือว่าส่วนประกอบที่ใหญ่ที่สุดมีขนาดเล็กที่สุดเท่าที่จะเป็นไปได้ ตัวเลือกนั้นจะขึ้นอยู่กับปัญหาเฉพาะที่คุณกำลังแก้ไข

— แพนด้าแดง
แหล่งที่มา

เหตุผลหลักในการเห็นบรรทัดฐานและส่วนใหญ่คือพวกมันครอบคลุมแอพพลิเคชั่นส่วนใหญ่ในปัจจุบัน ยกตัวอย่างเช่นบรรทัดฐานเรียกว่าบรรทัดฐานรถแท็กซี่เป็นเส้นตรงตาข่ายเชื่อมต่อบรรทัดฐานรวมถึงบรรทัดฐานค่าสัมบูรณ์ $L_1$ $L_2$ $L_1$

$L_2$ บรรทัดฐานนอกเหนือไปจากสี่เหลี่ยมน้อยระยะทางแบบยุคลิดในอวกาศ $n$ เช่นเดียวกับบรรทัดฐานตัวแปรที่ซับซ้อน ยิ่งไปกว่านั้นTikhonov normalization และการถดถอยของสันเขาคือแอปพลิเคชั่นที่ลดขนาดมักจะถือว่าเป็นบรรทัดฐาน . $\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$ $L_2$

วิกิพีเดียให้ข้อมูลเกี่ยวกับเหล่านี้และอื่น ๆบรรทัดฐาน กล่าวถึงมูลค่าเป็นL_0ทั่วไปบรรทัดฐานที่บรรทัดฐานที่เรียกว่าบรรทัดฐานเครื่องแบบ $L_0$ $L_p$ $L_\infty$

— คาร์ล
แหล่งที่มา