ฉันแค่อยากรู้ว่าทำไมมักจะมีบรรทัดฐานปกติและมีข้อพิสูจน์ว่าทำไมสิ่งเหล่านี้ถึงดีกว่า?L 2
ฉันแค่อยากรู้ว่าทำไมมักจะมีบรรทัดฐานปกติและมีข้อพิสูจน์ว่าทำไมสิ่งเหล่านี้ถึงดีกว่า?L 2
คำตอบ:
นอกเหนือจากความเห็นของ @ whuber (*)
หนังสือโดย Hastie et al, สถิติการเรียนรู้กับ Sparsityกล่าวถึงเรื่องนี้ พวกเขายังใช้สิ่งที่เรียกว่า "norm" (เครื่องหมายคำพูดเพราะนี่ไม่ใช่บรรทัดฐานในความหมายทางคณิตศาสตร์ที่เข้มงวด (**)) ซึ่งนับจำนวนส่วนประกอบที่ไม่ใช่ศูนย์ของเวกเตอร์
ในความหมายนั้นบรรทัดฐานใช้สำหรับการเลือกตัวแปร แต่มันพร้อมกับบรรทัดฐานมีนั้นไม่นูนดังนั้นจึงยากที่จะปรับให้เหมาะสม พวกเขาโต้แย้ง (การโต้เถียงที่ฉันคิดว่ามาจาก Donohoe ในการรับรู้ที่ถูกบีบอัด) ว่า norm นั่นคือ lasso นั้นเป็น convexification ที่ดีที่สุดของ "norm" ("การผ่อนคลายนูนที่ดีที่สุดของการเลือกเซตย่อยที่ดีที่สุด") หนังสือเล่มนั้นยังอ้างอิงถึงการใช้งานบางอย่างของบรรทัดฐานอื่น ๆ ลูกบอลหน่วยใน -norm ด้วยมีลักษณะเช่นนี้l q q < 1 L 1 L 0 L q l q q < 1
(ภาพจากวิกิพีเดีย) ในขณะที่การอธิบายภาพว่าทำไมเชือกสามารถให้การเลือกตัวแปรได้
ภาพนี้มาจากหนังสืออ้างอิงด้านบน คุณจะเห็นได้ว่าในกรณี lasso (ลูกบอลหน่วยที่ถูกวาดเป็นเพชร) มีความเป็นไปได้มากกว่าที่รูปทรงวงรี (ผลรวมของรูปสี่เหลี่ยม) จะสัมผัสกับเพชรที่มุมใดมุมหนึ่งก่อน ในกรณีที่ไม่นูน (รูปที่ลูกบอลหน่วยแรก) มีโอกาสมากขึ้นที่การสัมผัสครั้งแรกระหว่างรูปวงรีและลูกบอลหน่วยจะอยู่ที่มุมใดมุมหนึ่งดังนั้นกรณีนี้จะเน้นการเลือกตัวแปรมากกว่าเชือก
ถ้าคุณพยายามที่นี้ "เชือกที่ไม่ใช่นูนโทษ" ใน google คุณจะได้รับจำนวนมากของเอกสารการทำเชือกเหมือนปัญหากับโทษที่ไม่นูนเหมือนกับ<1 q < 1
(*) เพื่อความสมบูรณ์ฉันคัดลอกความเห็นของ whuber ที่นี่:
ฉันไม่ได้ตรวจสอบคำถามนี้โดยเฉพาะ แต่ประสบการณ์กับสถานการณ์ที่คล้ายคลึงกันชี้ให้เห็นว่าอาจมีคำตอบเชิงคุณภาพที่ดี: บรรทัดฐานทั้งหมดที่มีความแตกต่างที่สองที่จุดกำเนิดจะเทียบเท่ากับแต่ละท้องถิ่นซึ่งมาตรฐานเป็นมาตรฐาน บรรทัดฐานอื่น ๆ ทั้งหมดจะไม่สามารถแยกความแตกต่างได้ที่จุดกำเนิดและทำซ้ำพฤติกรรมของพวกเขาในเชิงคุณภาพ ที่ครอบคลุมขอบเขต ผลที่ตามมาคือการรวมกันเชิงเส้นของและ norm ใกล้เคียงกับบรรทัดฐานใด ๆ กับลำดับที่สองที่จุดกำเนิด - และนี่คือสิ่งที่สำคัญที่สุดในการถดถอยโดยไม่ต้องมีเศษเหลือL 1 L 1 L 2
(**) - "norm" ขาดความเป็นเนื้อเดียวกันซึ่งเป็นหนึ่งในสัจพจน์สำหรับบรรทัดฐาน ความสม่ำเสมอของคำว่า that. α ≥ 0 ‖ α x ‖ = α ‖ x ‖
ฉันคิดว่าคำตอบของคำถามขึ้นอยู่กับว่าคุณให้คำจำกัดความ "ดีกว่า" มากแค่ไหน หากฉันตีความถูกต้องคุณต้องการทราบว่าทำไมบรรทัดฐานเหล่านี้จึงปรากฏบ่อยครั้งเมื่อเทียบกับตัวเลือกอื่น ๆ ในกรณีนี้คำตอบคือความเรียบง่าย สัญชาตญาณที่อยู่เบื้องหลังการทำให้เป็นปกติคือฉันมีเวกเตอร์บางตัวและฉันต้องการให้เวกเตอร์นั้น "เล็ก" ในบางแง่มุม คุณอธิบายขนาดของเวกเตอร์อย่างไร คุณมีทางเลือก:
คุณสามารถใช้บรรทัดฐานทางเลือกเช่นแต่พวกเขาไม่มีการตีความที่เป็นมิตรและกายภาพเหมือนอย่างที่กล่าวไว้ข้างต้น
ภายในรายการนี้บรรทัดฐานนั้นมีวิธีการวิเคราะห์แบบปิดที่ดีสำหรับสิ่งต่าง ๆ เช่นปัญหากำลังสองน้อยที่สุด ก่อนที่คุณจะมีพลังการคำนวณที่ไม่ จำกัด ใคร ๆ ก็จะไม่สามารถทำอะไรให้ก้าวหน้าได้มากนัก ฉันจะคาดเดาว่าภาพ "ความยาวของลูกศร" นั้นดึงดูดผู้คนได้มากกว่าขนาดอื่น ๆ แม้ว่าบรรทัดฐานที่คุณเลือกสำหรับการทำให้เป็นปกติจะส่งผลกระทบต่อประเภทของสารตกค้างที่คุณได้รับด้วยวิธีแก้ปัญหาที่ดีที่สุด แต่ฉันไม่คิดว่าคนส่วนใหญ่จะเป็น) ตระหนักถึงสิ่งนั้นหรือข) พิจารณาอย่างลึกซึ้งเมื่อกำหนดปัญหา ณ จุดนี้ฉันคาดว่าคนส่วนใหญ่ใช้เพราะเป็น "สิ่งที่ทุกคนทำ"L 2
การเปรียบเทียบจะเป็นฟังก์ชันเลขชี้กำลัง - สิ่งนี้ปรากฏขึ้นทุกหนทุกแห่งในฟิสิกส์เศรษฐศาสตร์สถิติการเรียนรู้ของเครื่องหรือฟิลด์ที่ขับเคลื่อนด้วยคณิตศาสตร์ ฉันสงสัยตลอดไปว่าทำไมทุกสิ่งในชีวิตดูเหมือนจะถูกอธิบายโดยการอธิบายแทนจนกระทั่งฉันรู้ว่ามนุษย์เราแค่ไม่มีลูกเล่นมากมาย เอกซ์โปเนนเชียลมีคุณสมบัติที่มีประโยชน์มากสำหรับการทำพีชคณิตและแคลคูลัสดังนั้นพวกมันจึงกลายเป็นฟังก์ชันอันดับ 1 ในกล่องเครื่องมือของนักคณิตศาสตร์ทุกคนเมื่อพยายามสร้างแบบจำลองในโลกแห่งความจริง มันอาจเป็นไปได้ว่าสิ่งต่าง ๆ เช่นเวลา decoherence นั้น "ดีกว่า" ซึ่งอธิบายโดยพหุนามที่มีลำดับสูง แต่สิ่งเหล่านี้ค่อนข้างยากที่จะทำพีชคณิตด้วยและในตอนท้ายของวันสิ่งที่สำคัญคือ บริษัท ของคุณกำลังทำเงิน เรียบง่ายและดีพอ
มิฉะนั้นทางเลือกของบรรทัดฐานมีผลกระทบที่เป็นอัตวิสัยมากและมันก็ขึ้นอยู่กับคุณในฐานะคนที่ระบุปัญหาเพื่อกำหนดสิ่งที่คุณต้องการในการแก้ปัญหาที่ดีที่สุด คุณสนใจมากกว่านี้หรือไม่ว่าส่วนประกอบทั้งหมดในเวกเตอร์โซลูชันของคุณมีขนาดใกล้เคียงกันหรือว่าส่วนประกอบที่ใหญ่ที่สุดมีขนาดเล็กที่สุดเท่าที่จะเป็นไปได้ ตัวเลือกนั้นจะขึ้นอยู่กับปัญหาเฉพาะที่คุณกำลังแก้ไข
เหตุผลหลักในการเห็นบรรทัดฐานและส่วนใหญ่คือพวกมันครอบคลุมแอพพลิเคชั่นส่วนใหญ่ในปัจจุบัน ยกตัวอย่างเช่นบรรทัดฐานเรียกว่าบรรทัดฐานรถแท็กซี่เป็นเส้นตรงตาข่ายเชื่อมต่อบรรทัดฐานรวมถึงบรรทัดฐานค่าสัมบูรณ์ L 2 L 1
n ‖ x - ข‖ 2 + ‖ Γ x ‖ 2 L 2บรรทัดฐานนอกเหนือไปจากสี่เหลี่ยมน้อยระยะทางแบบยุคลิดในอวกาศเช่นเดียวกับบรรทัดฐานตัวแปรที่ซับซ้อน ยิ่งไปกว่านั้นTikhonov normalization และการถดถอยของสันเขาคือแอปพลิเคชั่นที่ลดขนาดมักจะถือว่าเป็นบรรทัดฐาน .
วิกิพีเดียให้ข้อมูลเกี่ยวกับเหล่านี้และอื่น ๆบรรทัดฐาน กล่าวถึงมูลค่าเป็นL_0ทั่วไปบรรทัดฐานที่บรรทัดฐานที่เรียกว่าบรรทัดฐานเครื่องแบบL ∞