สัญชาตญาณทางคณิตศาสตร์ของสมการอคติ


12

ฉันเพิ่งถามคำถามที่ค้นหาการตีความทางคณิตศาสตร์ / ปรีชาอยู่เบื้องหลังสมการพื้นฐานที่เกี่ยวข้องกับค่าเฉลี่ยตัวอย่างและความแปรปรวน:เรขาคณิตหรืออย่างอื่นE[X2]=Var(X)+(E[X])2

แต่ตอนนี้ฉันอยากรู้เกี่ยวกับสมการการแลกเปลี่ยนความเอนเอียงที่มีอคติคล้ายกันมาก

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^])2]+(E[θ^]θ)2=Var(θ^)+Bias(θ^,θ)2
(สูตรจากWikipedia )

สำหรับฉันมันมีความคล้ายคลึงกันเพียงผิวเผินกับสมการแลกเปลี่ยนอคติแปรปรวนสำหรับการถดถอย: สามเทอมกับกำลังสองและอีกสองบวกกัน พีทาโกรัสมองมาก มีความสัมพันธ์แบบเวกเตอร์ที่คล้ายกันรวมถึง orthogonality สำหรับรายการเหล่านี้ทั้งหมดหรือไม่? หรือมีการตีความทางคณิตศาสตร์อื่น ๆ ที่เกี่ยวข้องที่ใช้?

ฉันกำลังมองหาความคล้ายคลึงทางคณิตศาสตร์กับวัตถุทางคณิตศาสตร์อื่น ๆ ที่อาจทำให้กระจ่าง ฉันไม่ได้กำลังมองหาการเปรียบเทียบความถูกต้องแม่นยำซึ่งครอบคลุมอยู่ที่นี่ แต่ถ้ามีการเปรียบเทียบที่ไม่ใช่ด้านเทคนิคที่ผู้คนสามารถให้ได้ระหว่างการแลกเปลี่ยนความเอนเอียงกับอคติและความสัมพันธ์ความแปรปรวนพื้นฐานที่มากขึ้นก็จะดีเช่นกัน

คำตอบ:


12

ความคล้ายคลึงกันนั้นเป็นเพียงผิวเผิน

"อคติ - แปรปรวนการค้าขาย" สามารถตีความได้ว่าทฤษฎีบทพีทาโกรัสนำไปใช้กับสองเวกเตอร์ตั้งฉากแบบยูคลิด: ความยาวของหนึ่งคือค่าเบี่ยงเบนมาตรฐานและความยาวของคนอื่นคืออคติ ความยาวของด้านตรงข้ามมุมฉากคือความคลาดเคลื่อนกำลังสองเฉลี่ยของรูท

ความสัมพันธ์ขั้นพื้นฐาน

เป็นจุดของการเดินทางให้พิจารณานี้คำนวณเปิดเผยที่ถูกต้องสำหรับการใด ๆ ตัวแปรสุ่มกับช่วงเวลาที่สองแน่นอนและจำนวนจริงใด ๆ เนื่องจากวินาทีที่สองนั้นมีค่า จำกัดมีค่าเฉลี่ยที่ จำกัดซึ่งดังนั้นXaXμ=E(X)E(Xμ)=0

(1)E((Xa)2)=E((Xμ+μa)2)=E((Xμ)2)+2E(Xμ)(μa)+(μa)2=Var(X)+(μa)2.

นี้แสดงให้เห็นถึงวิธีการเบี่ยงเบนยกกำลังสองเฉลี่ยระหว่างและการใด ๆ "พื้นฐาน" ค่าแตกต่างกันกับ: มันเป็นฟังก์ชันกำลังสองของกับต่ำสุดที่ที่เบี่ยงเบนยกกำลังสองเฉลี่ยความแปรปรวนของXXaaaμX

การเชื่อมต่อกับตัวประมาณค่าและอคติ

ตัวประมาณเป็นตัวแปรสุ่มเพราะ (ตามคำนิยาม) มันเป็นฟังก์ชั่น (วัดได้) ของตัวแปรสุ่ม ปล่อยให้มันเล่นบทบาทของในก่อนหน้าและปล่อยให้การประมาณ (สิ่งที่ควรจะประมาณ) เป็นเรามีθ^Xθ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

ลองกลับไปที่ตอนนี้เราได้เห็นแล้วว่าคำแถลงเกี่ยวกับอคติ + ความแปรปรวนสำหรับตัวประมาณนั้นเป็นกรณีของอย่างไร คำถามค้นหา "การเปรียบเทียบทางคณิตศาสตร์กับวัตถุทางคณิตศาสตร์" เราสามารถทำมากกว่านั้นได้โดยการแสดงให้เห็นว่าตัวแปรสุ่มที่รวมกันเป็นรูปสี่เหลี่ยมจัตุรัสสามารถสร้างขึ้นในพื้นที่ยูคลิด(1)(1)

พื้นหลังทางคณิตศาสตร์

ในความหมายทั่วไปมากตัวแปรสุ่มเป็น (ที่วัด) ฟังก์ชันค่าจริงในพื้นที่น่าจะเป็น{P}) ชุดของฟังก์ชั่นดังกล่าวเป็นรูปสี่เหลี่ยมจัตุรัสซึ่งรวมกันได้ซึ่งมักจะเขียน (ด้วยโครงสร้างความน่าจะเป็นที่เข้าใจ) เกือบเป็นพื้นที่ฮิลแบร์ต ที่จะทำให้มันเป็นหนึ่งเราจะต้อง conflate สองตัวแปรสุ่มและซึ่งไม่ได้จริงๆแตกต่างกันในแง่ของการรวมนั่นคือเราบอกว่าและมีความเทียบเท่าเมื่อใดก็ตามที่(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

มันตรงไปตรงมาเพื่อตรวจสอบว่านี่คือความสมดุลจริง: ที่สำคัญที่สุดเมื่อเทียบเท่ากับและเทียบเท่ากับแล้วจำเป็นต้องจะเทียบเท่ากับZดังนั้นเราจึงอาจแบ่งตัวแปรสุ่มแบบสี่เหลี่ยมจัตุรัสทั้งหมดที่รวมอยู่ในคลาสที่เท่ากัน ชั้นเรียนเหล่านี้ในรูปแบบชุดOmega) ยิ่งไปกว่านั้นสืบทอดโครงสร้างพื้นที่เวคเตอร์ของกำหนดโดยการเพิ่มจุดและค่าการคูณสเกลาร์แบบพอยต์ตามจุด บนพื้นที่เวคเตอร์นี้ฟังก์ชันXYYZXZL2(Ω)L2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

เป็นบรรทัดฐานมักจะเขียน||บรรทัดฐานนี้ทำให้กลายเป็นช่องว่างของฮิลแบร์ต ลองนึกถึงช่องว่างของฮิลแบร์ตในฐานะ "ปริภูมิแบบยุคลิดแบบไม่สิ้นสุด" ขอบเขตมิติ จำกัด ใด ๆสืบทอดบรรทัดฐานจากและด้วยบรรทัดฐานนี้คือปริภูมิแบบยุคลิด: เราสามารถทำเรขาคณิตแบบยุคลิดได้||X||2L2(Ω)HVHHV

สุดท้ายเราจำเป็นต้องใช้ความเป็นจริงที่เป็นพิเศษไปที่ช่องว่างความน่าจะเป็น (มากกว่าพื้นที่วัดทั่วไป): เพราะคือความน่าจะเป็นก็เป็นที่สิ้นสุด (โดย ) ดังนั้นฟังก์ชั่นอย่างต่อเนื่อง (สำหรับการใด ๆ จำนวนจริงคงที่ ) เป็นตัวแปรสุ่มสแควร์บูรณาการที่มีบรรทัดฐาน จำกัดP1ωaa

การตีความทางเรขาคณิต

พิจารณาใด ๆ ตาราง integrable ตัวแปรสุ่ม , คิดว่าเป็นตัวแทนของชั้นสมมูลของมันในOmega) มันมีความหมายซึ่ง (เป็นหนึ่งสามารถตรวจสอบ) ขึ้นอยู่บนชั้นสมมูลของXปล่อยเป็นคลาสของตัวแปรสุ่มแบบคงที่XL2(Ω)μ=E(X)X1:ω1

Xและสร้างสเปซแบบยุคลิดที่มีมิติที่มากที่สุด2ในพื้นที่ย่อยนี้คือความยาวกำลังสองของและคือ ความยาวยกกำลังสองของตัวแปรสุ่มคงที่ไป มันเป็นพื้นฐานที่ตั้งฉากกับ{1} (หนึ่งคำนิยามของคือมันเป็นหมายเลขที่ไม่ซ้ำกันในกรณีนี้) ความสัมพันธ์อาจถูกเขียน1VL2(Ω)2||X||22=E(X2)X||a1||22=a2ωaXμ11μ(1)

||Xa1||22=||Xμ1||22+||(aμ)1||22.

แน่นอนมันเป็นอย่างแม่นยำพีทาโกรัสทฤษฎีบทในหลักรูปแบบเดียวกันที่รู้จักกันในปี 2500 ที่ผ่านมา วัตถุคือด้านตรงข้ามมุมฉากของสามเหลี่ยมมุมฉากกับขาและ{1}

Xa1=(Xμ1)(aμ)1
Xμ1(aμ)1

หากคุณต้องการความคล้ายคลึงทางคณิตศาสตร์คุณอาจใช้สิ่งใดก็ได้ที่สามารถแสดงออกในรูปสามเหลี่ยมมุมฉากของสามเหลี่ยมมุมฉากในปริภูมิแบบยุคลิด ด้านตรงข้ามมุมฉากจะแสดงถึง "ข้อผิดพลาด" และขาจะแสดงถึงอคติและความเบี่ยงเบนจากค่าเฉลี่ย


ยอดเยี่ยม ดังนั้นเหตุผลที่เกือบจะเหมือนกับว่าสำหรับคำถามก่อนหน้านี้ของฉันอีกครั้ง 2 ดังนั้นจึงมีการเปรียบเทียบระหว่างสิ่งนั้นใช่ไหม ดูเหมือนว่าสัญชาตญาณมีความคล้ายคลึงกับค่าเฉลี่ย และการวางนัยทั่วไปก็คือค่าเฉลี่ยคือโมเมนต์ที่ 1 เทียบกับ 0 แต่อคตินั้นเกี่ยวกับค่าที่แท้จริงของพารามิเตอร์ เสียงนั้นใช่ไหม Var=EX2(EX)2
มิทช์

ใช่ - ด้วยเงื่อนไข (ซึ่งเป็นการเพิ่มความเข้าใจโดยการตีความทางเรขาคณิต) ว่าวิธีที่ถูกต้องในการวัดสิ่งเหล่านี้คือในแง่ของกำลังสองของพวกเขา
whuber

ดังนั้นฉันจึงมีคำถามที่เกี่ยวข้อง สำหรับการเรียนรู้ของเครื่องจักรใด ๆ ฉันมีสองแนวคิดนี้ "ถ้าเราเพิ่มขนาดตัวอย่างความแปรปรวนของตัวประมาณค่าที่ไม่เอนเอียงจะเป็นศูนย์" และ "ถ้าเราเพิ่มความซับซ้อนของโมเดลดังนั้นเราจะมีอคติต่ำและความแปรปรวนสูง" . ดังนั้นฉันสามารถพูดได้ว่าพลังการคำนวณมากขึ้นช่วยให้ความซับซ้อนมากขึ้นซึ่งจะลดอคติ แต่เพิ่มความแปรปรวน อย่างไรก็ตามภายใต้ซีมโทติคการเพิ่มขึ้นของความแปรปรวนนี้จะถูกหักล้าง
ARAT

@Mustafa คุณตั้งสมมติฐานที่แข็งแกร่ง ที่แรกก็คือว่ากลุ่มตัวอย่างเป็นแบบสุ่มและ (อย่างน้อยประมาณ) อิสระ --that มักจะไม่ได้กรณีในการใช้งานมิลลิลิตร ข้อสรุปเกี่ยวกับการเพิ่มความซับซ้อนของแบบจำลองนั้นไม่เป็นความจริงส่วนหนึ่งเป็นเพราะ "ความซับซ้อนที่เพิ่มขึ้น" หมายความว่าคุณกำลังเปลี่ยนรูปแบบและคำถามที่ถามถึงความหมายของสิ่งที่ตัวประมาณของคุณกำลังประเมินรวมไปถึงตัวประมาณนั้น . ไม่จำเป็นต้องเป็นไปตามที่ความซับซ้อนของแบบจำลองที่เพิ่มขึ้นมีผลกระทบที่คาดการณ์ได้โดยทั่วไปต่ออคติหรือความแปรปรวน
whuber

4

นี่เป็นวิธีคิดอย่างแม่นยำเกี่ยวกับความถูกต้องและการเบี่ยงเบนอคติความแปรปรวน สมมติว่าคุณกำลังมองหาเป้าหมายและคุณทำการยิงหลายนัดซึ่งกระจายอยู่ใกล้กับศูนย์กลางของเป้าหมายในลักษณะที่ไม่มีอคติ จากนั้นความแม่นยำจะถูกกำหนดโดยความแปรปรวนเพียงอย่างเดียวและเมื่อความแปรปรวนมีขนาดเล็กปืนก็มีความแม่นยำ

ตอนนี้ให้เราพิจารณากรณีที่มีความแม่นยำสูง แต่มีอคติมาก ในกรณีนี้ภาพจะกระจัดกระจายไปรอบจุดที่ไกลจากศูนย์กลาง มีบางสิ่งที่ทำให้จุดมุ่งหมายสับสน แต่รอบจุดมุ่งหมายนี้ทุกช็อตอยู่ใกล้กับจุดเล็งใหม่ ปืนมีความแม่นยำ แต่ไม่แม่นยำมากเนื่องจากความลำเอียง

มีสถานการณ์อื่น ๆ ที่การถ่ายภาพนั้นมีความแม่นยำเนื่องจากอคติเล็ก ๆ และความแม่นยำสูง สิ่งที่เราต้องการคือไม่มีอคติและความแปรปรวนเล็ก ๆ หรือความแปรปรวนเล็กน้อยที่มีอคติเล็ก ๆ ในบางปัญหาทางสถิติคุณไม่สามารถมีทั้งคู่ได้ ดังนั้น MSE จึงกลายเป็นตัวชี้วัดความถูกต้องที่คุณต้องการใช้เพื่อลดความเบี่ยงเบนของอคติและ MSE ควรเป็นเป้าหมาย


คำอธิบายที่ใช้งานง่ายยอดเยี่ยมเป็นความแปรปรวนอคติและความแม่นยำที่แม่นยำ ฉันกำลังมองหาการตีความทางคณิตศาสตร์เช่นทฤษฎีบทพีทาโกรัส
มิทช์

1
ฉันไม่ได้มุ่งเน้นไปที่สิ่งนั้นเพราะมันถูกกล่าวถึงในบทความอื่นที่กล่าวถึงการตีความทางเรขาคณิต ฉันจะหาลิงค์สำหรับคุณ
Michael R. Chernick

@Mitch การค้นหา "Bias-variance tradeoff" ให้ผล 134 ครั้งในเว็บไซต์ CV ฉันยังไม่พบทฤษฎีบทพีทาโกรัส แต่ทฤษฎีนี้ดีมากและมีรูปเป้าหมายที่ฉันพูดถึงในโพสต์นี้ "คำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความแปรปรวนแบบอคติ"
Michael R. Chernick

ฉันพบสิ่งที่ฉันกำลังมองหาจาก 5 มกราคม 2017 "ปรีชา (เรขาคณิตหรืออื่น ๆ ) ของ Var (X) = E [ ] - ( )X2E[X])2
Michael R. Chernick

@ Mitch ฉันไม่ทราบว่าคุณโพสต์คำถามที่ฉันต้องการ
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.