มุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในแบบผสมคืออะไร?


64

พิจารณาสามปรากฏการณ์ต่อไปนี้

  1. ความขัดแย้งของสไตน์: ได้รับข้อมูลจากการแจกแจงปกติหลายตัวแปรในค่าเฉลี่ยตัวอย่างไม่ใช่ค่าประมาณที่ดีมากของค่าเฉลี่ยที่แท้จริง เราสามารถได้ค่าประมาณที่มีความคลาดเคลื่อนกำลังสองต่ำกว่าถ้ามีการลดขนาดพิกัดทั้งหมดของค่าเฉลี่ยตัวอย่างไปยังศูนย์ [หรือไปสู่ค่าเฉลี่ยของพวกเขาหรือจริงต่อค่าใด ๆ ถ้าฉันเข้าใจถูกต้อง]Rn,n3

    หมายเหตุ: มักจะเป็นสูตรของสไตน์โดยพิจารณาจากจุดข้อมูลเดียว ; โปรดแก้ไขฉันหากนี่เป็นสิ่งสำคัญและสูตรของฉันด้านบนไม่ถูกต้องRn

  2. สันถดถอย: ให้ตัวแปรและตัวแปรอิสระบางตัว , การถดถอยมาตรฐานมีแนวโน้ม เพื่อให้ข้อมูลเหมาะสมและนำไปสู่ประสิทธิภาพที่ไม่ดีตัวอย่าง หนึ่งมักจะสามารถลดการหดตัวโดยอิงต่อศูนย์:YX β = ( XX ) - 1 XY β β = ( XX + λ ฉัน) - 1 XYyXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. เอฟเฟ็กต์แบบสุ่มในหลายระดับ / แบบผสม: เมื่อพิจารณาตัวแปร (เช่นความสูงของนักเรียน) ซึ่งขึ้นอยู่กับการพยากรณ์หมวดหมู่ (เช่นรหัสโรงเรียนและเพศของนักเรียน) เรามักแนะนำให้ใช้ตัวทำนายบางตัวเป็น 'สุ่ม' เช่นสมมติว่า ความสูงเฉลี่ยของนักเรียนในแต่ละโรงเรียนมาจากการแจกแจงแบบปกติบางส่วน สิ่งนี้ส่งผลให้การประมาณค่าความสูงเฉลี่ยต่อโรงเรียนลดลงไปสู่ค่าเฉลี่ยทั่วโลกy

ฉันมีความรู้สึกว่าทั้งหมดนี้เป็นแง่มุมต่าง ๆ ของปรากฏการณ์ "การหดตัว" แบบเดียวกัน แต่ฉันไม่แน่ใจและไม่มีสัญชาตญาณที่ดีเกี่ยวกับเรื่องนี้ ดังนั้นคำถามหลักของฉันคือ: จริง ๆ แล้วมีความคล้ายคลึงกันลึกระหว่างสามสิ่งนี้หรือเป็นเพียงรูปร่างหน้าตาตื้น ๆ ? ชุดรูปแบบทั่วไปคืออะไรที่นี่ สัญชาตญาณที่ถูกต้องเกี่ยวกับมันคืออะไร?

นอกจากนี้นี่คือบางส่วนของปริศนานี้ที่ไม่เหมาะสำหรับฉัน:

  • ในการถดถอยสัน,ไม่หดอย่างสม่ำเสมอ; อันที่จริงการหดตัวของสันเขานั้นเกี่ยวข้องกับการสลายตัวของเอกพจน์โดยที่ทิศทางการแปรปรวนต่ำจะหดตัวมากขึ้น (ดูเช่นองค์ประกอบของการเรียนรู้ทางสถิติ 3.4.1) แต่ตัวประเมินเจมส์ - สไตน์ก็แค่หาค่าเฉลี่ยตัวอย่างแล้วคูณมันด้วยตัวประกอบสเกลเดียว มันเข้ากันได้อย่างไรXβX

    อัปเดต:ดูตัวประมาณการ James-Stein ที่มีความแปรปรวนไม่เท่ากันและที่นี่เกี่ยวกับความแปรปรวนของค่าสัมประสิทธิ์β

  • ค่าเฉลี่ยตัวอย่างเหมาะสมที่สุดในมิติด้านล่าง 3 หมายความว่าเมื่อมีตัวทำนายเพียงหนึ่งหรือสองตัวในแบบจำลองการถดถอยการถดถอยของสันเขาจะแย่กว่าสแควร์น้อยธรรมดาทั่วไปเสมอ ที่จริงแล้วลองคิดดูสิฉันไม่สามารถจินตนาการถึงสถานการณ์ใน 1D (เช่นการถดถอยแบบง่าย ๆ ไม่ใช่หลาย ๆ จุด) ซึ่งการหดตัวของสันจะเป็นประโยชน์ ...

    อัปเดต:ไม่โปรดดูภายใต้เงื่อนไขว่าการถดถอยของสันเขาสามารถให้การปรับปรุงมากกว่าการถดถอยกำลังสองน้อยที่สุดได้อย่างไร

  • บนมืออื่น ๆ ตัวอย่างเฉลี่ยมักจะก่อให้เกิดผลลัพธ์ในมิติดังกล่าวข้างต้น 3. มันหมายความว่ามีมากกว่า 3 ตัวทำนายถดถอยสันอยู่เสมอดีกว่า OLS แม้ว่าพยากรณ์ทั้งหมดที่มี uncorrelated (มุมฉาก)? โดยทั่วไปแล้วการถดถอยของสันเขานั้นเกิดจากความหลากหลายของความสัมพันธ์และความต้องการที่จะ "คงที่"คำ(XX)1

    อัพเดท:ใช่! ดูชุดข้อความเดียวกันกับด้านบน

  • บ่อยครั้งที่มีการพูดคุยกันอย่างร้อนแรงเกี่ยวกับว่าปัจจัยต่าง ๆ ใน ANOVA ควรรวมไว้เป็นเอฟเฟกต์แบบคงที่หรือแบบสุ่ม เราไม่ควรใช้ตรรกะเดียวกันปฏิบัติกับปัจจัยสุ่มเสมอหากมีมากกว่าสองระดับ (หรือถ้ามีมากกว่าสองปัจจัยตอนนี้ฉันสับสน)

    UPDATE: ?


อัปเดต:ฉันได้รับคำตอบที่ยอดเยี่ยม แต่ไม่มีภาพใหญ่เพียงพอดังนั้นฉันจะให้คำถาม "เปิด" ฉันสามารถสัญญาว่าจะมอบรางวัลอย่างน้อย 100 คะแนนให้กับคำตอบใหม่ที่เกินกว่าที่มีอยู่เดิม ฉันส่วนใหญ่กำลังมองหามุมมองรวมที่สามารถอธิบายว่าปรากฏการณ์ทั่วไปของการหดตัวปรากฏตัวในบริบทต่าง ๆ เหล่านี้และชี้ให้เห็นความแตกต่างที่สำคัญระหว่างพวกเขา


ความเข้าใจของฉันคือการถดถอยของสัน (และลูกพี่ลูกน้องของมันเช่น Lasso และ elastic net) ทำให้สัมประสิทธิ์สำหรับตัวแปรที่สัมพันธ์กันที่ใช้ร่วมกันโดยการสังเกตทั้งหมดในการถดถอย (เช่นสถานะทางสังคมและเศรษฐกิจของนักเรียนและ GPA) ในขณะที่แบบจำลองแบบสุ่ม ระดับพิเศษร่วมกันหรือกลุ่มของการสังเกตที่สัมพันธ์กัน (เช่นสถานะทางเศรษฐกิจและสังคมของนักเรียนของนักเรียนที่จัดกลุ่มตามรหัสโรงเรียน)
RobertF

3
ฉันคิดว่าสถานที่ที่ดีที่สุดในการรับคำตอบแบบรวมคือดูคำหลัก BLUP (สำหรับตัวทำนายผลแบบเส้นตรงที่ดีที่สุด) esp ในวรรณคดีการปรับปรุงพันธุ์สัตว์ ดูตัวอย่างการสำรวจของโรบินสันในสาขาวิทยาศาสตร์ทางสถิติ หรือหนังสือของ
ซีอาน

2
@ ซีอาน: ขอบคุณมากฉันได้พบหนังสือของกรูเบอร์แล้วและถึงแม้ว่าเขาจะพูดถึงทั้งเจมส์ - สไตน์และสันเขาถดถอยมากฉันไม่พบการเปรียบเทียบโดยตรงของทั้งสองเลย (อ่านทั้งเล่มคือ ไม่ใช่ตัวเลือกสำหรับฉันตอนนี้ ... ) ขอบคุณสำหรับลิงค์ไปยังแบบสำรวจของ Robinson ฉันจะดู เลี้ยงสัตว์ ! ใครจะมีความคิด โดยวิธีการที่ฉันได้เห็นความคิดเห็นของคุณในหัวข้อที่เกี่ยวข้องและเดาว่าคุณอาจเป็นหนึ่งในคนที่สามารถให้คำตอบที่น่าพอใจจริง ๆ ที่นี่! นี่จะดีมาก จนถึงขณะนี้ยังไม่มีคำตอบที่ทำให้ฉันพอใจ
อะมีบาพูดว่า Reinstate Monica

2
@ ซีอาน: ความคิดเห็นที่เป็นประโยชน์ของคุณด้านล่างทำให้ฉันพลาดคำตอบจากคุณที่นี่ อย่างไรก็ตามฉันเริ่มอ่าน Robinson และตระหนักว่า "Best Linear Unbiased Predictor" เป็นเครื่องมือประเมินลำเอียง ช่างเป็นคำศัพท์ที่ดี
อะมีบาพูดว่า Reinstate Monica

4
พวกเขาเก่งในเรื่องการปรับปรุงพันธุ์สัตว์หลังจาก Casella & George 1992 "Gibbs for kids" ต้องเปลี่ยนชื่อเพื่อรับการเผยแพร่ Wang & Gianola เขียนบทแนะนำ "Gibbs for pigs" ในปี 1993 ที่สมาคมการผลิตสัตว์แห่งยุโรป!
ซีอาน

คำตอบ:


30

การเชื่อมต่อระหว่างตัวประมาณ James – Stein กับการถดถอยแบบสัน

ปล่อยเป็นเวกเตอร์ของการสังเกตของความยาว ,ตัวประมาณการเจมส์สไตน์คือ ในแง่ของการถดถอยสันเราสามารถประมาณผ่าน ที่คำตอบคือ มันง่ายที่จะเห็นว่าตัวประมาณสองตัวอยู่ในรูปแบบเดียวกัน แต่เราต้องประมาณyθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2ในตัวประเมินเจมส์ - สไตน์และกำหนดในสันเขาถดถอยผ่านการตรวจสอบความถูกต้องλ

การเชื่อมต่อระหว่างตัวประมาณ James – Stein กับโมเดลเอฟเฟกต์แบบสุ่ม

ให้เราคุยเกี่ยวกับแบบจำลองผลกระทบผสม / แบบสุ่มในพันธุศาสตร์ก่อน แบบจำลองคือ หากไม่มีผลกระทบคงที่และแบบจำลองจะกลายเป็น ซึ่งเทียบเท่ากับการตั้งค่าของเจมส์ - สไตน์ประมาณด้วย ความคิดแบบเบย์

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

การเชื่อมต่อระหว่างโมเดลสุ่มเอฟเฟกต์กับการถดถอยสัน

ถ้าเรามุ่งเน้นที่โมเดลเอฟเฟกต์แบบสุ่มด้านบน การประเมินนั้นเทียบเท่ากับการแก้ปัญหา เมื่อ 2 หลักฐานที่สามารถพบได้ในบทที่ 3 ของการรับรู้และการเรียนรู้รูปแบบเครื่อง

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

การเชื่อมต่อระหว่าง (เอฟเฟ็กต์แบบสุ่มหลายระดับ) กับแบบจำลองทางพันธุศาสตร์

ในผลกระทบที่สุ่มแบบข้างต้นมิติของเป็นและที่ของเป็นครั้งหน้า ถ้าเรา vectorizeเป็นและทำซ้ำตามลำดับเรามีโครงสร้างแบบลำดับชั้น / คลัสเตอร์คลัสเตอร์และแต่ละหน่วยมีหน่วยถ้าเราถดถอยบนซ้ำแล้วเราจะได้ผลแบบสุ่มของต่อสำหรับแต่ละกลุ่มแม้ว่ามันจะเหมือนกับการถดถอยแบบย้อนกลับym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


รับทราบ : สามจุดแรกที่จะเรียนรู้ส่วนใหญ่มาจากทั้งสองบทความจีน, 1 , 2


(+1) ขอบคุณมาก! สิ่งนี้มีประโยชน์มากและฉันจะดูในตำราเรียนของอธิการอย่างแน่นอนซึ่งฉันรู้ดีและมักจะปรึกษา ฉันไม่ได้คาดหวังว่าจะพบสิ่งใดในแบบผสมที่นั่น แต่ดูเหมือนว่ามาตรา 3.3 "การถดถอยเชิงเส้นแบบเบย์" เป็นจริงเกี่ยวกับเรื่องนั้นเพียงแค่ใช้คำศัพท์ที่แตกต่างกัน ดีมากที่จะรู้! แต่อะไรคือสิ่งที่คุณใช้กับคำถามหัวข้อย่อยของฉัน?
อะมีบาพูดว่า Reinstate Monica

คุณมีคำถามมากเกินไปในโพสต์ :) 1) ตามที่ฉันตอบไว้ข้างต้นตัวประมาณค่า James-Stein และการถดถอยสันจะเทียบเท่ากันเมื่อไม่มี covariatesหรือเมทริกซ์เอกลักษณ์ 2,3,4) เป็น @James กล่าวถึงจำนวนพยากรณ์ (ด้านบน) ไม่จำเป็นต้องมีค่าเท่ากับการตอบสนองมิติเมตรXpm
Randel

BTW ผมไม่สามารถดูตัวอย่างเฉลี่ย / หมายความว่าจะใช้ในเจมส์-Stein ประมาณการก็จริงจะใช้เวลาประมาณแล้วหดตัวมัน0 y0
Randel

2
ตัวประมาณ JS และการถดถอยสันจะแตกต่างกัน การประเมินการถดถอยสันของ -dimensional ของ p-vector สอดคล้องกับเมทริกซ์การออกแบบซึ่งจะนำไปสู่การประเมินซึ่งหายไป (ไม่ใช่เชิงเส้น!)เทอมในส่วนของ JS-EstatorpIp(1+λ)1Ipyy2
Andrew M

3
ฉันคิดว่ามันทั้งหมดขึ้นอยู่กับสิ่งที่คุณเรียกว่าตัวประมาณสัน ในความหมายต้น Hoerl และ Kennard (1970) ไม่มีการพึ่งพาในข้อมูล ในแง่ของวิทยานิพนธ์ปริญญาเอกของ Casella ในภายหลัง (1978) การกำหนดแมนนวลของจะถูกแทนที่ด้วยฟังก์ชันของผลรวมที่เหลือของกำลังสอง λλ
ซีอาน

6

ฉันจะปล่อยให้มันเป็นแบบฝึกหัดสำหรับชุมชนเพื่อเนื้อคำตอบนี้ แต่โดยทั่วไปเหตุผลที่ตัวประมาณค่าการหดตัวจะ * * * * * * *ตัวประมาณค่าเอนเอียงในกลุ่มตัวอย่าง จำกัด เป็นเพราะตัวประมาณค่าBayesไม่สามารถควบคุมได้ , และตัวประมาณค่าการหดตัวจำนวนมากสามารถรับได้ว่าเป็นเบย์ 1234

ทั้งหมดนี้อยู่ภายใต้การอุปถัมภ์ของทฤษฎีการตัดสินใจ การอ้างอิงที่ละเอียดถี่ถ้วน แต่ค่อนข้างไม่เป็นมิตรคือ "ทฤษฎีการประมาณค่าจุด" โดย Lehmann และ Casella บางทีคนอื่นอาจพูดสอดกับการอ้างอิงที่เป็นมิตร?


1ตัวประมาณของพารามิเตอร์บนข้อมูลถูกครอบงำโดยตัวประมาณอีกถ้าสำหรับทุกความเสี่ยง (เช่น Mean Square Error) ของเท่ากับหรือใหญ่กว่าและเต้นเวลาอย่างน้อยหนึ่ง\กล่าวอีกนัยหนึ่งคุณจะได้รับประสิทธิภาพที่เท่าเทียมกันหรือดีกว่าสำหรับทุกที่ในพื้นที่พารามิเตอร์δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2ตัวประมาณคือ Bayes (ภายใต้การสูญเสียความผิดพลาดกำลังสอง) ถ้ามันเป็นความคาดหวังหลังของ , ให้ข้อมูลภายใต้ , e ,ที่คาดหวังไว้กับหลัง ธรรมชาติไพรเออร์ที่แตกต่างกันนำไปสู่ความเสี่ยงที่แตกต่างกันสำหรับย่อยแตกต่างกันของ\ตัวอย่างของเล่นที่สำคัญคือ ที่วางไว้ก่อนหน้าทั้งหมด มวลเกี่ยวกับจุด\จากนั้นคุณสามารถแสดงให้เห็นว่าตัวประมาณ Bayes เป็นฟังก์ชันคงที่θπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0ซึ่งแน่นอนว่ามีประสิทธิภาพที่ดีมากที่และใกล้และประสิทธิภาพที่แย่มาก ๆ แต่กระนั้นก็ไม่สามารถครอบงำเพราะเพียงประมาณการที่นำไปสู่ความเสี่ยงเป็นศูนย์ที่\θ0θ0

3คำถามธรรมชาติคือถ้าตัวประมาณใด ๆ ที่ไม่สามารถควบคุมได้ (เรียกว่ายอมรับได้แม้ว่าจะไม่แพ้ Snazzier?) จำเป็นต้องเป็น Bayes หรือไม่? คำตอบคือเกือบ ดูที่ "ทฤษฎีบทคลาสสมบูรณ์"

4ตัวอย่างเช่นการถดถอยสันเขาเกิดขึ้นเป็นขั้นตอนคชกรรมเมื่อคุณวางปกติ (0, ) ก่อนที่ใน , และสุ่มแบบจำลองผลกระทบเกิดขึ้นเป็นขั้นตอนคชกรรมเชิงประจักษ์ในกรอบที่คล้ายกัน การโต้เถียงเหล่านี้มีความซับซ้อนเนื่องจากข้อเท็จจริงที่ว่าทฤษฎีวานิลาของการยอมรับแบบเบย์นั้นสันนิษฐานว่าพารามิเตอร์ทุกตัวมีค่าที่เหมาะสมก่อน แม้แต่ในสันเขาถดถอยนั่นไม่เป็นความจริงเพราะ "วางไว้ก่อนหน้า" ถูกวางลงบนความแปรปรวน1/λ2βσ2ของข้อผิดพลาดคือฟังก์ชั่นคงที่ (การวัด Lebesgue) ซึ่งไม่ได้เป็นการกระจายความน่าจะเป็น แต่อย่างไรก็ตามตัวประมาณค่าแบบเบย์บางส่วนสามารถแสดงให้เห็นว่ายอมรับได้โดยแสดงให้เห็นว่าพวกมันเป็น "ขีด จำกัด " ของลำดับตัวประมาณค่าที่เหมาะสมกับเบย์ แต่หลักฐานที่นี่ค่อนข้างซับซ้อนและละเอียดอ่อน ดูที่ "ตัวประมาณค่าแบบเบย์ทั่วไป"


1
ขอบคุณมากน่าสนใจมาก (+1) ฉันอยากได้คำตอบของคุณอย่างละเอียดมากกว่านี้อีก ... เชิงอรรถของคุณ (3): คุณกำลังบอกหรือไม่ว่าตัวประมาณค่าของเบย์ทุกคนนั้นยอมรับได้ / ไม่ย่อท้อ แต่ตัวประเมินเจมส์ - สไตน์สามารถหาได้จากเบย์เชิงประจักษ์ ทำไมมันถึงยอมรับไม่ได้ มันก็หมายความว่าเช่นในการถดถอยสันฉันสามารถเข้มข้นก่อนไม่รอบศูนย์ แต่รอบค่าอื่น ๆ :และมันจะยังคงเป็น กลยุทธ์การทำให้เป็นมาตรฐานอย่างสมเหตุสมผลหรือไม่? βN(β0,1/λ2)
อะมีบาพูดว่า Reinstate Monica

2
ด้วยเหตุผลที่ว่าทำไมเจมส์-Stein ประมาณการคือไม่ยอมรับคุณสามารถหาคำตอบได้ที่นี่ นอกจากนี้ยังมีการอภิปรายรายละเอียดและน่าสนใจในมาห์และ Casella (1998), ทฤษฎีการประเมินจุด
Randel

@ Randel: ใช่ฉันรู้ว่ามันไม่สามารถยอมรับได้และได้เห็นเหตุผลนั้นฉันแค่สงสัยว่ามันเหมาะกับคำสั่งของแอนดรู (ให้ฉันเข้าใจอย่างถูกต้อง) ว่า Bayes ทั้งหมดเป็นที่ยอมรับเนื่องจาก James-Stein สามารถเข้าใจได้ผ่าน Empirical Bayes ...
อะมีบาพูดว่า Reinstate Monica

2
@Amoeba: ใช่ ๆ ประมาณเบส์ที่เป็นหลังภายใต้การใด ๆที่เหมาะสมนำไปสู่การก่อนที่จะประมาณการที่ยอมรับ เท่าที่เบย์เชิงประจักษ์ดำเนินไปกระบวนการดังกล่าวไม่ได้อยู่ในความเป็นจริงของการเยาะเย้ยเบย์เนื่องจากการพึ่งพาข้อมูลก่อนหน้านี้อาจนำไปสู่โรค บางครั้งพวกเขาสามารถแสดงให้เห็นว่าเป็นที่ยอมรับได้บางครั้งพวกเขาไม่ได้ - โดยทั่วไปคุณต้องทำงานเป็นกรณี ๆ ไป ฉันได้แก้ไขคำตอบของฉันให้รอบคอบมากขึ้นในจุดนี้เพราะในความเป็นจริงฉันไม่รู้ว่าแบบจำลองเชิงเส้นผสมแบบคลาสสิกนั้นยอมรับได้หรือไม่!
Andrew M

3
เพียงแค่ต้องชี้ให้เห็นว่าตัวประมาณค่าเบย์ที่เหมาะสมของแท้นั้นไม่ค่อยจะทำงานเป็นตัวประมาณค่าแบบเจมส์ - สไตน์เพราะมันไม่ได้เป็นมินิแมกซ์ Bill Strawderman แสดงตัวอย่าง (ในปี 1975) ว่าไม่มีตัวประมาณค่า minimax Bayes ที่เหมาะสมในขนาดที่น้อยกว่า 5 สำหรับปัญหาค่าเฉลี่ยปกติที่ตั้งไว้ทั้งหมด
ซีอาน

2
  • James-Stein สันนิษฐานว่ามิติของการตอบสนองเป็นอย่างน้อย 3 ในการถดถอยสันมาตรฐานการตอบสนองเป็นหนึ่งมิติ คุณกำลังสับสนจำนวนผู้ทำนายที่มีมิติการตอบสนอง

  • ที่ถูกกล่าวว่าฉันเห็นความคล้ายคลึงกันในสถานการณ์เหล่านั้น แต่สิ่งที่ต้องทำเช่นว่าปัจจัยควรได้รับการแก้ไขหรือแบบสุ่มเท่าใดการหดตัวที่จะใช้ถ้าทั้งหมดขึ้นอยู่กับชุดข้อมูลที่เฉพาะเจาะจง ยกตัวอย่างเช่นยิ่งตัวพยากรณ์ตั้งฉากมากเท่าไหร่ก็ยิ่งมีความเหมาะสมที่จะเลือกการถดถอยแบบริดจ์มากกว่าการถดถอยแบบมาตรฐาน ยิ่งมีจำนวนพารามิเตอร์มากเท่าไหร่ก็ยิ่งมีความเหมาะสมที่จะดึงข้อมูลก่อนหน้าออกจากชุดข้อมูลผ่าน Empirical Bayes แล้วใช้เพื่อลดขนาดการประมาณค่าพารามิเตอร์ ยิ่งอัตราส่วนสัญญาณต่อเสียงรบกวนมากเท่าไหร่ก็ยิ่งมีประโยชน์น้อยลงเท่านั้น


ขอบคุณสำหรับคำตอบ เกี่ยวกับสัญลักษณ์แสดงหัวข้อแรกของคุณ: แต่สิ่งที่ถูกย่อให้เล็กลงในการถดถอยสันคือซึ่งมีมิติมากที่สุดเท่าที่ผู้ทำนายไม่ได้หรือไม่ β
อะมีบาพูดว่า Reinstate Monica

1
ตกลงในทางทฤษฎีแล้ว JS ควรทำงานได้ดีขึ้นโดยสมมติว่ามันถูกขยายไปถึงกรณีที่ MSE ถูกประเมินและเมทริกซ์ความแปรปรวนร่วมแปรปรวนของเบต้านั้นเป็นแบบสุ่ม ในกรณีนี้ JS จะไม่เพียงแค่ประเมินค่าจุดของเบต้าและคูณมันด้วยปัจจัยการปรับสเกล Similary to Ridge Regression ส่วนประกอบต่าง ๆ ของเบต้าจะหดตัวแตกต่างกัน
James

จุดที่ดีมากเกี่ยวกับเมทริกซ์ความแปรปรวนร่วมของ ! ฉันเดาคำตอบนี้ (อย่างน้อยสังหรณ์ใจ) กระสุนแรกของฉัน β
อะมีบาพูดว่า Reinstate Monica

2
@ James: โมเดลเชิงเส้นสามารถนึกถึงการฉายตัวอย่าง (ซึ่งอยู่ใน ) ลงใน -dimensional subspace (คอลัมน์ที่ครอบคลุมโดยเมทริกซ์การออกแบบ) โดยเฉพาะเราสามารถฉายมันลงบนตัวตนได้เสมอ เหมือนกับการใช้ค่าเฉลี่ยตัวอย่างของ -vector เมื่อคุณสังเกตเพียงครั้งเดียว Rnpn
Andrew M

2

อย่างที่คนอื่นพูดการเชื่อมโยงระหว่างสามสิ่งนี้เป็นวิธีที่คุณรวมข้อมูลก่อนหน้านี้เข้ากับการวัด

  1. ในกรณีของ Stein บุคคลที่ผิดธรรมดาคุณรู้ว่าความสัมพันธ์ที่แท้จริงระหว่างตัวแปรอินพุตควรเป็นศูนย์ (และมาตรการความสัมพันธ์ที่เป็นไปได้ทั้งหมดเนื่องจากคุณต้องการบ่งบอกถึงความเป็นอิสระไม่ใช่แค่ความสัมพันธ์ที่ไม่เกี่ยวข้อง) ดังนั้นคุณสามารถสร้างตัวแปรได้ง่ายกว่า ค่าเฉลี่ยตัวอย่างและปราบปรามมาตรการความสัมพันธ์ต่าง ๆ ในกรอบการทำงานแบบเบย์คุณสามารถสร้างก่อนหน้านั้นว่าน้ำหนักที่แท้จริงของเหตุการณ์ที่นำไปสู่ความสัมพันธ์ระหว่างค่าเฉลี่ยตัวอย่างและค่าน้ำหนักอื่น ๆ
  2. ในกรณีของสันเขาถดถอยคุณต้องการหาค่าประมาณที่ดีสำหรับค่าคาดหวังตามเงื่อนไข E (y | x) โดยหลักการแล้วนี่เป็นปัญหามิติอนันต์และไม่ถูกต้องเนื่องจากเรามีจำนวนการวัดที่แน่นอน อย่างไรก็ตามความรู้ก่อนหน้าคือเรากำลังมองหาฟังก์ชั่นต่อเนื่องที่เป็นแบบจำลองข้อมูล สิ่งนี้ยังคงไม่ชัดเจนเนื่องจากยังมีวิธีการจำลองฟังก์ชันต่อเนื่องหลายวิธี แต่ชุดมีขนาดเล็กกว่า การถดถอยของสันเขาเป็นเพียงวิธีง่าย ๆ ในการเรียงลำดับฟังก์ชั่น continuos ที่เป็นไปได้ทดสอบและหยุดในระดับสุดท้ายของอิสรภาพ การตีความคือภาพ VC-มิติ: ในระหว่างการถดถอยสันคุณตรวจสอบว่าแบบจำลอง af (x, p1, p2 ... ) ที่มีระดับความอิสระที่กำหนดอธิบายความไม่แน่นอนที่มีอยู่ในข้อมูลได้ดีเพียงใด ในทางปฏิบัติมันวัดว่า f (x, p1, p2 ... ) และ P ประจักษ์ (p1, p2 ... ) สามารถสร้างการกระจายแบบเต็ม P (y | x) และไม่ใช่แค่ E (y | x) ด้วยวิธีนี้แบบจำลองที่มีระดับความเป็นอิสระมากเกินไป (ซึ่งมักจะมีน้ำหนักเกิน) จะถูกชั่งน้ำหนักลงเนื่องจากค่าเฉลี่ยของพารามิเตอร์ที่เพิ่มขึ้นหลังจากระดับความอิสระที่แน่นอนจะให้ความสัมพันธ์ที่มากขึ้นระหว่างพารามิเตอร์และ P (f (x, p1, p2) .. )) การแจกแจง การตีความอื่น ๆ ก็คือฟังก์ชั่นการสูญเสียดั้งเดิมเป็นค่าการวัดเช่นกันและการประเมินในตัวอย่างที่กำหนดมาพร้อมกับความไม่แน่นอนดังนั้นงานที่แท้จริงไม่ได้ลดฟังก์ชั่นการสูญเสีย แต่เพื่อค้นหาขั้นต่ำที่ต่ำกว่า อื่น ๆ (การเปลี่ยนจากระดับหนึ่งไปสู่อีกระดับหนึ่งเป็นการตัดสินใจแบบเบย์ดังนั้นสิ่งหนึ่งจะเปลี่ยนจำนวนพารามิเตอร์เฉพาะเมื่อพวกมันลดฟังก์ชันการสูญเสียอย่างมีนัยสำคัญ) การถดถอยของสันเขาสามารถตีความได้ว่าเป็นการประมาณของภาพทั้งสองนี้ (CV-dimension, การสูญเสียที่คาดหวัง) ในบางกรณีคุณต้องการให้มีระดับเสรีภาพสูงกว่าเช่นในฟิสิกส์ของอนุภาคคุณศึกษาการชนกันของอนุภาคที่คุณคาดว่าจำนวนอนุภาคที่ผลิตจะเป็นการกระจายแบบปัวซองดังนั้นคุณจึงสร้างแทร็กของอนุภาคจากภาพใหม่ ) ในลักษณะที่เลือกจำนวนแทร็กและระงับรุ่นที่มีขนาดเล็กกว่าหรือสูงกว่าการตีความหมายเลขแทร็คของภาพ
  3. กรณีที่สามยังพยายามนำข้อมูลก่อนหน้านี้ไปใช้ในการวัดกล่าวคือเป็นที่ทราบกันว่าจากการวัดก่อนหน้านี้ว่าความสูงของนักเรียนสามารถเป็นแบบอย่างที่ดีมากโดยการแจกแจงแบบเกาส์และไม่ใช่ Cauchy

ดังนั้นในระยะสั้นคำตอบก็คือคุณสามารถลดความไม่แน่นอนของการวัดได้หากคุณรู้ว่าจะคาดหวังอะไรและจัดหมวดหมู่ข้อมูลด้วยข้อมูลก่อนหน้า (ข้อมูลก่อนหน้า) ข้อมูลก่อนหน้านี้เป็นสิ่งที่ จำกัด ฟังก์ชันการสร้างแบบจำลองของคุณที่คุณใช้เพื่อให้พอดีกับการวัด ในกรณีง่าย ๆ คุณสามารถเขียนโมเดลของคุณในกรอบ Bayesian แต่บางครั้งมันก็ทำไม่ได้เช่นในการรวมฟังก์ชั่น continuos ทั้งหมดที่เป็นไปได้เพื่อหาสิ่งที่มีค่าสูงสุด A หลัง


2

ตัวประเมินเจมส์สไตน์และการถดถอยของสัน

พิจารณา

y=Xβ+ϵ

ด้วย ϵN(0,σ2I)

วิธีการแก้ปัญหาสแควร์น้อยที่สุดเป็นรูปแบบ

β^=S1Xy ที่XS=XX

β^เป็นกลางสำหรับและมีเมทริกซ์ covriance1} ดังนั้นเราสามารถเขียนβσ2S1

β^N(β,σ2S1) โปรดทราบว่าเป็นค่าประมาณความน่าจะเป็นสูงสุด, MLEβ^

James Stein

สำหรับความเรียบง่ายสำหรับเจมส์สไตน์เราจะถือว่าฉัน เจมส์และสไตน์จากนั้นจะเพิ่มก่อนในของแบบฟอร์มS=Iβ

βN(0,aI)

และจะได้รับด้านหลังของรูปแบบ พวกเขา จากนั้นจะประมาณด้วย และได้รับแบบฟอร์มการประเมินของเจมส์สไตน์aa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^\

การถดถอยของสัน

ในสันเขาถดถอยมักจะ standadised (หมายถึง 0, vairance 1 สำหรับแต่ละคอลัมน์ของ ) เพื่อให้พารามิเตอร์การถดถอยเปรียบได้ เมื่อเป็นเช่นนี้เป็นสำหรับพีXXβ=(β1,β2,,βp)Sii=1i=1,2,,p

ประมาณการสันถดถอยของถูกกำหนดให้เป็น,ที่จะβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^โปรดทราบว่าคือ MLEβ^

เป็นไงบ้าง? จำβ^(λ)

β^N(β^,σ2S1)และถ้าเราเพิ่ม Bayesian ก่อน

βN(0,σ2λI)

จากนั้นเราจะได้รับ

E(β|β^)=(S+λI)1Sβ^

เช่นเดียวกับสันเขาถดถอยประมาณการแลมบ์ดา) ดังนั้นรูปแบบเดิมของเจมส์สไตน์ให้ที่นี่ใช้เวลาและแลมบ์ดา}β^(λ)S=Ia=σ2λ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.