Kriging Interpolation ทำงานอย่างไร


10

ฉันกำลังทำงานกับปัญหาที่ฉันต้องใช้ Kriging เพื่อทำนายค่าของตัวแปรบางตัวตามตัวแปรโดยรอบบางตัว ฉันต้องการติดตั้งรหัสด้วยตนเอง ดังนั้นฉันจึงต้องอ่านเอกสารมากเกินไปเพื่อให้เข้าใจว่ามันทำงานอย่างไร แต่ฉันก็สับสนมาก โดยทั่วไปฉันเข้าใจว่ามันเป็นค่าเฉลี่ยถ่วงน้ำหนัก แต่ฉันไม่เข้าใจกระบวนการคำนวณน้ำหนักอย่างสมบูรณ์จากนั้นจึงทำนายค่าของตัวแปร

ทุกคนสามารถอธิบายให้ฉันในแง่ง่ายด้านคณิตศาสตร์ของวิธีการแก้ไขนี้และวิธีการทำงานหรือไม่


3
การใช้รหัสเป็นเครื่องมือการเรียนรู้ที่ยอดเยี่ยม แต่ไม่สามารถแนะนำสำหรับการทำงานกับปัญหาที่เกิดขึ้นจริง เมื่อถึงเวลาที่คุณได้รับรหัสเขียนดีบั๊กและทดสอบคุณจะพบว่าต้องการลำดับความสำคัญมากขึ้นในการจัดหาเครื่องมือเสริมสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจเชิงพื้นที่ การประมวลผลผล kriged การประนีประนอมที่สมเหตุสมผลและมีประสิทธิภาพจะเริ่มต้นด้วยรหัสการทำงานเช่นGSLibหรือGeoRGLMและทำการแก้ไข
whuber

ขอบคุณมากมันเป็นความคิดที่ดี แต่ฉันก็ต้องการที่จะเข้าใจลักษณะทางคณิตศาสตร์ของ Kriging คุณมีทรัพยากรที่อธิบายอย่างชัดเจนในแง่ง่ายหรือไม่? ขอบคุณ.
Dania

คำตอบ:


15

คำตอบนี้ประกอบด้วยส่วนเกริ่นนำที่ฉันเขียนเมื่อเร็ว ๆ นี้สำหรับกระดาษที่อธิบายส่วนขยาย spatio-temporal ของ "Universal Kriging" (สหราชอาณาจักร) ซึ่งตัวมันเองเป็นลักษณะทั่วไปของ "Kriging สามัญ" มันมีสามส่วนย่อย: ทฤษฎีให้แบบจำลองทางสถิติและสมมติฐาน; การประมาณค่าสั้น ๆ จะทบทวนการประมาณค่าพารามิเตอร์กำลังสองน้อยที่สุด และการคาดคะเนแสดงให้เห็นว่าการสร้างแรงบันดาลใจเข้ากับกรอบ Generalized Least Squares (GLS) ได้อย่างไร ฉันพยายามใช้สัญลักษณ์ที่คุ้นเคยกับนักสถิติโดยเฉพาะผู้เยี่ยมชมไซต์นี้และใช้แนวคิดที่อธิบายไว้อย่างดีที่นี่

เพื่อสรุปการkriging เป็นการทำนายเชิงเส้นตรงที่ดีที่สุด (BLUP) ของเขตข้อมูลสุ่ม สิ่งนี้หมายความว่าค่าที่ทำนายไว้ในตำแหน่งที่ไม่ได้สุ่มใด ๆ จะได้รับเป็นการรวมกันเชิงเส้นของค่าและค่าแปรปรวนร่วมที่สังเกตได้ในสถานที่ตัวอย่าง ค่า (ไม่ทราบ, สุ่ม) มีความสัมพันธ์ที่สันนิษฐานกับค่าตัวอย่าง (และค่าตัวอย่างมีความสัมพันธ์กัน) ข้อมูลความสัมพันธ์นี้แปลเป็นความแปรปรวนของการทำนายได้อย่างง่ายดาย หนึ่งเลือกสัมประสิทธิ์ในการรวมกันเชิงเส้น ("น้ำหนัก kriging") ที่ทำให้ความแปรปรวนนี้มีขนาดเล็กที่สุดเท่าที่เป็นไปได้ภายใต้เงื่อนไขของศูนย์อคติในการทำนาย โดยมีรายละเอียดดังนี้


ทฤษฎี

สหราชอาณาจักรประกอบด้วยสองขั้นตอน - หนึ่งในการประมาณค่าและอีกการทำนาย - ดำเนินการในบริบทของแบบจำลอง GLS สำหรับพื้นที่ศึกษา โมเดล GLS สมมติว่าข้อมูลตัวอย่างเป็นผลลัพธ์ของการเบี่ยงเบนแบบสุ่มรอบแนวโน้มและการเบี่ยงเบนเหล่านั้นมีความสัมพันธ์กัน มีแนวโน้มที่มีความหมายในความรู้สึกทั่วไปของค่าที่จะถูกกำหนดโดยการรวมกันเชิงเส้นของสัมประสิทธิ์ที่ไม่รู้จัก (พารามิเตอร์) \(ตลอดบทความนี้ไพรม์หมายถึงเมทริกซ์ทรานสโพสและเวกเตอร์ทั้งหมดถือเป็นเวกเตอร์คอลัมน์)P β = ( β 1 , β 2 , ... , β P ) ' 'zi, (i=1,2,...,n)pβ=(β1,β2,,βp)

ที่ตำแหน่งใด ๆ ภายในพื้นที่การศึกษามี tuple ของคุณลักษณะตัวเลข termed "ตัวแปรอิสระ" หรือ "covariates" (โดยทั่วไปคือ“ เทอมคงที่”และอาจเป็นพิกัดเชิงพื้นที่และเพิ่มเติมอาจเป็นตัวแทนของข้อมูลเชิงพื้นที่เช่นเดียวกับข้อมูลเสริมอื่น ๆ ที่มีอยู่ในทุกพื้นที่ในพื้นที่ศึกษาเช่นความพรุนของ aquifer หรือระยะทางที่จะสูบได้ดี) ในแต่ละตำแหน่งข้อมูลนอกเหนือจาก covariatesการสังเกตที่เกี่ยวข้องy=(y1,y2,,yp)y1=1y2y3yiiyi=(yi1,yi2,,yip)ziจะถือเป็นสำนึกของตัวแปรสุ่มZ_iในทางตรงกันข้ามถูกมองว่าเป็นค่าที่กำหนดโดยหรือกำหนดลักษณะของจุดหรือพื้นที่ขนาดเล็กที่แสดงโดยการสังเกต (ข้อมูล "สนับสนุน") จะไม่ได้รับการพิจารณาให้เป็นความเข้าใจของตัวแปรสุ่มและจะต้องไม่เกี่ยวข้องกับคุณสมบัติใด ๆ ของที่Z_iZiyiyiZi

ชุดค่าผสมเชิงเส้น เป็นการแสดงออกถึงความคุ้มค่าที่คาดหวังของในแง่ของพารามิเตอร์ซึ่งเป็นค่าของแนวโน้มที่ตั้งของฉันกระบวนการประมาณค่าใช้ข้อมูลเพื่อค้นหาค่าที่แสดงถึงพารามิเตอร์ที่ไม่รู้จักในขณะที่กระบวนการทำนายใช้ข้อมูลที่ตำแหน่งที่ตั้งเพื่อคำนวณค่าในตำแหน่งที่ไม่ได้เก็บตัวอย่าง ซึ่งเป็นดัชนีที่นี่เช่น0 เป้าหมายของการประมาณค่าคงที่ ( เช่น

E[Zi]=yiβ=yi1β1+yi2β2++yipβp
Ziβiβ^iβii=1,2,,ni=0ไม่สุ่ม) พารามิเตอร์ในขณะที่เป้าหมายของการทำนายเป็นแบบสุ่มเพราะค่ารวมถึงความผันผวนสุ่มรอบแนวโน้มy_0โดยปกติแล้วการคาดการณ์ที่จะทำสำหรับสถานที่หลายแห่งโดยใช้ข้อมูลเดียวกันโดยการเปลี่ยนแปลงสถานที่ตั้ง0ตัวอย่างเช่นการคาดคะเนมักจะทำแผนที่พื้นผิวตามตารางจุดปกติที่เหมาะสำหรับการกำหนดเส้นขอบ z0y0β0

การประเมิน

การจำลองแบบคลาสสิกสมมติว่าความผันผวนแบบสุ่มนั้นคาดว่าจะมีค่าเป็นศูนย์และเป็นที่รู้กันว่ามีการแปรปรวนร่วม เขียนความแปรปรวนระหว่างและเป็น{IJ} การใช้ความแปรปรวนร่วมนี้จะทำการประมาณค่าโดยใช้ GLS วิธีแก้ปัญหาคือ: โดยที่คือ -vector ของการสังเกต, ("เมทริกซ์การออกแบบ") คือโดยเมทริกซ์ซึ่งมีแถวเป็นเวกเตอร์ZiZiZjcij

β^=Hz, H=(YC1Y)1YC1
z=(z1,z2,,zn)nY=(yij)npyi,1in , และคือ -by-ความแปรปรวนร่วมเมทริกซ์ซึ่งคาดว่าจะย้อนกลับได้ (Draper & Smith (1981), ส่วนที่ 2.11) . โดยเมทริกซ์ซึ่งโครงการข้อมูลบนประมาณการพารามิเตอร์จะถูกเรียกว่า“หมวกเมทริกซ์.” การกำหนด เป็นแอพพลิเคชั่นของแฮทเมทริกซ์กับข้อมูลอย่างชัดเจนแสดงให้เห็นว่าพารามิเตอร์ประมาณการขึ้นอยู่กับข้อมูลเชิงเส้น ความแปรปรวนร่วมC=(cij)nnpnHzβ^β^C=(cij) จะถูกคำนวณแบบคลาสสิกโดยใช้ Variogram ซึ่งให้ความแปรปรวนร่วมในแง่ของตำแหน่งข้อมูลแม้ว่ามันจะไม่สำคัญว่าการแปรปรวนร่วมจะถูกคำนวณจริง ๆ

คาดการณ์

สหราชอาณาจักรคาดการณ์ทำนองเดียวกันด้วยการรวมกันเชิงเส้นของ data จะเรียกว่า“น้ำหนัก Kriging” ในการทำนายของz_0สหราชอาณาจักรประสบความสำเร็จในการทำนายโดยการบรรลุสองเกณฑ์ อันดับแรกการทำนายควรเป็นแบบเป็นกลางซึ่งแสดงโดยกำหนดให้การรวมกันเชิงเส้นของตัวแปรสุ่มเท่ากับโดยเฉลี่ย: ความคาดหวังนี้ถูกนำไปใช้กับข้อต่อz0

z^0=λ1z1+λ2z2++λnzn=λz.
λiz0z0ZiZ0
0=E[Z^0Z0]=E[λZZ0].
n+1การกระจายของ -variateและZ_n) ลิเนียริตี้ของความคาดหวังพร้อมกับการคาดการณ์แนวโน้ม (1) หมายถึง: Z0Z=(Z1,Z2,,Zn)
0=E[λZZ0]=λE[Z]E[Z0]=λ(Yβ)y0β=(λYy0)β=β(Yλy0)

ไม่ว่าอาจจะเป็นอะไร นี่จะเป็นกรณีที่มีให้β

Y^λ=y0.

ในทุกการแก้ปัญหาเป็นไปได้ของระบบ underdetermined นี้ของสมการเลือกที่สหราชอาณาจักรเพื่อลดความแปรปรวนของข้อผิดพลาดการทำนายZ_0 ในแง่นี้สหราชอาณาจักรเป็น "ดีที่สุด" ในบรรดาตัวทำนายเชิงเส้นที่เป็นกลางทั้งหมด เนื่องจากความสัมพันธ์ครั้งสุดท้ายนี้แสดงถึงข้อผิดพลาดในการคาดการณ์เป็นศูนย์โดยเฉลี่ยความแปรปรวนเป็นเพียงความคาดหวังของข้อผิดพลาดการทำนายกำลังสอง: โดยที่เป็นเวกเตอร์ของความแปรปรวนร่วมระหว่างλZ^0Z0

Var(Z^0Z0)=E[(Z^0Z0)2]=E[(λZZ0)2]=c002λc0+λCλ
c0=(c01,c02,,c0n)Z0และและคือความแปรปรวนของZ_0 Zi, i1c00Z0

เพื่อลดความแปรปรวนแตกต่างด้วยความเคารพและแนะนำเวกเตอร์ของ Lagrange คูณจะรวมเข้าไปในข้อ จำกัด\ สิ่งนี้ให้ระบบของสมการเชิงเส้นเขียนในรูปแบบบล็อกเมทริกซ์เป็น โดยที่หมายถึงโดยλpμY^λ=y0n+p

(CYY0)(λμ)=(c0y0)
0ppเมทริกซ์ของศูนย์ การเขียนสำหรับโดย identity matrix โซลูชันเฉพาะสำหรับนั้นมอบให้โดย 1nnλ
λ=Hy0+C1(1YH)c0.

(ผู้อ่านที่คุ้นเคยกับการถดถอยหลายครั้งอาจพบว่าเป็นการแนะนำให้เปรียบเทียบโซลูชันนี้กับโซลูชันความแปรปรวนร่วมของสี่เหลี่ยมจัตุรัสน้อยที่สุดสามัญสมการปกติซึ่งมีลักษณะเหมือนกันเกือบทั้งหมด แต่ไม่มีเงื่อนไขตัวคูณ Lagrange)

ความสัมพันธ์นี้นำเสนอน้ำหนัก krigingเป็นผลรวมของคำขึ้นอยู่กับหมวกเมทริกซ์และ covariates ที่ตั้งทำนายบวกคำขึ้นอยู่กับความแปรปรวนร่วม ระหว่างข้อมูลและ predictand, Z_0แทนมันลงไปทางด้านขวามือของสมการความแปรปรวนผลตอบแทนถัวเฉลี่ยความแปรปรวนทำนาย kriging ซึ่งสามารถนำมาใช้เพื่อสร้างขีด จำกัด ของการทำนายรอบz_0λ Z 0 Z 0[Hy0]Z0z^0


1
ขอบคุณมากเลยค่ะนี่คือสิ่งที่ฉันกำลังมองหา คุณแก้ปัญหานี้ให้ฉันแล้วตอนนี้ฉันเข้าใจ Kriging แล้ว ฉันซาบซึ้งในความช่วยเหลือของคุณจริงๆขอบคุณมาก
Dania

คำอธิบายที่ยอดเยี่ยม คำถามหนึ่ง:หมายถึงอะไร มันถูกกำหนดอย่างไร? มันเป็นส่วนหนึ่งของ givens หรือไม่? นายกหมายถึงอะไร? ตัวแปรนี้ถูกนำเสนอโดยไม่ถูกกำหนดดังนั้นฉันสับสนเล็กน้อยเกี่ยวกับสิ่งที่มันถูกกำหนด Y^
DW

@DW นายกหมายถึงการโยกย้ายตลอดโพสต์นี้ ดังนั้นการเปลี่ยนคำจำกัดความในคำตอบเราอาจอธิบายเมทริกซ์นี้ว่า "คือโดยเมทริกซ์ซึ่งมีคอลัมน์เป็นเวกเตอร์ ." มันจึงสรุปชุดข้อมูลของ covariates pn y i ,1inY=(yji)pnyi,1in
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.