จำนวนตัวอย่างขั้นต่ำสำหรับการแก้ไขคริกกิ้ง


19

ฉันได้รับข้อมูลบางอย่างที่มีจำนวนตัวอย่างพร้อมคำขอเพื่อแก้ไขโดยใช้วิธีการ kriging
หลังจากการตรวจสอบบางอย่างปรากฏว่าผลลัพธ์ที่น่าสนใจ (ดำเนินการใน ArcGIS Geostatistic Analyst พร้อมพารามิเตอร์เริ่มต้น) ไม่เป็นที่น่าพอใจ ค่า Interpolated นั้นแตกต่างจากการวัด (โดยเฉพาะค่าบนสุด) และพื้นผิวดูไม่น่าเชื่อถือ นี่คือภาพ: ป้อนคำอธิบายรูปภาพที่นี่
ฉันคิดว่าปัญหาหลักคือจำนวนตัวอย่างไม่เพียงพอ

เราควรใช้คะแนนเท่าไหร่เพื่อให้ได้ผลลัพธ์ที่เชื่อถือได้?
หรือวิธีการแบบ kriging อาจไม่เหมาะสมกับค่าที่หลากหลายเช่นนี้?


คุณกล่าวว่า "แม้ว่าผู้คนจะทำคะแนนข้อมูลได้ถึงเจ็ดจุด (ในเอกสารของ Robert Jernigan ที่ตีพิมพ์โดย US EPA ในช่วงปลายทศวรรษ 1980)" ... แต่ฉันไม่พบบทความนี้ คุณสามารถให้ที่อยู่เปิดสำหรับบทความนี้ได้ไหม ขอบคุณ ...
abilici

คำตอบ:


30

เมื่อคุณใช้ "ค่าเริ่มต้น" คุณไม่ได้สนใจจริง ๆ คุณเพียงแค่ใช้อัลกอริทึมการติดตามซึ่งซึ่งตามที่คุณพบพบว่าไม่ดีเมื่อใช้กับข้อมูลเหล่านี้

(ฉันจะขึ้นไปบนกล่องสบู่เพื่อคุยโวสั้น ๆ : ในความคิดของฉันวิธีที่เร็วที่สุดในการรับผลลัพธ์ที่ไม่ดีด้วยโปรแกรมคอมพิวเตอร์คือการยอมรับพารามิเตอร์เริ่มต้นของมัน ArcGIS เป็นหนึ่งในสภาพแวดล้อมที่ร่ำรวยและทรงพลังที่สุดสำหรับผลลัพธ์ที่ไม่ดี ทางศีลธรรมไม่ได้ใช้ซอฟต์แวร์สำหรับงานที่สำคัญจนกว่าคุณจะเข้าใจวิธีการควบคุมมันลงมาจากกล่องสบู่ตอนนี้ ... )

เพื่อให้การทำงานเป็นไปอย่างราบรื่นคุณจะต้องทำการวิเคราะห์ข้อมูลทางสถิติเบื้องต้นที่เรียกว่า ในที่สุดประสิทธิภาพการทำงานนี้ขึ้นอยู่กับข้อมูลและทักษะทางภูมิศาสตร์ของคุณ (หนังสือทั้งหมดได้รับการเขียนเกี่ยวกับการแปรปรวนรวมถึงการทำเหมืองแร่ทางธรณีวิทยาโดย Journel & Huijbregts และVariowinโดย Yvan Pannatier) แม้ว่าผู้คนจะประสบความสำเร็จในการเก็บบันทึกข้อมูลเพียงสองถึงเจ็ดจุด (ในเอกสารของ Robert Jernigan ปลายปี 1980) และในหลักการคุณสามารถใช้ krige เพียงสองหรือสามจุด (ฉันได้ทำสิ่งนี้เพื่อแสดงให้เห็นถึงอัลกอริทึม ) กฎง่ายๆในช่วงวรรณกรรมตั้งแต่ขั้นต่ำ 20 ถึง 100 คะแนนและฉันทามติ ดูเหมือนจะมีประมาณ 30 คะแนน

ในกรณีของคุณ - แม้ว่าคุณจะไม่ได้อธิบายข้อมูล - คุณมีปัญหาบางอย่างที่ชัดเจนรวมถึงการแจกแจงที่เบ้อย่างมากและการขาดหลักฐานที่ชัดเจนของความคงที่ สิ่งเหล่านี้จำเป็นต้องได้รับการรักษาทางสถิติพิเศษหรือรูปแบบพิเศษของการขับรถ (เช่นโมเดลเชิงเส้นทั่วไปเชิงพื้นที่) คุณจะไม่ได้รับผลลัพธ์ที่ดีเมื่อเก็บข้อมูลดังกล่าวจนกว่าคุณจะมีข้อมูลจำนวนมาก

ตำนานแนะนำว่าคุณอาจพยายามสร้างตารางความหนาแน่นมากกว่าที่จะแก้ไขข้อมูลจริงแม้ว่าผลลัพธ์ของทั้งสองขั้นตอนอาจดูเหมือนกัน แต่ก็ทำสิ่งที่แตกต่างกันอย่างชัดเจนและมีการตีความที่แตกต่างกัน คุณสอดแทรกเมื่อข้อมูลได้รับการพิจารณาตัวอย่างจากพื้นผิวต่อเนื่องตามสมมุติฐานบางอย่าง การแก้ไขคาดการณ์ค่าที่ไม่ได้สุ่มตัวอย่าง ตัวอย่างมาตรฐาน ได้แก่ การวัดระดับความสูง (ซึ่งเป็นตัวอย่างพื้นผิวโลก) และการวัดอุณหภูมิ (ซึ่งเป็นตัวอย่างของ "เขตข้อมูลอุณหภูมิ") คุณคำนวณความหนาแน่นเมื่อคุณมีข้อมูลครบถ้วนเกี่ยวกับจำนวนเงินของบางสิ่งบางอย่างและคุณต้องการแสดงเวอร์ชันที่ราบรื่นของจำนวนเงินนั้นต่อหน่วยพื้นที่ (ตรงกันข้ามกับการแก้ไขไม่มีค่าใด ๆ ที่ไม่ได้คาดการณ์ไว้) ตัวอย่างมาตรฐานคือความหนาแน่นของประชากร: ข้อมูลเป็นจำนวนของบุคคลทั้งหมดในพื้นที่ เอาท์พุทเป็นแผนที่ของความหนาแน่นของประชากร


6
คำตอบที่ดี @whuber อย่างไรก็ตามจำนวนคะแนนขั้นต่ำไม่ได้ขึ้นอยู่กับขอบเขตของโดเมนอวกาศและการทำนายที่ต้องการหรือไม่ หากคุณกลั่นมันให้เป็นปัญหาการสุ่มตัวอย่างมันจะกลายเป็นคำถามของการจับประชากรและความแปรปรวนเชิงพื้นที่ในตัวอย่าง
Jeffrey Evans

@ Jeffrey นั่นเป็นส่วนหนึ่งของกรณี จำนวนข้อมูลมีสองสิ่งคือความแปรปรวนการทำนายแบบ kriging (ซึ่งแตกต่างกันไปตามโดเมนเชิงพื้นที่) และความแม่นยำที่สามารถประมาณค่าตัวแปรได้เอง หลังมักถูกมองข้ามโดยเฉพาะอย่างยิ่งในการรักษาแบบดั้งเดิมของ kriging: มันเป็นช้างอยู่ในห้อง หากคุณรู้ว่ารูปแปรที่ถูกต้องและมีอัตราส่วน nugget / sill ขนาดเล็กและช่วงใหญ่เมื่อเทียบกับขอบเขตของโดเมนอวกาศคุณสามารถ krige กับข้อมูลน้อยมากโดยเฉพาะอย่างยิ่งถ้าพวกเขาตัวอย่างเพียงพอค่าของข้อมูล
whuber

3
ฉันเชื่อว่าทุกคนที่ใช้ kriging จะต้องมีหลักสูตรภูมิศาสตร์ที่ดีหรือมีภูมิหลังทางภูมิศาสตร์และสถิติที่มั่นคง การเรียนรู้วิธีการสร้างแบบจำลอง semivariogram อย่างเหมาะสมนั้นต้องใช้ทักษะ
Mike T

1
กฎง่ายๆที่ฉันได้รับ: 30 คะแนนสำหรับ Kriging รอบทิศทางและ 100 สำหรับแบบสองทิศทาง
jareks

1

มีคำถามสองข้อแยกกันจำนวนแรกของที่ตั้งของข้อมูลที่จะใช้ในการประเมิน / การสร้างแบบจำลอง Variogram และที่สองจำนวนที่ตั้งของข้อมูลที่จะใช้ในสมการ kriging เพื่อ interpolate ค่าที่ตำแหน่งที่ไม่ใช่ข้อมูล (หรือเพื่อประเมินค่าเฉลี่ย ทั่วภูมิภาค) สมมติว่าคุณกำลังใช้ย่านการค้นหาที่กำลังเคลื่อนที่ตำแหน่งข้อมูลมากกว่า 15-20 แห่งในละแวกใกล้เคียงอาจทำให้ผลลัพธ์ลดลงเพราะ (1) เฉพาะตำแหน่งข้อมูลที่ใกล้ที่สุดในพื้นที่การค้นหาจะมีน้ำหนักไม่เป็นศูนย์ (2) พร้อมข้อมูลเพิ่มเติม ขนาดของเมทริกซ์ที่จะคว่ำมีขนาดใหญ่กว่าและความเป็นไปได้ของเมทริกซ์ที่เพิ่มขึ้น จำนวนตำแหน่งข้อมูลทั้งหมดที่จำเป็นสำหรับการ kriging ขึ้นอยู่กับจำนวนตำแหน่งที่จะถูกสอดแทรกและรูปแบบเชิงพื้นที่ของจุดเหล่านั้นและตำแหน่งข้อมูล ในระยะสั้น

ด้วยความเคารพต่อการประมาณค่า / การสร้างแบบจำลอง Variogram มันเป็นปัญหาที่แตกต่างกันมากดูตัวอย่าง

1991, Myers, DE, การประมาณ Variogram ในการดำเนินการของอินเตอร์ครั้งแรก conf สถิติ บริษัท Comp., Cesme, Turkey,

30 มี.ค. - 2 เมษายน 2530, Vol 2, American Science Press, 261-281

2530, A. Warrick และ DE Myers, การเพิ่มประสิทธิภาพของสถานที่เก็บตัวอย่างสำหรับการคำนวณ Variogram การวิจัยทรัพยากรน้ำ 23, 496-500

สามารถดาวน์โหลดได้ที่ www.u.arizona.edu/~donaldm

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.