เหตุผลทางสถิติของการแก้ไขคืออะไร?


16

สมมติว่าเรามีสองจุด (รูปต่อไปนี้: วงกลมสีดำ) และเราต้องการหาค่าสำหรับจุดที่สามระหว่างพวกเขา (ข้าม) อันที่จริงเราจะประมาณโดยอ้างอิงจากผลการทดลองของเราจุดดำ กรณีที่ง่ายที่สุดคือการวาดเส้นแล้วหาค่า (เช่นการแก้ไขเชิงเส้น) หากเรามีจุดรองรับเช่นจุดสีน้ำตาลในทั้งสองด้านเราต้องการได้รับประโยชน์จากพวกเขาและพอดีกับเส้นโค้งที่ไม่ใช่เชิงเส้น (เส้นโค้งสีเขียว)

คำถามคืออะไรคือเหตุผลเชิงสถิติในการทำเครื่องหมายกากบาทสีแดงเป็นวิธีการแก้ปัญหา? เหตุใดไม้กางเขนอื่น (เช่นสีเหลือง) จึงไม่ได้รับคำตอบว่าจะเป็นได้อย่างไร การอนุมานหรือ (?) ผลักเราให้ยอมรับสีแดง

ฉันจะพัฒนาคำถามเดิมของฉันตามคำตอบที่ได้รับสำหรับคำถามง่ายๆนี้

ป้อนคำอธิบายรูปภาพที่นี่


7
นี่เป็นคำถามที่ถูกวางไว้อย่างดีและน่าสนใจ คุณอาจต้องการแยกความแตกต่างระหว่างการแก้ไขอนุกรมเวลาและการแก้ไขอื่น ๆ ในรูปแบบอื่น ๆ (เช่นการแยกหรือการแก้ไขเชิงพื้นที่) เนื่องจากทิศทางทิศทางโดยธรรมชาติของอนุกรมเวลา
whuber

1
ฉันชื่นชมความคิดเห็นที่สร้างแรงบันดาลใจนี้มาก
นักพัฒนา

คำตอบ:


14

ฟังก์ชั่นรูปแบบใด ๆ ที่เหมาะสมแม้ไม่ใช่พารามิเตอร์ (ซึ่งโดยทั่วไปแล้วจะทำให้สมมติฐานเกี่ยวกับความนุ่มนวลของเส้นโค้งที่เกี่ยวข้อง) เกี่ยวข้องกับการสันนิษฐานและทำให้เกิดความเชื่อมั่น

วิธีการแก้ไขเชิงเส้นแบบโบราณนั้นเป็น 'ที่ใช้งานได้' เมื่อข้อมูลที่คุณมีนั้นละเอียดพอเพียง (ถ้าคุณดูที่วงกลมใกล้พอมันดูแบนเหมือนกัน - แค่ถามโคลัมบัส) และทำได้แม้กระทั่ง ก่อนยุคคอมพิวเตอร์ (ซึ่งไม่ใช่ในกรณีของการแก้ปัญหาในยุคปัจจุบันจำนวนมาก) มันสมเหตุสมผลที่จะถือว่าความเชื่อที่ว่าฟังก์ชั่นจะ 'ดำเนินการต่อในเรื่องเดียวกัน (เช่นเชิงเส้น) ระหว่างจุดสองจุด แต่ไม่มีเหตุผลเบื้องต้นสำหรับสิ่งนี้ (ยกเว้นความรู้เกี่ยวกับแนวคิดที่อยู่ในมือ)

มันจะกลายเป็นชัดเจนอย่างรวดเร็วเมื่อคุณมีจุด noncolinear สามจุด (หรือมากกว่า) (เช่นเมื่อคุณเพิ่มจุดสีน้ำตาลด้านบน) การประมาณเชิงเส้นระหว่างแต่ละจุดจะเกี่ยวข้องกับมุมที่แหลมในแต่ละจุดซึ่งโดยทั่วไปไม่ต้องการ นั่นคือที่ตัวเลือกอื่น ๆ กระโดดเข้ามา

อย่างไรก็ตามไม่มีโดเมนความรู้เพิ่มเติมไม่มีวิธีที่จะระบุด้วยความมั่นใจว่าทางออกหนึ่งจะดีกว่าวิธีอื่น (สำหรับนี้คุณจะต้องรู้ว่าค่าของจุดอื่น ๆ คือการเอาชนะวัตถุประสงค์ของการปรับฟังก์ชั่นใน ที่แรก).

ในด้านที่สว่างสดใสและอาจเกี่ยวข้องกับคำถามของคุณมากขึ้นภายใต้ 'เงื่อนไขปกติ' (อ่าน: สมมติฐาน : หากเรารู้ว่าฟังก์ชั่นนั้นราบรื่นเช่นกัน) ทั้งการแก้ไขเชิงเส้นและการแก้ปัญหายอดนิยมอื่น ๆ สามารถพิสูจน์ได้ว่า 'สมเหตุสมผล' ใกล้เคียง ถึงกระนั้น: มันต้องมีการตั้งสมมติฐานและโดยทั่วไปแล้วเราไม่มีสถิติ


นี่เป็นคำตอบที่ดีและผู้สมัครของฉันถูกทำเครื่องหมายเป็นคำตอบ ฉันเข้าใจว่าไม่มีเหตุผลทางสถิติสำหรับการเลือกทั่วไปใช่ไหม?
นักพัฒนา

แน่นอนฉันเชื่อว่าไม่มีใครเลย
Nick Sabbe

2
วรรณกรรมบางฉบับ (เกี่ยวข้องกับการแข่งขันเพื่อสอดแทรกตัวอย่างของชุดข้อมูลที่รู้จักกันดี) ตรวจสอบการตอบกลับนี้บางส่วน แต่ไม่ทั้งหมด เราสามารถเรียนรู้มากเกี่ยวกับความสัมพันธ์เชิงพื้นที่ของข้อมูลผ่านการวิเคราะห์ทางสถิติของข้อมูลเพียงอย่างเดียวโดยไม่มี "เงื่อนไขปกติ" สิ่งที่จำเป็นคือแบบจำลองของข้อมูลเป็นตัวอย่างหนึ่งของกระบวนการสุ่มพร้อมกับ (1) สมมติฐานเกี่ยวกับอัตลักษณ์และ (ในกรณีส่วนใหญ่) (2) สมมติฐานสมมุติบางอย่าง ในการแก้ไขเฟรมเวิร์กนี้เป็นการคาดการณ์ของความคาดหวัง แต่อนุญาตให้แม้แต่เส้นโค้งที่ไม่สามารถแยกออกได้
whuber

1
@whuber: ฉันแยกตัวออกจากโซนความสะดวกสบายของฉันที่นี่ แต่ทุกอย่างหลังจาก "เงื่อนไขปกติ" ในความคิดเห็นของคุณอ่านเหมือนจำนวนที่ค่อนข้างแข็งแกร่งของสมมติฐาน ที่จริงแล้วฉันคิดว่ามันจะขึ้นอยู่กับว่ากลุ่มตัวอย่างของคุณมีขนาดใหญ่ขึ้นด้วยความผิดปกติในรูปแบบการทำงานหรือไม่ ... คุณสามารถอ้างอิงกระดาษหรือสิ่งที่ชอบไม่ได้หรือไม่?
Nick Sabbe

2
คุณไม่สามารถทำอะไรได้เลยหากไม่มีสมมติฐานนิค! แต่ความสม่ำเสมอ (เช่นความเรียบของฟังก์ชั่น) ไม่จำเป็น: มันสามารถอนุมานได้จากข้อมูลอย่างน้อยก็ในระดับที่ฟังก์ชั่นตัวอย่าง (Stationarity นั้นเป็นสมมติฐานที่เบากว่าความนุ่มนวล) คุณถูกต้องที่ต้องการตัวอย่างขนาดใหญ่ แต่สามารถเรียนรู้ได้มากใน 2D แม้จะมีตัวอย่าง 30-50 แห่ง วรรณกรรมมีขนาดใหญ่ ยกตัวอย่างเช่นประเด็นทางคณิตศาสตร์ทางธรณีวิทยาส่วนใหญ่อุทิศให้กับสิ่งนี้ สำหรับการแนะนำที่เข้มงวดดูสถิติเชิงพื้นที่
whuber

0

คุณสามารถคำนวณสมการเชิงเส้นสำหรับเส้นที่ดีที่สุด (เช่น. y = 0.4554x + 0.7525) อย่างไรก็ตามวิธีนี้จะใช้ได้เฉพาะเมื่อมีแกนที่มีป้ายกำกับ อย่างไรก็ตามสิ่งนี้จะไม่ให้คำตอบที่ถูกต้องกับคุณเพียงคำตอบที่ดีที่สุดในประเด็นอื่น ๆ


แต่การถดถอยไม่ได้แก้ไข
Scortchi - Reinstate Monica

1
@Scortchi ฉันเชื่อว่าการถดถอยสามารถเข้าใจได้เป็นการแก้ไข อย่างไรก็ตามการเสนอการถดถอยเป็นวิธีแก้ปัญหาไม่ได้ตอบคำถามซึ่งขอให้เราอธิบายว่าทำไมการแก้ไขใด ๆจึงมีความสมเหตุสมผล
whuber

@whuber: ขอบคุณ ผมคิดว่าการแก้ไข prototypically อย่างน้อยในขณะที่เข้าร่วมที่จุด - stats.stackexchange.com/a/33662/17230
Scortchi - Reinstate Monica

@Scortchi หัวข้อนี้เน้นแนวคิดทางคณิตศาสตร์ของการแก้ไขในตารางเป็นหลัก ในการแสดงความคิดเห็นต่อคำถามของฉันฉันชี้ให้เห็นความเข้าใจทางสถิติแบบดั้งเดิมของการแก้ไขซึ่งแตกต่างอย่างละเอียด การถดถอยทำงานในทั้งสองโลก: ฟังก์ชันการถดถอยสามารถทำหน้าที่เป็นผู้แทรกสอดทางคณิตศาสตร์ (สำหรับฟังก์ชันที่กำหนดไว้อย่างดีที่สุ่มตัวอย่างในตาราง) รวมถึงตัวแทรกสัญญาณเชิงสถิติ (โดยใช้วิธีการพยากรณ์ทางสถิติของค่า จำนวน จำกัด ของค่าที่ได้จากกระบวนการนั้น)
whuber

1
@Cagdas วิธีเดียวที่จะสร้างฟังก์ชั่นใหม่ได้อย่างสมบูรณ์แบบจากข้อมูล จำกัด คือการให้ข้อ จำกัด เพียงพอกับฟังก์ชั่นที่มีผู้สมัครเพียงคนเดียวเท่านั้นที่มีเงื่อนไขกับข้อมูล! โดยเฉพาะอย่างยิ่งกำหนดจำนวนจุดข้อมูลn และเมื่อได้รับการสนับสนุนของฟังก์ชั่น (แต่เป็นอิสระจากค่าของมันที่รองรับเหล่านั้น) ชุดของฟังก์ชั่นที่เป็นไปได้จะต้องเป็นมิติที่ จำกัด ของมิติที่มากที่สุด n.
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.