แบบจำลองทั้งหมดไร้ประโยชน์หรือไม่? มีรูปแบบที่แน่นอน - หรือมีประโยชน์หรือไม่


45

คำถามนี้รบกวนจิตใจฉันมานานกว่าหนึ่งเดือนแล้ว ฉบับเดือนกุมภาพันธ์ 2558 ของAmstat Newsมีบทความโดย Berkeley ศาสตราจารย์ Mark van der Laan ที่ดุคนที่ใช้โมเดลที่ไม่แน่นอน เขากล่าวว่าการใช้แบบจำลองสถิติเป็นศิลปะมากกว่าวิทยาศาสตร์ ตามที่เขาพูดเราสามารถใช้ "แบบจำลองที่แน่นอน" และความล้มเหลวของเราในการทำเช่นนั้นมีส่วนทำให้ "ขาดความเข้มงวด ... ฉันกลัวว่าการเป็นตัวแทนของเราในด้านวิทยาศาสตร์ข้อมูลกำลังกลายเป็นคนชายขอบ"

ผมยอมรับว่าเราอยู่ในอันตรายจากการกลายเป็นชายขอบ แต่ภัยคุกคามมักจะมาจากผู้ที่เรียกร้อง (มีเสียงมากเช่นศาสตราจารย์แวนเดอร์ Laan ดูเหมือนว่า) ว่าพวกเขาจะไม่ได้ใช้วิธีการตัวอย่างบางส่วน แต่มีวิธีการในความเป็นจริงไกลน้อยเข้มงวดกว่าแบบจำลองทางสถิติที่มีการใช้อย่างระมัดระวัง - แม้เป็นสิ่งที่ผิด

ฉันคิดว่ามันยุติธรรมที่จะบอกว่าศาสตราจารย์แวนเดอร์ลันค่อนข้างดูถูกคนที่พูดซ้ำคำพูดที่ใช้บ่อยของ Box "ทุกรุ่นผิด แต่มีประโยชน์" โดยพื้นฐานแล้วเมื่อฉันอ่านมันเขาบอกว่าแบบจำลองทั้งหมดผิดและไร้ประโยชน์ทั้งหมด ตอนนี้ฉันจะไม่เห็นด้วยกับอาจารย์ของ Berkeley บ้าง ในทางกลับกันเขาเป็นใครที่มองข้ามมุมมองของยักษ์ตัวจริงในสนามของเรา

ในการอธิบายอย่างละเอียดดร. แวนเดอร์แลนกล่าวว่า "มันไร้สาระสมบูรณ์เมื่อต้องระบุว่าแบบจำลองทั้งหมดผิด ... ตัวอย่างเช่นแบบจำลองทางสถิติที่ไม่ทำให้สมมติฐานเป็นจริงเสมอไป" เขายังคง: "แต่บ่อยครั้งที่เราสามารถทำได้ดีกว่าที่เราจะได้รู้ว่าข้อมูลที่เป็นผลของทดลองเหมือนอิสระ." ฉันไม่เห็นว่าจะมีใครรู้ว่ายกเว้นในการสุ่มตัวอย่างแบบสุ่มหรือการตั้งค่าการทดลองที่แคบมาก ผู้เขียนชี้ให้เห็นถึงการทำงานของเขาในการเรียนรู้โอกาสสูงสุดและการเรียนรู้ด้วยการสูญเสียขั้นต่ำที่กำหนดเป้าหมายซึ่ง "รวมเอาสถานะของศิลปะในการประเมินการเรียนรู้ของเครื่องจักร / การปรับตัวด้วยข้อมูล ทฤษฎีกระบวนการในขณะที่ยังคงให้การอนุมานทางสถิติอย่างเป็นทางการ "n

นอกจากนี้ยังมีข้อความบางส่วนที่ฉันเห็นด้วย เขาบอกว่าเราต้องทำงานของเราบทบาทของเราในฐานะนักสถิติและผู้ร่วมมือทางวิทยาศาสตร์ของเราอย่างจริงจัง ได้ยินได้ยิน! มันเป็นข่าวร้ายอย่างแน่นอนเมื่อผู้คนใช้แบบจำลองการถดถอยโลจิสติกส์หรืออะไรก็ตามโดยไม่พิจารณาอย่างรอบคอบว่ามันเพียงพอที่จะตอบคำถามทางวิทยาศาสตร์หรือว่าเหมาะสมกับข้อมูลหรือไม่ และฉันเห็นการละเมิดในคำถามที่โพสต์ในฟอรัมนี้มากมาย แต่ฉันก็เห็นการใช้โมเดลที่ไม่แน่นอนอย่างมีประสิทธิภาพและมีคุณค่าแม้จะเป็นแบบพารามิเตอร์ และตรงกันข้ามกับสิ่งที่เขาพูดฉันไม่ค่อยได้ "เบื่อกับความตายด้วยแบบจำลองการถดถอยโลจิสติกอื่น" นั่นคือความไร้เดียงสาของฉันฉันเดา

ดังนั้นนี่คือคำถามของฉัน:

  1. การอนุมานเชิงสถิติที่มีประโยชน์ใดที่สามารถทำได้โดยใช้ตัวแบบที่ไม่มีข้อสมมติฐานเลย?
  2. มีกรณีศึกษาที่สำคัญกับข้อมูลจริงในการใช้โอกาสสูงสุดที่กำหนดไว้หรือไม่? วิธีการเหล่านี้ใช้กันอย่างแพร่หลายและเป็นที่ยอมรับหรือไม่?
  3. โมเดลที่ไม่แน่นอนทั้งหมดไร้ประโยชน์หรือไม่?
  4. เป็นไปได้ไหมที่คุณจะรู้ว่าคุณมีนางแบบที่แน่นอนนอกเหนือจากในเรื่องเล็กน้อย?
  5. หากสิ่งนี้เป็นไปตามความคิดเห็นมากเกินไปและไม่เกี่ยวข้องกับหัวข้อ เพราะบทความของดร. แวนเดอร์แลนต้องการการอภิปรายอย่างแน่นอน

13
ฉันจะบอกว่าแบบจำลองที่ไม่มีสมมติฐานนั้นไร้ประโยชน์เกือบทุกครั้ง แต่แวนเดอร์ลันก็กำลังสร้างสมมุติฐานโดยไม่ยอมรับมัน เราไม่ได้รู้อะไรหลายอย่างแน่ชัดดังนั้น "เขาอาจรู้ว่าข้อมูลนั้นเป็นผลมาจากการทดลองที่เหมือนกันโดยไม่ขึ้นอยู่กับความเป็นจริง" อันที่จริงแล้วเป็นข้อสันนิษฐานหรืออย่างน้อยก็บางส่วน เราอาจมีเหตุผลที่ดีที่จะสมมติว่าพวกเขาเหมือนกันและเป็นอิสระ แต่ในทางปฏิบัติเราเห็นว่าบ่อยครั้งที่ปรากฎว่ามันไม่ได้เป็นอย่างแท้จริง (และหากเราค้นพบว่าบางครั้งมันจะต้องไม่ถูกค้นพบในบางครั้ง )
Glen_b

19
แบบจำลองที่ไม่มีสมมติฐานเป็นเพียงการจำลองแบบดาต้าเมตริกซ์ของคุณ มันเป็นเรื่องจริง แต่ก็เป็นความพยายามที่ไร้ประโยชน์ เราอาจโต้แย้งได้ว่าแบบจำลองดังกล่าวไม่ใช่แบบจำลอง: คำจำกัดความหนึ่งของแบบจำลองคือการทำให้เข้าใจง่ายของความเป็นจริง ดังนั้นรูปแบบที่ไม่ลดความซับซ้อนก็คือตามคำนิยามไม่ใช่รูปแบบ การทำให้เข้าใจง่ายนั้นมีจุดประสงค์: ช่วยให้เราเข้าใจอย่างชัดเจนว่าเกิดอะไรขึ้น มันให้เรื่องราวหลักแก่เรา หากคุณไม่สนใจเกี่ยวกับการทำความเข้าใจว่าทำไมสิ่งต่าง ๆ เกิดขึ้นและต้องการที่จะคาดการณ์เท่านั้นเรื่องราวหลักนั้นไม่เกี่ยวข้อง แต่บางคนต้องการที่จะทำมากกว่าสร้างลูก Cristal ...
มาร์ติน Buis

8
โมเดลที่ไม่มีสมมติฐานไม่ใช่โมเดล ตัวแบบคือชุดของข้อสมมติฐาน นอกจากนี้ตามที่ @Glen_b กล่าวว่าการสันนิษฐานของ iid ค่อนข้างแข็งแกร่งและฉันไม่สามารถนึกถึงตัวอย่างว่ามันเป็น "จริง" แม้ว่าการพลิกเหรียญซ้ำหลายครั้งก็มีความสัมพันธ์กัน (ดูผลงานของ Diaconis) ฉันได้อ่านบทความเพียงอย่างเดียว แต่ดูเหมือนว่าสายตาสั้น
P.Windridge

11
ตัวอย่างแรกของผู้เขียนเกี่ยวกับการบินไปดาวอังคารคือปลอม กลศาสตร์ของนิวตัน (ซึ่งขึ้นอยู่กับหลาย ๆ ด้านของภารกิจอวกาศ) เป็นรูปแบบที่ผิดแต่เราพึ่งพามันและมันมีประโยชน์
P.Windridge

6
ใช่กลไกของนิวตันเป็นตัวอย่างที่ดีของประเด็นของจอร์จบ็อกซ์
Glen_b

คำตอบ:


15

บทความที่อ้างถึงดูเหมือนว่ามีพื้นฐานอยู่บนความกลัวว่านักสถิติ "จะไม่เป็นส่วนหนึ่งที่แท้จริงของทีมวิทยาศาสตร์และนักวิทยาศาสตร์จะมีข้อสงสัยเกี่ยวกับวิธีการใช้" และ "ผู้ทำงานร่วมกันจะมองเราเป็นช่างเทคนิค เผยแพร่ผลงานทางวิทยาศาสตร์ของพวกเขาแล้ว " ความคิดเห็นของฉันเกี่ยวกับคำถามที่วางโดย @rvl มาจากมุมมองของนักวิทยาศาสตร์ทางชีววิทยาที่ไม่ใช่นักสถิติผู้ซึ่งถูกบังคับให้ต้องต่อสู้กับปัญหาทางสถิติที่ซับซ้อนมากขึ้นเมื่อฉันย้ายจากการวิจัยผู้พิพากษาไปสู่การวิจัยเชิงแปล / คลินิกในช่วงไม่กี่ปีที่ผ่านมา คำถามที่ 5 ได้รับคำตอบอย่างชัดเจนจากคำตอบหลายคำในหน้านี้ ฉันจะเรียงลำดับจากตรงนั้น

4) ไม่สำคัญว่ามี "แบบจำลองที่แน่นอน" อยู่จริงหรือไม่เพราะแม้ว่าฉันจะทำเช่นนั้นฉันก็อาจจะไม่สามารถทำการศึกษาได้ พิจารณาประเด็นนี้ในบริบทของการอภิปราย: เราจำเป็นต้องรวม“ ตัวทำนายที่เกี่ยวข้องทั้งหมดหรือไม่”แม้ว่าเราจะสามารถระบุ“ ตัวทำนายที่เกี่ยวข้องทั้งหมด” ได้ แต่ก็ยังคงมีปัญหาในการรวบรวมข้อมูลที่เพียงพอเพื่อให้ระดับความเป็นอิสระ พวกเขาทั้งหมดเชื่อถือได้ในรูปแบบ นั่นเป็นเรื่องยากพอในการศึกษาเชิงทดลองควบคุมย้อนหลังหรือศึกษาประชากร บางทีใน "Big Data" บางประเภทอาจมีปัญหาน้อย แต่สำหรับฉันและเพื่อนร่วมงานของฉัน จะต้อง "ฉลาดกับมันเสมอ" เมื่อ @Aksakal ใส่คำตอบไว้ในหน้านั้น

ในความเป็นธรรมให้กับศ. แวนเดอร์ Laan เขาไม่ได้ใช้คำว่า "แน่นอน" ในบทความอ้างอย่างน้อยในรุ่นที่มีอยู่ในปัจจุบันในบรรทัดจากการเชื่อมโยง เขาพูดถึงโมเดลที่ "สมจริง" นั่นคือความแตกต่างที่สำคัญ

จากนั้นอีกครั้งศาสตราจารย์ van der Laan บ่นว่า "สถิติเป็นศิลปะไม่ใช่วิทยาศาสตร์" ซึ่งค่อนข้างไม่ยุติธรรมในส่วนของเขา พิจารณาวิธีที่เขาเสนอให้ทำงานร่วมกับผู้ทำงานร่วมกัน:

... เราจำเป็นต้องใช้ข้อมูลตัวตนของเราในฐานะนักสถิติและผู้ทำงานร่วมกันทางวิทยาศาสตร์ของเราอย่างจริงจัง เราจำเป็นต้องเรียนรู้ให้มากที่สุดเกี่ยวกับวิธีการสร้างข้อมูล เมื่อเราวางแบบจำลองทางสถิติที่เป็นจริงแล้วเราต้องแยกออกจากผู้ทำงานร่วมกันว่าอะไรเป็นตัวประมาณและดีที่สุดแสดงถึงคำตอบสำหรับคำถามทางวิทยาศาสตร์ที่น่าสนใจ นี่คืองานจำนวนมาก มันยาก. มันต้องมีความเข้าใจที่สมเหตุสมผลของทฤษฎีทางสถิติ เป็นองค์กรการศึกษาที่คุ้มค่า!

การประยุกต์ใช้หลักการทางวิทยาศาสตร์เหล่านี้กับปัญหาในโลกแห่งความเป็นจริงดูเหมือนจะต้องการ "ศิลปะ" จำนวนมากเช่นเดียวกับการทำงานในองค์กรทางวิทยาศาสตร์ใด ๆ ฉันรู้จักนักวิทยาศาสตร์ที่ประสบความสำเร็จหลายคนที่ตกลงและความล้มเหลว จากประสบการณ์ของฉันความแตกต่างดูเหมือนจะอยู่ใน "ศิลปะ" ของการกวาดล้างเป้าหมายทางวิทยาศาสตร์ ผลลัพธ์อาจเป็นวิทยาศาสตร์ แต่กระบวนการเป็นอะไรที่มากกว่านั้น

3) อีกครั้งส่วนหนึ่งของปัญหาเป็นศัพท์ มีความแตกต่างอย่างมากระหว่างโมเดล "แน่นอน" และโมเดล "สมจริง" ที่ Prof. van der Laan แสวงหา เขาอ้างว่าเป็นแบบจำลองทางสถิติมาตรฐานจำนวนมากไม่เพียงพอที่จะสร้างผลลัพธ์ที่ "ไม่น่าเชื่อถือ" โดยเฉพาะอย่างยิ่ง: "การประมาณค่าที่กำหนดไว้ในแบบจำลองทางสถิติที่ซื่อสัตย์ไม่สามารถประมาณได้อย่างสมเหตุสมผลบนพื้นฐานของแบบจำลองพารามิเตอร์" สิ่งเหล่านี้เป็นเรื่องของการทดสอบไม่ใช่ความคิดเห็น

งานของเขาชัดเจนว่าแบบจำลองที่แน่นอนนั้นเป็นไปไม่ได้เสมอไป พิจารณาต้นฉบับนี้เกี่ยวกับตัวประมาณค่าความน่าจะเป็นเป้าหมายสูงสุด (TMLE) ในบริบทของตัวแปรผลลัพธ์ที่ขาดหายไป มันขึ้นอยู่กับข้อสันนิษฐานของผลลัพธ์ที่หายไปโดยการสุ่มซึ่งอาจไม่สามารถทดสอบได้ในทางปฏิบัติ: "... เราคิดว่าไม่มีคนที่ไม่มีความมั่นใจในความสัมพันธ์ระหว่างความหายไป ... กับผลลัพธ์" นี่เป็นอีกตัวอย่างของความยากลำบากในการรวม "ตัวทำนายที่เกี่ยวข้องทั้งหมด" อย่างไรก็ตามจุดแข็งของ TMLE คือดูเหมือนว่าจะช่วยประเมิน "สมมติฐานด้านบวก" ของการสนับสนุนที่เพียงพอในข้อมูลสำหรับการประเมินพารามิเตอร์เป้าหมายในบริบทนี้ เป้าหมายคือใกล้ที่สุดเท่าที่จะเป็นไปได้กับโมเดลข้อมูลที่เป็นจริง

2) TMLE ได้รับการพูดคุยเกี่ยวกับการตรวจสอบข้ามก่อนหน้านี้ ฉันไม่ได้ตระหนักถึงการใช้ข้อมูลจริงอย่างกว้างขวาง Google Scholar แสดงวันนี้ 258 การอ้างอิงของสิ่งที่ดูเหมือนจะเป็นรายงานเริ่มต้นแต่เมื่อดูอย่างแรกก็ไม่มีใครดูเหมือนจะอยู่ในชุดข้อมูลขนาดใหญ่ในโลกแห่งความเป็นจริง วารสารสถิติซอฟต์แวร์บทความเกี่ยวกับแพคเกจ R ที่เกี่ยวข้องแสดงให้เห็นเพียง 27 อ้างอิง Google Scholar วันนี้ อย่างไรก็ตามสิ่งนี้ไม่ควรถูกนำมาเป็นหลักฐานเกี่ยวกับคุณค่าของ TMLE การมุ่งเน้นไปที่การได้รับการประมาณการที่น่าเชื่อถือที่เป็นกลางโดยอิสระจาก "การประเมิน" ที่น่าสนใจซึ่งมักจะมีปัญหากับการประมาณปลั๊กอินที่มาจากตัวแบบสถิติมาตรฐานดูเหมือนจะมีค่า

1) คำแถลง: "แบบจำลองทางสถิติที่ทำให้ไม่มีข้อสันนิษฐานนั้นเป็นความจริงเสมอไป" ดูเหมือนว่ามีเจตนาที่จะเป็นมนุษย์ฟาง ข้อมูลเป็นข้อมูล ฉันคิดว่ามีกฎของจักรวาลที่ยังคงสอดคล้องกันในแต่ละวัน เมธอด TMLE มีสมมติฐานเกี่ยวกับความนูนในพื้นที่การค้นหาและตามที่กล่าวไว้ข้างต้นแอปพลิเคชันในบริบทเฉพาะอาจต้องการสมมติฐานเพิ่มเติม

แม้แต่ศาสตราจารย์แวนเดอร์ลันก็เห็นด้วยว่าข้อสันนิษฐานบางอย่างมีความจำเป็น ความรู้สึกของฉันคือว่าเขาต้องการที่จะลดจำนวนของสมมติฐานและเพื่อหลีกเลี่ยงการที่ไม่สมจริง ไม่ว่าจะต้องใช้แบบจำลองพารามิเตอร์อย่างแท้จริงตามที่เขาดูเหมือนจะเรียกร้องเป็นคำถามที่สำคัญ


คำตอบที่ดีมาก หนังสือการเรียนรู้แบบกำหนดเป้าหมายเป็นสถานที่ที่ดีในการเรียนรู้เพิ่มเติม นอกจากทฤษฎีแล้วมันยังมีกรณีศึกษาบางอย่าง
NRH

12

บางทีฉันอาจพลาดประเด็นนี้ไป แต่ฉันคิดว่าคุณต้องถอยออกมาเล็กน้อย

ฉันคิดว่าประเด็นของเขาคือการใช้เครื่องมือที่เข้าถึงได้ง่ายโดยไม่มีความรู้เพิ่มเติม สิ่งนี้ยังเป็นจริงสำหรับการทดสอบ t-simple: เพียงป้อนอัลกอริทึมกับข้อมูลของคุณรับ p <0.05 และคิดว่าวิทยานิพนธ์ของคุณเป็นจริง ผิดอย่างสิ้นเชิง แน่นอนคุณต้องรู้เพิ่มเติมเกี่ยวกับข้อมูลของคุณ

ก้าวถอยหลังไปอีก: ไม่มีอะไรเหมือนแบบจำลองที่แน่นอน ( นักฟิสิกส์ที่นี่) แต่บางคนก็เห็นด้วยกับการวัดของเรามาก สิ่งเดียวที่แน่นอนคือคณิตศาสตร์ ซึ่งมีอะไรจะทำอย่างไรกับความเป็นจริงหรือรูปแบบของมัน ทุกอย่างอื่น (และความเป็นจริงทุกรูปแบบ) คือ "ผิด" (ตามที่ยกมาบ่อยครั้ง)

แต่หมายความว่า "ผิด" และมีประโยชน์อย่างไร ตัดสินด้วยตัวเอง:

เทคโนโลยีขั้นสูงทั้งหมดในปัจจุบันของเรา (คอมพิวเตอร์จรวดกัมมันตภาพรังสี ฯลฯ ) ขึ้นอยู่กับรุ่นที่ผิดเหล่านี้ อาจคำนวณด้วยแบบจำลอง "ผิด" กับแบบจำลอง "ผิด"
-> เน้นที่ "มีประโยชน์" แทน "ผิด";)

คำถามของคุณอย่างชัดเจนมากขึ้น:

  1. ไม่รู้นะขอโทษด้วย!
  2. ใช่. ตัวอย่างหนึ่ง: ในฟิสิกส์ - อนุภาคคุณต้องการตรวจจับอนุภาคบางอย่าง (เช่นอิเล็กตรอนโปรตอน ฯลฯ ) อนุภาคทุกใบจะทิ้งร่องรอยลักษณะไว้ในเครื่องตรวจจับ (และข้อมูล) แต่จะแตกต่างกันไปสำหรับอนุภาคเดียวกัน (โดยธรรมชาติ) วันนี้ส่วนใหญ่ของคนที่ใช้เครื่องเรียนรู้ที่จะบรรลุเป้าหมายนี้ (นี่คือความเรียบง่ายมาก แต่มันก็สวยมากเช่นนี้) และมีการเพิ่มขึ้นอย่างมีประสิทธิภาพ 20% -50% เมื่อเทียบกับการทำมันโดยใช้สถิติมือ
  3. ไม่มีใครอ้างสิทธิ์นี้จริงๆ! อย่าสรุปผิด! (a: แบบจำลองทั้งหมดไม่แน่นอนและ b: บางแบบมีประโยชน์อย่าสับสนสิ่งต่าง ๆ )
  4. ไม่มีสิ่งใดในแบบจำลองที่แน่นอน ( ยกเว้นในวิชาคณิตศาสตร์ แต่ไม่ได้อยู่ในสถิติอย่างแท้จริงเนื่องจากมีจุดตรงเป็นเส้นตรงและ "กระชับ" เส้นผ่านมันอาจจะแน่นอน ... แต่นั่นเป็นกรณีพิเศษที่ไม่น่าสนใจซึ่งไม่เคยเกิดขึ้น) .
  5. ไม่ทราบ :) แต่ IMHO ฉันเห็นว่านี่เป็น "เพียงเพราะเด็กทุกคนสามารถใช้งานได้ทุกคนไม่ควร" และอย่าใช้มากเกินไปอย่างสุ่มสี่สุ่มห้า

ฉันจะพิจารณาประเด็นของคุณ แต่ใน (3) และ (4) ฉันขอแนะนำให้คุณดูบทความของ van der Laan รวมถึงคำถามของฉันเพราะบทความดังกล่าวค่อนข้างชัดเจนว่าเขาไม่ได้ใช้แบบจำลองที่ไม่แน่นอนและ ซ้ำ ๆ หมายถึง "รูปแบบที่แน่นอน" ใช่ฉันจะบอกว่ามีคนพูดอย่างนั้น ฉันเห็นด้วยกับสิ่งที่คุณพูดเกี่ยวกับแบบจำลองเช่นเดียวกับการประยุกต์ใช้วิธีการทางกล และฉันก็ไม่คิดว่าเป็นคุณที่คุณต้องการให้ถอยหลัง
rvl

ใช่ทั้งหมด. และส่วนใหญ่ฉันหมายถึงเขาที่จะถอยกลับอย่างแน่นอน;) ฉันคิดว่าสิ่งที่ฉันไม่ได้กล่าวถึงในการสร้างแบบจำลองเชิงทฤษฎี (คณิตศาสตร์) คุณต้องมีแบบจำลอง "แน่นอน" ดังนั้นเพื่อ "คิดค้น" แบบจำลองที่ดีขึ้นและเครื่องมือทางสถิติคุณต้องมีแบบจำลองที่กำหนดขึ้น (หรือแน่นอน) เป็นฐาน แม้แต่การเรียนรู้แบบมุ่งเป้าไปที่ก้อนแป้งก็ไม่จำเป็นต้อง "ไม่แน่นอน" ในแง่นี้ฉันคิดว่า
Mayou36

6

ใน econ มีคนกล่าวถึงความเข้าใจใน 'กระบวนการสร้างข้อมูล' มาก ฉันไม่แน่ใจว่าแบบจำลอง 'แน่นอน' มีความหมายตรงไหน แต่ใน econ อาจเป็นแบบเดียวกับรุ่น 'ระบุอย่างถูกต้อง'

แน่นอนว่าคุณต้องการทราบมากเกี่ยวกับกระบวนการที่สร้างข้อมูลเท่าที่จะทำได้ก่อนที่จะลองแบบจำลองใช่ไหม? ฉันคิดว่าความยากลำบากมาจาก) เราอาจไม่มีเบาะแสเกี่ยวกับ DGP จริงและ b) แม้ว่าเราจะรู้ DGP จริงมันอาจจะยากที่จะจำลองและประเมิน (ด้วยเหตุผลหลายประการ)

ดังนั้นคุณจึงสร้างสมมุติฐานเพื่อลดความซับซ้อนของเรื่องและลดความต้องการในการประมาณค่า คุณเคยรู้บ้างไหมว่าสมมติฐานของคุณถูกต้องหรือไม่? คุณสามารถได้รับหลักฐานจากพวกเขา แต่ IMO เป็นเรื่องยากที่จะแน่ใจในบางกรณี

ฉันต้องกรองสิ่งเหล่านี้ทั้งหมดในแง่ของทฤษฎีที่จัดตั้งขึ้นและการปฏิบัติจริง หากคุณทำให้สมมติฐานสอดคล้องกับทฤษฎีและสมมติฐานนั้นซื้อประสิทธิภาพการประมาณค่าที่ดีกว่า (ประสิทธิภาพความแม่นยำความสอดคล้องอะไรก็ตาม) ฉันก็ไม่เห็นเหตุผลที่จะหลีกเลี่ยงแม้ว่ามันจะทำให้แบบจำลอง 'ไม่แน่นอน' ก็ตาม

ตรงไปตรงมาฉันคิดว่าบทความนี้มีวัตถุประสงค์เพื่อกระตุ้นผู้ที่ทำงานกับข้อมูลให้คิดหนักขึ้นเกี่ยวกับกระบวนการสร้างแบบจำลองทั้งหมด ก็เป็นที่ชัดเจนว่าฟานเดอร์ Laan ทำให้ข้อสมมติฐานในการทำงานของเขา ในตัวอย่างนี้ในความเป็นจริง van der Laan ดูเหมือนจะทิ้งความกังวลใด ๆ สำหรับแบบจำลองที่แน่นอนและแทนที่จะใช้ mash-mash ของโพรซีเดอร์เพื่อเพิ่มประสิทธิภาพ นี่ทำให้ฉันมีความมั่นใจมากขึ้นว่าเขาได้ยกคำพูดของ Box โดยมีเจตนาที่จะป้องกันไม่ให้ผู้คนใช้มันเป็นสิ่งที่หลีกเลี่ยงจากการทำงานหนักเพื่อทำความเข้าใจปัญหา

ให้หน้ามันโลกมีมากมายกับการใช้ผิดประเภทและแบบจำลองทางสถิติ ผู้คนใช้สิ่งที่พวกเขารู้ว่าจะทำอย่างไรและที่แย่กว่านั้นคือคนอื่นมักตีความผลลัพธ์ในทางที่ต้องการมากที่สุด บทความนี้เป็นเครื่องเตือนความจำที่ดีที่ต้องระวัง แต่ฉันไม่คิดว่าเราควรนำมันไปสู่สุดขั้ว

ความหมายของคำถามข้างต้นสำหรับคุณ:

  1. ฉันเห็นด้วยกับคนอื่น ๆ ในโพสต์นี้ที่ได้กำหนดรูปแบบเป็นชุดของสมมติฐาน ด้วยคำจำกัดความดังกล่าวโมเดลที่ไม่มีสมมติฐานไม่ใช่โมเดลจริงๆ แม้แต่การวิเคราะห์ข้อมูลเชิงสำรวจ (เช่นรุ่นฟรี) ก็ต้องมีสมมติฐาน ตัวอย่างเช่นคนส่วนใหญ่คิดว่าข้อมูลถูกวัดอย่างถูกต้อง
  2. ฉันไม่รู้เกี่ยวกับ TMLE ต่อ se แต่ในทางเศรษฐศาสตร์มีบทความมากมายที่ใช้ปรัชญาพื้นฐานเดียวกันของการอนุมานเกี่ยวกับผลเชิงสาเหตุของตัวอย่างการต่อต้านแบบไม่มีการตรวจสอบ อย่างไรก็ตามในกรณีเหล่านั้นการรับการรักษาไม่ได้ขึ้นอยู่กับตัวแปรอื่น ๆ ในแบบจำลอง (ซึ่งแตกต่างจาก TMLE) ดังนั้นนักเศรษฐศาสตร์จึงใช้แบบจำลองอย่างกว้างขวาง มีไม่กี่กรณีศึกษาสำหรับรูปแบบโครงสร้างเช่นนี้หนึ่งที่ผู้เขียนเชื่อว่า บริษัท ที่จะใช้รูปแบบของพวกเขาและพบว่าได้ผลดี
  3. ฉันคิดว่าทุกรุ่นไม่แน่นอน แต่อีกครั้งคำนี้ค่อนข้างคลุมเครือ IMO นี่คือหัวใจหลักของการเสนอราคาของ Box ฉันจะย้ำความเข้าใจของฉันเกี่ยวกับ Box ด้วยวิธีนี้: 'ไม่มีรูปแบบใดสามารถจับสาระสำคัญที่แท้จริงของความเป็นจริงได้ แต่บางรุ่นจะจับตัวแปรที่น่าสนใจดังนั้นในแง่นี้คุณอาจมีประโยชน์สำหรับพวกเขา'
  4. ฉันพูดเรื่องนี้ไปแล้ว ในระยะสั้นฉันไม่คิดอย่างนั้น
  5. ฉันไม่แน่ใจ. ฉันชอบที่นี่

5

เมื่อต้องการพูดถึงจุดที่ 3 คำตอบคือไม่ องค์กรมนุษย์ทุกแห่งตั้งอยู่บนพื้นฐานของรูปแบบที่เรียบง่ายในบางประเด็น: การทำอาหารการสร้างความสัมพันธ์ระหว่างบุคคลทั้งหมดเกี่ยวข้องกับมนุษย์ที่ทำหน้าที่เกี่ยวกับข้อมูลและสมมติฐานบางประเภท ไม่มีใครเคยสร้างแบบจำลองที่พวกเขาไม่ได้ตั้งใจจะใช้ เพื่อยืนยันเป็นอย่างอื่นอวดรู้ไม่ได้ใช้งาน

มันน่าสนใจและ enlightening มากขึ้นและมีประโยชน์ที่จะถามว่าแบบจำลองที่ไม่แน่นอนนั้นไม่มีประโยชน์ทำไมพวกเขาถึงล้มเหลวในการใช้ประโยชน์และสิ่งที่เกิดขึ้นเมื่อเราพึ่งพาแบบจำลองที่ไม่เป็นประโยชน์ นักวิจัยไม่ว่าจะเป็นนักวิชาการหรืออุตสาหกรรมจะต้องถามคำถามอย่างชาญฉลาดและบ่อยครั้ง

ฉันไม่คิดว่าคำถามสามารถตอบได้โดยทั่วไป แต่หลักการของการเผยแพร่ข้อผิดพลาดจะแจ้งคำตอบ แบบจำลองที่ไม่แน่นอนพังทลายลงเมื่อพฤติกรรมที่พวกเขาทำนายล้มเหลวในการสะท้อนพฤติกรรมในโลกแห่งความจริง การทำความเข้าใจว่าข้อผิดพลาดแพร่กระจายผ่านระบบสามารถช่วยให้เราเข้าใจว่าจำเป็นต้องใช้ความแม่นยำเท่าใดในการสร้างแบบจำลองระบบ

ตัวอย่างเช่นทรงกลมแข็งมักจะไม่เป็นแบบอย่างที่ดีสำหรับเบสบอล แต่เมื่อคุณออกแบบนวมมือจับรุ่นนี้จะล้มเหลวและนำคุณไปสู่การออกแบบสิ่งที่ผิด สมมติฐานที่เข้าใจง่ายของคุณเกี่ยวกับฟิสิกส์เบสบอลแพร่กระจายผ่านระบบเบสบอลของคุณและนำคุณไปสู่ข้อสรุปที่ผิด


5

1) การอนุมานเชิงสถิติที่มีประโยชน์ใดที่สามารถทำได้โดยใช้ตัวแบบที่ไม่มีข้อสมมติฐานเลย?

แบบจำลองคือการนิยามลักษณะทั่วไปของสิ่งที่คุณกำลังสังเกตซึ่งสามารถจับได้โดยปัจจัยเชิงสาเหตุบางอย่างที่สามารถอธิบายและประเมินเหตุการณ์ที่คุณกำลังสังเกตอยู่ได้ เนื่องจากอัลกอริธึมการวางนัยทั่วไปเหล่านั้นมีสมมติฐานบางอย่างอยู่บ้าง ฉันไม่แน่ใจว่าสิ่งที่เหลืออยู่ของแบบจำลองถ้าคุณไม่มีข้อสันนิษฐานใด ๆ ฉันคิดว่าคุณถูกทิ้งให้อยู่กับข้อมูลดั้งเดิมและไม่มีรูปแบบ

2) มีกรณีศึกษาด้วยข้อมูลจริงที่สำคัญในการใช้โอกาสสูงสุดที่กำหนดไว้หรือไม่? วิธีการเหล่านี้ใช้กันอย่างแพร่หลายและเป็นที่ยอมรับหรือไม่?

ฉันไม่รู้ โอกาสสูงสุดที่ใช้ตลอดเวลา รุ่น Logit นั้นขึ้นอยู่กับรุ่นอื่น ๆ เช่นกัน พวกเขาไม่ได้แตกต่างกันมากกับ OLS มาตรฐานที่คุณมุ่งเน้นไปที่การลดลงของผลรวมของกำลังสองของส่วนที่เหลือ ฉันไม่แน่ใจว่าโอกาสสูงสุดในการกำหนดเป้าหมายคืออะไร และมันแตกต่างจากโอกาสสูงสุดดั้งเดิม

3) โมเดลที่ไม่แน่นอนทั้งหมดไร้ประโยชน์หรือไม่?

ไม่ได้อย่างแน่นอน. โมเดลที่ไม่แน่นอนจะมีประโยชน์มาก ก่อนอื่นพวกเขามีส่วนช่วยทำความเข้าใจหรืออธิบายปรากฏการณ์ ที่ควรนับสำหรับบางสิ่งบางอย่าง ประการที่สองพวกเขาอาจให้การประมาณค่าแบบโคตรและการพยากรณ์ด้วยช่วงความเชื่อมั่นที่เกี่ยวข้องเพื่อจับความไม่แน่นอนรอบการประมาณ ที่สามารถให้ข้อมูลมากมายกับสิ่งที่คุณกำลังศึกษา

ปัญหาของ "ไม่แน่นอน" ยังทำให้เกิดปัญหาความตึงเครียดระหว่างความแตกต่างและความพอดี คุณสามารถมีรูปแบบง่าย ๆ พร้อมตัวแปร 5 ตัวที่เป็น "ไม่แน่นอน" แต่ทำได้ดีมากในการจับภาพและอธิบายแนวโน้มโดยรวมของตัวแปรตาม คุณสามารถมีรูปแบบที่ซับซ้อนมากขึ้นโดยมีตัวแปร 10 ตัวที่ "แม่นยำมากกว่า" ตัวแรก (ปรับ R Square ที่สูงขึ้น, ข้อผิดพลาดมาตรฐานที่ต่ำกว่า ฯลฯ ) แต่รุ่นที่ซับซ้อนมากขึ้นที่สองนี้อาจมีปัญหาเมื่อคุณทดสอบโดยใช้ตัวอย่าง Hold Out และในกรณีเช่นนี้บางทีแบบจำลอง "ไม่แน่นอน" นั้นมีประสิทธิภาพดีกว่ามากในตัวอย่าง Hold Out สิ่งนี้เกิดขึ้นตลอดเวลาในสาขาเศรษฐศาสตร์และฉันสงสัยว่าในสังคมศาสตร์อื่น ๆ อีกมากมาย ระวังโมเดล "แน่นอน"

4) เป็นไปได้ไหมที่คุณจะรู้ว่าคุณมีนางแบบที่ถูกต้องนอกเหนือจากในเรื่องเล็กน้อย?

เป็นไปไม่ได้ที่จะรู้ว่าคุณมีรูปแบบที่แน่นอน แต่เป็นไปได้ที่จะรู้ว่าคุณมีนางแบบที่ดีงาม มาตรการข้อมูลเกณฑ์ (AIC, BIC, SIC) สามารถให้ข้อมูลมากมายแก่คุณในการเปรียบเทียบและเปรียบเทียบประสิทธิภาพการทำงานของรุ่นต่างๆ นอกจากนี้การทดสอบ LINK ยังสามารถช่วยในเรื่องนั้นได้

5) หากสิ่งนี้เป็นไปตามความคิดเห็นมากเกินไปและไม่เกี่ยวข้องกับหัวข้อจึงสามารถพูดคุยได้ที่ไหน? เพราะบทความของดร. แวนเดอร์ลันต้องการการอภิปรายอย่างแน่นอน

ฉันคิดว่านี่เป็นฟอรัมที่เหมาะสมในการพูดคุยเรื่องนี้กับทุกที่ นี่เป็นปัญหาที่น่าสนใจสำหรับเราส่วนใหญ่


5

(ฉันไม่เห็นวลี "รุ่นที่แน่นอน" ในบทความ (แม้ว่าจะยกมาด้านบน))

1) การอนุมานเชิงสถิติที่มีประโยชน์ใดที่สามารถทำได้โดยใช้ตัวแบบที่ไม่มีข้อสมมติฐานเลย?

คุณต้องเริ่มต้นที่ไหนสักแห่ง ถ้านั่นคือทั้งหมดที่คุณมี (ไม่มีอะไร) มันอาจเป็นจุดเริ่มต้น

2)มีกรณีศึกษาด้วยข้อมูลจริงที่สำคัญในการใช้โอกาสสูงสุดที่กำหนดไว้หรือไม่? วิธีการเหล่านี้ใช้กันอย่างแพร่หลายและเป็นที่ยอมรับหรือไม่?

ในการตอบคำถามที่สองโอกาสเกิดขึ้นได้สูงสุดที่กำหนดเป้าหมายไว้ใน 93/1143281 (~ .008%) ของเอกสารใน arxiv.org ดังนั้นไม่มีน่าจะเป็นประมาณการที่ดี (โดยไม่มีข้อสมมติฐาน) ที่หนึ่ง

3)โมเดลที่ไม่แน่นอนทั้งหมดไร้ประโยชน์หรือไม่?

ไม่ บางครั้งคุณสนใจแค่เพียงแง่มุมหนึ่งของแบบจำลอง ด้านที่สามารถจะดีมากและส่วนที่เหลือมากแน่นอน

4)เป็นไปได้ไหมที่คุณจะรู้ว่าคุณมีนางแบบที่ถูกต้องนอกเหนือจากในเรื่องเล็กน้อย?

ที่ดีที่สุดรูปแบบคือรูปแบบที่ดีที่สุดตอบคำถามของคุณ นั่นอาจหมายถึงการทิ้งบางสิ่งออกไป สิ่งที่คุณต้องการหลีกเลี่ยงคือการละเมิดสมมติฐาน

5) Hoursมี และเครื่องดื่มราคาถูกกว่าที่จะบูต!

ฉันพบว่าการใช้คำว่า "แน่นอน" ค่อนข้างไม่มั่นคง มันไม่ใช่การพูดที่เหมือนนักสถิติ ความไม่แน่นอน? การเปลี่ยนแปลง? ขอบคุณ Gd! นั่นเป็นเหตุผลที่เราอยู่ที่นี่ทั้งหมด ฉันคิดว่าวลี "แบบจำลองทั้งหมดผิด ... " ไม่เป็นไร แต่เฉพาะใน บริษัท ที่เหมาะสม นักสถิติเข้าใจว่ามันหมายถึงอะไร แต่ก็มีน้อยคนที่ทำเช่นนั้น


ข้อดีของวลี "รุ่นที่แน่นอน" เขาพูดถึงสิ่งต่าง ๆ เกี่ยวกับแบบจำลองของ "ของจริง" และ "ของจริง" ที่เทียบเท่าโดยเฉพาะอย่างยิ่งเมื่อพิจารณาบริบทและน้ำเสียงของบทความ แต่คุณพูดถูก
SQLServerSteve

ความผิดฉันเอง. ฉันควรจะยกเขาอย่างถูกต้อง
rvl

ฉันรู้สึกว่าการพยายามที่จะบรรลุถึงตัวแบบที่แท้จริงหรือที่เกิดขึ้นจริงนั้นไม่ตรงประเด็นของการฝึก ฉันคิดว่าสิ่งที่เขากำลังพยายามจะพูดถึงจริงๆคือโมเดลที่ไม่ดี
mandata

ใช่บทความนี้ให้คะแนนที่ดีมาก แต่เขาก็แสดงความคิดเห็นอย่างมากเช่น "มันเป็นเรื่องไร้สาระที่สมบูรณ์ที่ระบุว่านางแบบทุกคนผิด" ในความจริงแล้วพวกเขาผิดทุกระดับ มันไร้สาระที่จะพูดเป็นอย่างอื่น เขาปักหลักอยู่ในตำแหน่งที่แน่นอนมาก Rvl นั้นถูกต้องทั้งหมดที่จะนำเรื่องนี้ขึ้นมาและเรียกเขาออกมา (อย่าไปอ้าง Ryl สิ่งที่สำคัญคือคุณเก็บความหมายได้อย่างถูกต้อง)
SQLServerSteve

4

ปรากฏบทความกล่าวว่าฉันจะซื่อสัตย์ แต่การเมืองบทความการทะเลาะจริงใจ ด้วยเหตุนี้จึงมีข้อความที่น่าหลงใหลจำนวนมากที่ไม่มีความรู้สึกทางวิทยาศาสตร์ แต่อาจมีประสิทธิภาพในการกระตุ้นการสนทนาและการพิจารณาที่เป็นประโยชน์ในเรื่องที่สำคัญ

มีคำตอบที่ดีมากมายที่นี่ดังนั้นให้ฉันพูดสองสามบรรทัดจากบทความเพื่อแสดงว่า Prof. Laan ไม่ได้ใช้ "แบบจำลองที่แน่นอน" ใด ๆ ในงานของเขา (และโดยวิธีใครบอกว่า "แน่นอน" model "เป็นแนวคิดที่เทียบเท่ากับกลไกการสร้างข้อมูลจริงหรือไม่?)

คำพูด (เน้นตัวหนาของฉัน)

"เมื่อเราวางแบบจำลองทางสถิติที่เหมือนจริงแล้วเราจำเป็นต้องแยกออกมาจากผู้ทำงานร่วมกันว่าอะไรเป็นตัวประมาณและดีที่สุดแสดงถึงคำตอบสำหรับคำถามทางวิทยาศาสตร์ที่น่าสนใจ "

ความคิดเห็น: "เหมือนจริง" ถูกลบออกจาก "แน่นอน" เนื่องจากดาวอังคารมาจากโลก พวกเขาโคจรรอบดวงอาทิตย์ทั้งคู่ดังนั้นเพื่อจุดประสงค์บางอย่างมันไม่สำคัญว่าจะเลือกดาวเคราะห์ดวงใด สำหรับวัตถุประสงค์อื่นมันไม่สำคัญ นอกจากนี้ "ดีที่สุด" เป็นแนวคิดที่เกี่ยวข้อง "แน่นอน" ไม่ใช่

"การประมาณค่าที่กำหนดไว้ในแบบจำลองทางสถิติที่ซื่อสัตย์ไม่สามารถประมาณอย่างสมเหตุสมผลได้จากตัวแบบพารามิเตอร์ ...

ความคิดเห็น:ความซื่อสัตย์เป็นนโยบายที่ดีที่สุดแน่นอน แต่ก็ไม่รับประกันว่าจะ "แน่นอน" นอกจากนี้ "การประมาณที่เหมาะสม" ดูเหมือนจะเป็นผลลัพธ์ที่เจือจางมากหากใช้ "แบบจำลองที่แน่นอน"

" เพื่อตอบสนองต่อการแก้ปัญหาการประมาณค่าที่ยากที่สุดเท่าที่เราจะทำได้เราจึงพัฒนาวิธีการทางสถิติทั่วไป ... "

ความคิดเห็น:ตกลง เราคือ "ทำอย่างดีที่สุดเท่าที่จะทำได้" เกือบทุกคนกำลังคิดเกี่ยวกับตัวเอง แต่ "ดีที่สุดที่เราทำได้" ไม่ใช่ "แน่นอน"


2

ฉันจะเข้าใกล้สิ่งนี้จากทิศทางอื่นของปรัชญาโดยคำนึงถึงหลักการที่มีประโยชน์จริงๆของการจัดการความไม่แน่นอนที่กล่าวถึงในหนังสือของ George F. Klir ในชุดคลุมเครือ ฉันไม่สามารถยืนยันความถูกต้องของแวนเดอร์ลันได้ แต่ฉันสามารถระบุกรณีที่ค่อนข้างละเอียดว่าทำไมเป้าหมายของเขาจึงเป็นไปไม่ได้ในเชิงตรรกะ ที่จะเรียกร้องให้มีการอภิปรายที่ยาวนานซึ่งอ้างอิงสาขาอื่นดังนั้นจงอดทนกับฉัน

Klir และผู้เขียนร่วมของเขาแบ่งความไม่แน่นอนออกเป็นหลายชนิดย่อยเช่น nonspecificity (เช่นเมื่อคุณมีทางเลือกที่ไม่รู้จักจำนวนหนึ่งจัดการกับวิธีการเช่น Hartley Function); ความไม่แน่ชัดในคำจำกัดความ (เช่น "ความคลุมเครือ" แบบจำลองและปริมาณในชุดฝอย); ความขัดแย้งหรือความขัดแย้งในหลักฐาน (ที่ระบุไว้ในทฤษฎีหลักฐานการเคลื่อนย้าย - เชเฟอร์); บวกกับทฤษฎีความน่าจะเป็น, ทฤษฎีความเป็นไปได้และความไม่แน่นอนในการวัดซึ่งเป้าหมายคือการมีขอบเขตที่เพียงพอในการรวบรวมหลักฐานที่เกี่ยวข้องในขณะที่ลดข้อผิดพลาดให้น้อยที่สุด ฉันดูกล่องเครื่องมือทั้งหมดของเทคนิคทางสถิติเป็นวิธีสำรองในการแบ่งความไม่แน่นอนในรูปแบบที่แตกต่างกันเหมือนกับเครื่องตัดคุกกี้ ช่วงความเชื่อมั่นและค่าความไม่แน่นอนในการกักกันในทางเดียวในขณะที่มาตรการเช่นเอนโทรปีของแชนนอนลดลงจากมุมมองอื่น สิ่งที่พวกเขาสามารถ ' อย่างไรก็ตามอย่ากำจัดมันทั้งหมด เพื่อให้ได้ "แบบจำลองที่แน่นอน" ของ van van Laan ที่ดูเหมือนจะอธิบายเราต้องลดความไม่แน่นอนประเภทนี้ลงเหลือศูนย์เพื่อที่จะไม่เหลือพาร์ติชันอีก แบบจำลอง "ที่แน่นอน" อย่างแท้จริงจะมีค่าความน่าจะเป็นและความเป็นไปได้อยู่ที่ 1, คะแนนแบบไร้สาระที่ 0 และไม่มีความไม่แน่นอนใด ๆ ในคำจำกัดความของคำ, ช่วงของค่าหรือมาตรวัดการวัด จะไม่มีความบาดหมางกันในแหล่งที่มาของหลักฐานสำรอง การคาดการณ์ที่ทำโดยแบบจำลองดังกล่าวจะแม่นยำ 100 เปอร์เซ็นต์เสมอ แบบจำลองการทำนายโดยพื้นฐานแล้วแบ่งความไม่แน่นอนออกไปในอนาคต แต่จะไม่มีใครเหลือให้เลื่อน มุมมองที่ไม่แน่นอนมีนัยสำคัญ: ดูเหมือน Van der Laan จะอธิบายเราต้องการลดความไม่แน่นอนเหล่านี้ลงเหลือศูนย์เพื่อไม่ให้เหลือพาร์ติชั่นอีกต่อไป แบบจำลอง "ที่แน่นอน" อย่างแท้จริงจะมีค่าความน่าจะเป็นและความเป็นไปได้อยู่ที่ 1, คะแนนแบบไร้สาระที่ 0 และไม่มีความไม่แน่นอนใด ๆ ในคำจำกัดความของคำ, ช่วงของค่าหรือมาตรวัดการวัด จะไม่มีความบาดหมางกันในแหล่งที่มาของหลักฐานสำรอง การคาดการณ์ที่ทำโดยแบบจำลองดังกล่าวจะแม่นยำ 100 เปอร์เซ็นต์เสมอ แบบจำลองการทำนายโดยพื้นฐานแล้วแบ่งความไม่แน่นอนออกไปในอนาคต แต่จะไม่มีใครเหลือให้เลื่อน มุมมองที่ไม่แน่นอนมีนัยสำคัญ: ดูเหมือน Van der Laan จะอธิบายเราต้องการลดความไม่แน่นอนเหล่านี้ลงเหลือศูนย์เพื่อไม่ให้เหลือพาร์ติชั่นอีกต่อไป แบบจำลอง "ที่แน่นอน" อย่างแท้จริงจะมีค่าความน่าจะเป็นและความเป็นไปได้อยู่ที่ 1, คะแนนแบบไร้สาระที่ 0 และไม่มีความไม่แน่นอนใด ๆ ในคำจำกัดความของคำ, ช่วงของค่าหรือมาตรวัดการวัด จะไม่มีความบาดหมางกันในแหล่งที่มาของหลักฐานสำรอง การคาดการณ์ที่ทำโดยแบบจำลองดังกล่าวจะแม่นยำ 100 เปอร์เซ็นต์เสมอ แบบจำลองการทำนายโดยพื้นฐานแล้วแบ่งความไม่แน่นอนออกไปในอนาคต แต่จะไม่มีใครเหลือให้เลื่อน มุมมองที่ไม่แน่นอนมีนัยสำคัญ: แบบจำลอง "ที่แน่นอน" อย่างแท้จริงจะมีค่าความน่าจะเป็นและความเป็นไปได้ที่ 1, คะแนนแบบไม่ระบุจำนวน 0 และไม่มีความไม่แน่นอนใด ๆ ในคำจำกัดความของคำ, ช่วงของค่าหรือมาตราส่วนการวัด จะไม่มีความบาดหมางกันในแหล่งที่มาของหลักฐานสำรอง การคาดการณ์ที่ทำโดยแบบจำลองดังกล่าวจะแม่นยำ 100 เปอร์เซ็นต์เสมอ แบบจำลองการทำนายโดยพื้นฐานแล้วแบ่งความไม่แน่นอนออกไปในอนาคต แต่จะไม่มีใครเหลือให้เลื่อน มุมมองที่ไม่แน่นอนมีนัยสำคัญ: แบบจำลอง "ที่แน่นอน" อย่างแท้จริงจะมีค่าความน่าจะเป็นและความเป็นไปได้ที่ 1, คะแนนแบบไม่ระบุจำนวน 0 และไม่มีความไม่แน่นอนใด ๆ ในคำจำกัดความของคำ, ช่วงของค่าหรือมาตราส่วนการวัด จะไม่มีความบาดหมางกันในแหล่งที่มาของหลักฐานสำรอง การคาดการณ์ที่ทำโดยแบบจำลองดังกล่าวจะแม่นยำ 100 เปอร์เซ็นต์เสมอ แบบจำลองการทำนายโดยพื้นฐานแล้วแบ่งความไม่แน่นอนออกไปในอนาคต แต่จะไม่มีใครเหลือให้เลื่อน มุมมองที่ไม่แน่นอนมีนัยสำคัญ: การคาดการณ์ที่ทำโดยแบบจำลองดังกล่าวจะแม่นยำ 100 เปอร์เซ็นต์เสมอ แบบจำลองการทำนายโดยพื้นฐานแล้วแบ่งความไม่แน่นอนออกไปในอนาคต แต่จะไม่มีใครเหลือให้เลื่อน มุมมองที่ไม่แน่นอนมีนัยสำคัญ: การคาดการณ์ที่ทำโดยแบบจำลองดังกล่าวจะแม่นยำ 100 เปอร์เซ็นต์เสมอ แบบจำลองการทำนายโดยพื้นฐานแล้วแบ่งความไม่แน่นอนออกไปในอนาคต แต่จะไม่มีใครเหลือให้เลื่อน มุมมองที่ไม่แน่นอนมีนัยสำคัญ:

•คำสั่งสูงนี้ไม่เพียง แต่เป็นไปไม่ได้ทางร่างกาย แต่เป็นไปไม่ได้ในทางตรรกะ เห็นได้ชัดว่าเราไม่สามารถบรรลุเครื่องชั่งวัดอย่างต่อเนื่องได้อย่างสมบูรณ์แบบด้วยองศาที่เล็กที่สุดโดยการรวบรวมการสังเกตที่ จำกัด โดยใช้อุปกรณ์วิทยาศาสตร์ทางกายภาพที่ผิดพลาดได้ จะมีความไม่แน่นอนอยู่เสมอในแง่ของขนาดการวัด ในทำนองเดียวกันจะมีความสับสนอยู่รอบ ๆ คำจำกัดความที่เราใช้ในการทดลองของเรา ในอนาคตยังมีความไม่แน่นอนโดยเนื้อแท้ดังนั้นการคาดการณ์ที่สมบูรณ์แบบของโมเดล "แน่นอน" ของเราจะต้องได้รับการปฏิบัติอย่างไม่สมบูรณ์จนกว่าจะพิสูจน์เป็นอย่างอื่น - ซึ่งจะต้องใช้เวลาชั่วนิรันดร์

•เพื่อทำให้เรื่องแย่ลงไม่มีเทคนิคการวัดใดที่ปราศจากข้อผิดพลาด 100 เปอร์เซ็นต์ในบางจุดในกระบวนการและไม่สามารถครอบคลุมได้เพียงพอที่จะยอมรับข้อมูลที่ขัดแย้งกันทั้งหมดในจักรวาล นอกจากนี้การกำจัดตัวแปรที่เป็นไปได้และความเป็นอิสระตามเงื่อนไขที่สมบูรณ์นั้นไม่สามารถพิสูจน์ได้อย่างละเอียดถี่ถ้วนโดยไม่ต้องตรวจสอบกระบวนการทางกายภาพอื่น ๆ ทั้งหมดที่มีผลต่อสิ่งที่เรากำลังตรวจสอบอยู่

•ความถูกต้องเป็นไปได้เฉพาะในตรรกะที่บริสุทธิ์และส่วนย่อยของคณิตศาสตร์อย่างแม่นยำเพราะ abstractions จะหย่าร้างจากความกังวลในโลกแห่งความจริงเช่นแหล่งที่มาของความไม่แน่นอนเหล่านี้ ตัวอย่างเช่นโดยตรรกะการหักทอนแท้เราสามารถพิสูจน์ได้ว่า 2 + 2 = 4 และคำตอบอื่น ๆ นั้นไม่ถูกต้อง 100 เปอร์เซ็นต์ เราสามารถทำนายได้อย่างแม่นยำว่ามันจะเท่ากับ 4 เสมอความแม่นยำแบบนี้เป็นไปได้เฉพาะในสถิติเมื่อเราจัดการกับนามธรรม สถิติมีประโยชน์อย่างไม่น่าเชื่อเมื่อนำไปใช้กับโลกแห่งความเป็นจริง แต่สิ่งที่ทำให้มันมีประโยชน์อย่างน้อยความไม่แน่นอนที่ไม่สามารถหลีกเลี่ยงได้ในระดับหนึ่ง มันเป็นภาวะที่กลืนไม่เข้าคายไม่ออก

•นอกจากนี้ปีเตอร์ชูเพิ่มข้อ จำกัด เพิ่มเติมในส่วนความคิดเห็นของบทความ rvl ที่เชื่อมโยงกับ เขาทำให้ดีกว่าที่ฉันสามารถทำได้:

"พื้นผิวการแก้ปัญหาของปัญหา NP-hard นี้มักจะเต็มไปด้วย optima ท้องถิ่นจำนวนมากและในกรณีส่วนใหญ่มันไม่สามารถคำนวณได้เพื่อแก้ปัญหาคือการหาทางออกที่ดีที่สุดทั่วโลกโดยทั่วไปดังนั้นผู้สร้างแบบจำลองแต่ละคนใช้เทคนิคการสร้างแบบจำลอง อย่างดีที่สุดเพื่อค้นหาโซลูชันที่ดีที่สุดในท้องถิ่นอย่างเพียงพอในพื้นที่โซลูชันที่กว้างใหญ่ของฟังก์ชันวัตถุประสงค์ที่ซับซ้อนนี้ "

•ทั้งหมดนี้หมายความว่าวิทยาศาสตร์เองไม่สามารถแม่นยำได้อย่างสมบูรณ์แม้ว่า Van der Laan ดูเหมือนจะพูดถึงเรื่องนี้ในบทความของเขา วิธีการทางวิทยาศาสตร์ในฐานะกระบวนการนามธรรมนั้นสามารถกำหนดได้อย่างชัดเจน แต่ความเป็นไปไม่ได้ของการวัดที่เป็นสากลและสมบูรณ์แบบนั้นหมายความว่ามันจะไม่สามารถสร้างแบบจำลองที่แน่นอนโดยปราศจากความไม่แน่นอน วิทยาศาสตร์เป็นเครื่องมือที่ยอดเยี่ยม แต่มีข้อ จำกัด

•แย่ลงจากที่นั่น: แม้ว่าจะเป็นไปได้ที่จะวัดแรงทั้งหมดที่กระทำกับควาร์กและองค์ประกอบกลูออนทั้งหมดในจักรวาลความไม่แน่นอนบางอย่างจะยังคงอยู่ ประการแรกการคาดการณ์ใด ๆ ที่ทำโดยแบบจำลองที่สมบูรณ์จะยังคงไม่แน่นอนเนื่องจากการมีอยู่ของการแก้ปัญหาหลายอย่างสำหรับสมการ quintic และพหุนามที่สูงขึ้น ประการที่สองเราไม่สามารถมั่นใจได้อย่างสมบูรณ์ว่าความสงสัยอย่างที่สุดในคำถามคลาสสิก "บางทีนี่อาจเป็นความฝันหรือภาพหลอน" ไม่ใช่ภาพสะท้อนของความเป็นจริง - ในกรณีที่แบบจำลองทั้งหมดของเราผิดอย่างที่สุด . นี่คือความหมายที่เทียบเท่ากับการตีความทางอภิปรัชญาของทฤษฎีทางญาณวิทยาดั้งเดิมของปรัชญาญาณวิทยาเช่นปรากฏการณ์ยอดนิยมอุดมคตินิยมและการอ้างความจริง

•ในค.ศ. 1909 ดั้งเดิมของเขาGK Chesterton ตั้งข้อสังเกตว่าปรัชญาเหล่านี้สามารถตัดสินได้อย่างเด็ดขาด แต่ไม่ว่าพวกเขาจะผลักดันผู้ศรัทธาให้เข้าสู่สถาบันทางจิตใจหรือไม่ก็ตาม ยกตัวอย่างเช่น ontological solipsism เป็นเครื่องหมายของโรคจิตเภทเช่นเดียวกับลูกพี่ลูกน้องของมัน สิ่งที่ดีที่สุดที่เราสามารถทำได้ในโลกนี้คือการกำจัดข้อสงสัยที่สมเหตุสมผล ข้อสงสัยที่ไม่สมเหตุสมผลสำหรับประเภทที่ไม่มั่นคงนี้ไม่สามารถทำได้อย่างจริงจังแม้ในโลกสมมุติของแบบจำลองที่แน่นอนการวัดแบบละเอียดและปราศจากข้อผิดพลาด หาก van der Laan ตั้งเป้าหมายที่จะกำจัดพวกเราด้วยความสงสัยอย่างไม่มีเหตุผลเขาจะเล่นด้วยไฟ เมื่อเราเข้าใจความสมบูรณ์แบบความดีอัน จำกัด ที่เราสามารถทำได้จะผ่านมือเราไป เราเป็นสิ่งมีชีวิตที่ จำกัด ที่มีอยู่ในโลกที่ไม่มีที่สิ้นสุดซึ่งหมายถึงชนิดของความรู้ที่สมบูรณ์และสมบูรณ์ที่สุดโดยแวนเดอร์ลันว่าความรู้บางอย่างนั้นเกินกว่าที่เราจะเข้าใจได้อย่างถาวร วิธีเดียวที่เราสามารถเข้าถึงความเชื่อมั่นนั้นคือการถอยห่างจากโลกนั้นไปสู่ขอบเขตที่แคบลงของนามธรรมที่สมบูรณ์แบบที่เราเรียกว่า "คณิตศาสตร์บริสุทธิ์" นี่ไม่ได้หมายความว่าการถอยเข้าสู่คณิตศาสตร์บริสุทธิ์เป็นวิธีแก้ปัญหาที่ไม่แน่นอน นี่คือแนวทางที่สืบทอดโดยลุดวิกวิตเกนสไตน์ (2432-2494) ผู้ดูดปรัชญาปรัชญาเชิงบวกของเขาในแง่สามัญสำนึกอะไรก็ตามที่มันมีสามัญสำนึกโดยการปฏิเสธอภิปรัชญาทั้งหมดและถอยกลับเข้าไปในคณิตศาสตร์และวิทยาศาสตร์บริสุทธิ์ overpecialization และเน้นความถูกต้องมากกว่าประโยชน์ ในกระบวนการนี้พวกเขาได้ทำลายวินัยของปรัชญาโดยการละลายมันลงไปในดินแดนแห่ง nitpicking เหนือคำจำกัดความและการจ้องมองสะดือดังนั้นมันจึงไม่เกี่ยวข้องกับสถาบันการศึกษาอื่น ๆ สิ่งนี้สำคัญยิ่งทำให้วินัยทั้งหมดซึ่งยังคงอยู่ในระดับแนวหน้าของการถกเถียงทางวิชาการจนถึงต้นศตวรรษที่ 20 จนถึงจุดที่ยังคงได้รับความสนใจจากสื่อและผู้นำบางคนก็เป็นชื่อครัวเรือน พวกเขาเข้าใจคำอธิบายที่สมบูรณ์แบบของโลกและลื่นไหลผ่านมือของพวกเขา - เช่นเดียวกับที่ทำผ่านผู้ป่วยทางจิตที่ GKC พูดถึง นอกจากนี้ยังจะหลุดออกจากความเข้าใจของแวนเดอร์ลันผู้ซึ่งหักล้างประเด็นของตัวเองตามที่กล่าวไว้ด้านล่าง การแสวงหาโมเดลที่แม่นยำเกินไปไม่ใช่เป็นไปไม่ได้ มันอาจเป็นอันตรายหากนำไปสู่จุดที่ครอบงำจิตใจด้วยตนเอง การแสวงหาความบริสุทธิ์ชนิดนั้นไม่ค่อยจบลงด้วยดี มันมักจะเอาชนะตัวเองได้เช่นเดียวกับเชื้อโรคที่ขัดมือของพวกเขาอย่างดุเดือดจนพวกเขาลงเอยด้วยบาดแผลที่ติดเชื้อ มัน' เตือนความทรงจำของอิคารัสที่พยายามขโมยไฟจากดวงอาทิตย์: ในฐานะที่เป็นสิ่งมีชีวิตที่ จำกัด เราสามารถเข้าใจสิ่งต่าง ๆ ได้อย่าง จำกัด ดังที่เชสเตอร์ตันพูดในออร์ทอดอกซ์ว่า "มันเป็นนักลอจิสติกที่พยายามจะเอาสวรรค์เข้าไปในหัวของเขาและมันก็เป็นหัวของเขาที่แยกออกมา"

ในแง่ของข้างต้นให้ฉันจัดการคำถามเฉพาะบางรายการที่ระบุโดย rvl:

1) แบบจำลองที่ไม่มีสมมติฐานใด ๆ ก็ตามไม่ว่าจะเป็น a) ไม่ได้ตระหนักถึงข้อสันนิษฐานของตนหรือ b) จะต้องหย่าร้างอย่างหมดจดจากการพิจารณาที่นำมาซึ่งความไม่แน่นอนเช่นข้อผิดพลาดในการวัดการบัญชีสำหรับตัวแปร ชอบ.

2) ฉันยังเป็นมือใหม่เมื่อถึงการประเมินความเป็นไปได้สูงสุด (MLE) ดังนั้นฉันจึงไม่สามารถแสดงความคิดเห็นในกลไกของความเป็นไปได้ของเป้าหมายยกเว้นชี้ให้เห็นอย่างชัดเจน: โอกาสเป็นเพียงความเป็นไปได้ไม่ใช่ความแน่นอน . เพื่อให้ได้มาซึ่งโมเดลที่ถูกต้องนั้นจะต้องขจัดความไม่แน่นอนอย่างสมบูรณ์ซึ่งตรรกะความน่าจะเป็นซึ่งแทบจะไม่สามารถทำได้ถ้าเคย

3) ไม่แน่นอน เนื่องจากแบบจำลองทั้งหมดยังคงมีความไม่แน่นอนอยู่บ้างดังนั้นจึงไม่แน่นอน (ยกเว้นในกรณีของคณิตศาสตร์บริสุทธิ์ที่แยกจากการวัดทางกายภาพในโลกแห่งความเป็นจริง) เผ่าพันธุ์มนุษย์จะไม่สามารถก้าวหน้าทางเทคโนโลยีจนถึงปัจจุบัน - หรือความก้าวหน้าอื่น ๆ ทั้งหมด หากโมเดลที่ไม่แน่นอนนั้นไร้ประโยชน์อยู่เสมอเราจะต้องสนทนากันในถ้ำแทนการใช้เทคโนโลยีที่น่าทึ่งนี้เรียกว่าอินเทอร์เน็ตซึ่งทั้งหมดนี้เกิดขึ้นได้จากการสร้างแบบจำลองที่ไม่แน่นอน

กระแทกแดกดันรูปแบบของตัวเอง Van der Laan เป็นตัวอย่างหลักของความไม่แน่นอน บทความของเขาแสดงให้เห็นถึงรูปแบบที่หลากหลายว่าควรจะจัดการกับสถิติอย่างไร ยังไม่มีตัวเลขติดอยู่กับ "แบบจำลอง" นี้ แต่ยังไม่มีการวัดว่าแบบจำลองส่วนใหญ่ไม่แน่นอนหรือไร้ประโยชน์ส่วนใหญ่อยู่ในมุมมองของเขาไม่มีการวัดว่าเราอยู่ห่างจากวิสัยทัศน์ของเขามากแค่ไหน แต่ฉันคิดว่า . ขณะที่มันยืน แต่รูปแบบของเขาคือไม่แน่นอน หากไม่มีประโยชน์แสดงว่าประเด็นของเขาผิด ถ้ามันมีประโยชน์มันจะเอาชนะประเด็นหลักของเขาที่นางแบบไม่แน่นอนไม่เป็นประโยชน์ เขาหักล้างการโต้แย้งของเขาเอง

4) อาจไม่ใช่เพราะเราไม่สามารถมีข้อมูลที่สมบูรณ์เพื่อทดสอบแบบจำลองของเราด้วยเหตุผลเดียวกับที่เราไม่สามารถหาโมเดลที่แน่นอนได้ตั้งแต่แรก แบบจำลองที่แน่นอนจะต้องมีการคาดการณ์ที่สมบูรณ์แบบ แต่ถึงแม้ว่าการทดสอบ 100 ครั้งแรกจะออกมาถูกต้อง 100 เปอร์เซ็นต์ก็ตาม 101st อาจไม่ได้ จากนั้นก็มีปัญหาทั้งเรื่องของการวัดขนาดเล็ก หลังจากนั้นเราจะเข้าไปในแหล่งความไม่แน่นอนอื่น ๆ ทั้งหมดซึ่งจะปนเปื้อนการประเมินหอคอยงาช้างใด ๆ ของแบบจำลองหอคอยงาช้างของเรา

5) เพื่อที่จะแก้ไขปัญหานี้ฉันต้องใส่มันในบริบทที่กว้างขึ้นของปัญหาทางปรัชญาที่มีขนาดใหญ่กว่าที่มักถกเถียงกันดังนั้นฉันไม่คิดว่ามันจะเป็นไปได้ที่จะพูดคุยเรื่องนี้โดยไม่ได้รับความคิดเห็น แหล่งที่มาของความไม่แน่นอน) แต่คุณถูกบทความนี้สมควรได้รับคำตอบ สิ่งที่เขาพูดในหัวข้ออื่น ๆ นั้นอยู่ในแนวทางที่ถูกต้องเช่นความจำเป็นในการสร้างสถิติที่เกี่ยวข้องกับ Big Data แต่มีความคลั่งไคล้สุดโต่งที่ไม่สามารถปฏิบัติได้ที่ควรได้รับการแก้ไข


1
ใครคือ "ผู้สืบทอดของ Wittgenstein" ที่ "ทำลายวินัยของปรัชญา"? แนวโน้มของปรัชญาการวิเคราะห์หลังสงคราม - คิดว่าภายหลัง Wittgenstein, Austin, Quine, Kenny, Goodman, Lewis, Davidson, Rorty - ดูเหมือนว่าจะปฏิเสธทฤษฎีหลักของการวางตัวเชิงตรรกะการฟื้นฟูอภิปรัชญา & การหลบหนีจากวิทยาศาสตร์ (ความเห็นของ Rorty เกี่ยวกับ Nietzsche & Loyola แนะนำให้เขาเห็นด้วยกับประเด็นของ Chesterton) เหตุที่ชื่อของ Kim Kardashian เป็นชื่อครัวเรือนมากกว่า Saul Kripke ฉันสงสัยว่าแนวโน้มอื่น ๆ ได้เริ่มทำงานมาตั้งแต่ต้นศตวรรษที่ 20
Scortchi - Reinstate Monica

นักปฏิรูปหลังสงครามเหล่านี้ไม่รู้จักนอกเขตของพวกเขาอย่างแม่นยำเพราะพวกเขามาหลังจากวินัยได้ลดลงใน '20s /' 30s (หลังจากที่ปฏิเสธมานานหลายศตวรรษมาแล้ว ความเสียหายที่ได้รับการทำไปแล้ว จากยุค 50 นักวิชาการสาขาอื่น ๆ ไม่ได้มองหาปรัชญาในการเป็นผู้นำอีกต่อไปและมักจะปฏิบัติต่อผู้อื่นด้วยการดูถูกเหยียดหยามสำหรับผู้ที่ชอบการถ่อมตน ภาพอาจไม่สะท้อนความเป็นจริงของปรัชญา แต่ความมัวหมองยังคงอยู่
SQLServerSteve

ฉันมีความสุขที่จะพูดคุยเรื่องนี้ในการแชทในสัปดาห์หน้าถ้าคุณมีเวลาฉันไม่ต้องการลงมือแทนเจนต์ในหัวข้อนี้ แต่ฉันสงสัยว่าตำแหน่งของเราไม่ได้ห่างกันมากนัก ฉันคิดว่าคุณพูดถูกการเคลื่อนไหวที่นำไปสู่ ​​Kardashian เป็นต้นมาตั้งแต่ต้นศตวรรษที่ 20 ซึ่งเป็นช่วงเวลาที่วินัยของปรัชญาตกลงไปในสุริยุปราคา (ไม่ว่ามันสมควรจะเป็นเรื่องอื่นหรือไม่ ปฏิบัติและหวังว่ามันจะยังคงได้รับการยกย่องอย่างสูง)
SQLServerSteve

ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.