ความคิดที่เป็นประโยชน์เกี่ยวกับแบบจำลองการอธิบายและการทำนาย


70

ย้อนกลับไปในเดือนเมษายนฉันได้เข้าร่วมการสัมมนาในชุดสัมมนากลุ่มสถิติภาควิชาคณิตศาสตร์ของ UMD ชื่อ "เพื่ออธิบายหรือทำนาย" คำปราศรัยนี้ได้รับจากศาสตราจารย์ Galit Shmueliผู้สอนที่โรงเรียนธุรกิจ Smith ของ UMD คำปราศรัยของเธอขึ้นอยู่กับการวิจัยที่เธอทำกับกระดาษที่มีชื่อว่า"Predictive vs. Explanatory Modeling in IS Research"และบทความเกี่ยวกับการทำงานติดตามเรื่อง"To Explain or To Predict?" .

ข้อโต้แย้งของดร. Shmueli ก็คือคำที่ใช้ในการทำนายและอธิบายในบริบทการสร้างแบบจำลองทางสถิติได้เกิดการสับสน ในกระดาษเธอแตกต่างทั้งสองและพูดคุยเกี่ยวกับความหมายในทางปฏิบัติของพวกเขา ฉันแนะนำให้คุณอ่านเอกสาร

คำถามที่ฉันต้องการโพสต์ในชุมชนผู้ประกอบการคือ:

  • คุณกำหนดแบบฝึกหัดทำนายผลได้อย่างไรกับแบบอธิบาย / อธิบาย มันจะมีประโยชน์ถ้าคุณสามารถพูดคุยเกี่ยวกับการใช้งานเฉพาะ
  • คุณเคยตกหลุมพรางของการใช้อันใดอันหนึ่งเมื่อหมายถึงการใช้อันอื่นหรือไม่? ฉันมี คุณรู้ได้อย่างไรว่าจะใช้อันไหน

2
คำถามนี้ถูกเสนอให้ปิด ดู: meta.stats.stackexchange.com/questions/213/…ฉันเห็นว่ามันมี 2 คะแนน ผู้มีสิทธิเลือกตั้งหรือความคิดเห็น OP เกี่ยวกับสาเหตุที่พวกเขาต้องการเห็นคำถามเปิดอยู่ที่เธรดหรือไม่

9
แทนที่จะพูดว่า "สิ่งนี้ควรปิดไว้ใครบางคนควรปกป้องมัน" วิธีเริ่มต้นด้วยการอธิบายว่าทำไมคุณถึงต้องการปิด คลุมเครือเกินไป? จากนั้นขอคำชี้แจง นี่เป็นคำถามที่สมเหตุสมผลสำหรับฉัน ผู้ถามจะนำเสนอบทความและถามถึงความแตกต่างระหว่างสถิติเชิงทำนายและสถิติ การเปลี่ยนแปลงเพียงอย่างเดียวที่ฉันจะทำกับคำถามคือการชี้แจงคำถามให้ชัดเจนเพื่อให้ง่ายต่อการลงคะแนน
JD Long

2
ฉันได้เสนอเหตุผลในเธรดแล้ว ฉันรู้สึกว่า 'การสนทนาเมตา' เกี่ยวกับคำถามจะถ่วงหน้านี้โดยเฉพาะ

2
@Srikant @JD ฉันจะสรุปคำถาม ขอบคุณสำหรับความคิดเห็น. ฉันคิดว่านี่เป็นหัวข้อที่ได้รับการอภิปราย
วาฮาลูลู

4
คุณสามารถเพิ่มลิงค์ที่เหมาะสมในการพูดคุย / เอกสารดังกล่าวข้างต้น?
chl

คำตอบ:


39

ในหนึ่งประโยค

การสร้างแบบจำลองการทำนายเป็นเรื่องเกี่ยวกับ "สิ่งที่น่าจะเกิดขึ้น?" ในขณะที่การสร้างแบบจำลองเชิงอธิบายเป็นเรื่องเกี่ยวกับ

ในหลายประโยค

ฉันคิดว่าความแตกต่างที่สำคัญคือสิ่งที่ตั้งใจจะทำกับการวิเคราะห์ ฉันขอแนะนำให้คำอธิบายมีความสำคัญต่อการแทรกแซงมากกว่าการทำนาย หากคุณต้องการทำบางสิ่งบางอย่างเพื่อแก้ไขผลลัพธ์คุณควรหาคำอธิบายว่าทำไมจึงเป็นแบบนั้น การสร้างแบบจำลองอธิบายถ้าทำได้ดีจะบอกคุณถึงวิธีการแทรกแซง (ซึ่งอินพุตควรจะปรับ) อย่างไรก็ตามหากคุณเพียงต้องการที่จะเข้าใจว่าอนาคตจะเป็นอย่างไรโดยปราศจากความตั้งใจ (หรือความสามารถ) ในการแทรกแซงการสร้างแบบจำลองการทำนายนั้นมีแนวโน้มที่จะเหมาะสมกว่า

เป็นตัวอย่างที่หลวมอย่างไม่น่าเชื่อโดยใช้ "ข้อมูลมะเร็ง"

การสร้างแบบจำลองการทำนายโดยใช้ "ข้อมูลโรคมะเร็ง" จะเหมาะสม (หรือมีประโยชน์อย่างน้อย) หากคุณให้เงินสนับสนุนหอผู้ป่วยมะเร็งในโรงพยาบาลต่างๆ คุณไม่จำเป็นต้องอธิบายว่าทำไมคนถึงเป็นมะเร็ง แต่คุณต้องการเพียงแค่การประเมินที่แม่นยำว่าจะต้องใช้บริการมากแค่ไหน การสร้างแบบจำลองที่อธิบายอาจจะไม่ช่วยได้มากที่นี่ ตัวอย่างเช่นการรู้ว่าการสูบบุหรี่นำไปสู่ความเสี่ยงที่สูงขึ้นของโรคมะเร็งไม่ได้บอกตัวเองว่าจะให้เงินทุนเพิ่มเติมในการปกป้องวอร์ดหรือวอร์ดบี

การสร้างแบบจำลองที่อธิบายได้ของ "ข้อมูลมะเร็ง" จะเหมาะสมถ้าคุณต้องการลดอัตราการเป็นมะเร็งแห่งชาติ - การสร้างแบบจำลองการทำนายจะล้าสมัยอย่างเป็นธรรมที่นี่ ความสามารถในการทำนายอัตราการเกิดมะเร็งอย่างแม่นยำนั้นแทบจะไม่สามารถช่วยคุณตัดสินใจได้ อย่างไรก็ตามการรู้ว่าการสูบบุหรี่นำไปสู่ความเสี่ยงที่สูงขึ้นของโรคมะเร็งเป็นข้อมูลที่มีค่าเพราะถ้าคุณลดอัตราการสูบบุหรี่ (เช่นการทำให้บุหรี่มีราคาแพงกว่า) สิ่งนี้จะนำไปสู่ผู้คนที่มีความเสี่ยงน้อยลง ราคา.

เมื่อมองถึงปัญหาด้วยวิธีนี้ฉันคิดว่าการสร้างแบบจำลองเชิงอธิบายจะเน้นไปที่ตัวแปรที่อยู่ในการควบคุมของผู้ใช้เป็นหลักไม่ว่าทางตรงหรือทางอ้อม อาจมีความจำเป็นในการรวบรวมตัวแปรอื่น ๆ แต่ถ้าคุณไม่สามารถเปลี่ยนแปลงตัวแปรใด ๆ ในการวิเคราะห์ได้ฉันสงสัยว่าการสร้างแบบจำลองอธิบายจะมีประโยชน์ยกเว้นบางทีคุณอาจต้องการควบคุมหรือมีอิทธิพลเหนือตัวแปรเหล่านั้น ซึ่งมีความสำคัญ การสร้างแบบจำลองการทำนายอย่างหยาบ ๆ เพียงแค่มองหาความสัมพันธ์ระหว่างตัวแปรไม่ว่าจะควบคุมโดยผู้ใช้หรือไม่ คุณจำเป็นต้องรู้อินพุต / ฟีเจอร์ / ตัวแปรอิสระ / อื่น ๆ เพื่อทำการคาดการณ์ แต่คุณจะต้องสามารถปรับเปลี่ยนหรือมีอิทธิพลต่ออินพุต / ฟีเจอร์ / ตัวแปรอิสระ / ฯลฯ เพื่อแทรกแซงและเปลี่ยนแปลงผลลัพธ์ .


9
+1 เสร็จดีมาก! ฉันเกลียดที่จะทำไม้จิ้มฟัน แต่ฉันต้องการที่จะทราบว่าการทำนายไม่จำเป็นต้องเกี่ยวกับอนาคต ตัวอย่างเช่นนักโบราณคดีอาจต้องการตรวจสอบ (เช่นทำนาย) ระดับของปริมาณน้ำฝนในพื้นที่ที่จุดหนึ่งในอดีตโดยความรู้เกี่ยวกับร่องรอย (เช่นผลกระทบของปริมาณน้ำฝน) ที่เหลืออยู่
gung

@gung - ฉันคิดว่าฉันพูดคำตอบของฉันเพื่อที่จะไม่เกิดขึ้น เห็นได้ชัดว่าฉันพลาดจุด :-)
ความน่าจะเป็นทาง

คำตอบที่ดี ฉันคิดว่าเราต้องการในหลาย ๆ กรณีเพื่อทราบว่าอนาคตมีลักษณะอย่างไรและทำไม สมมติว่าเมื่อศึกษาลูกค้าปั่นคุณต้องการทราบจำนวนลูกค้า (และลูกค้าที่แน่นอน) ปั่นเดือนถัดไป N แล้วทำไมพวกเขาปั่นเพื่อให้การตลาดสามารถแทรกแซงเพื่อรักษาพวกเขา จากนั้นเราต้องการทั้งการคาดการณ์ (เพื่อเรียนรู้จำนวนลูกค้าและลูกค้าในอนาคต) และคำอธิบายเพื่อบอกเหตุผลว่าทำไมเราจึงสามารถลดจำนวนผู้ปั่น ดังนั้นเรามีรูปแบบไฮบริดของทั้งสองหรือพอเพียงหนึ่งหรือไม่ Varty แตะมันด้วยการพูดว่า "ความสัมพันธ์ที่รู้จักอาจเกิดขึ้นจากการวิเคราะห์เชิงพรรณนา / อธิบายหรือเทคนิคอื่น ๆ "
Espanta

@ gung ฉันชอบ nitpick: นักโบราณคดีปรารถนาที่จะทำนายประสบการณ์ในอนาคตของเธอ (กล่าวคือการทำนายว่าในอนาคตเธอจะพบร่องรอยของฝนที่ตกลงมาสูงในอนาคต)
Alexis

@Alexis เป็นไปได้อย่างแน่นอน แต่ก็เป็นไปได้ที่ไม่ใช่งานวิจัยหลักของนักโบราณคดีและข้อมูลเหล่านั้นได้ถูกรวบรวมโดยนักวิจัยคนอื่น ๆ (นักบรรพชีวินวิทยา) และนักโบราณคดีก็ต้องการใช้ข้อมูลเหล่านั้นเพื่อทดสอบทฤษฎีที่ ความสนใจเชิงทฤษฎีเบื้องต้นของพวกเขา ( Gill, 200 )
gung

30

ในมุมมองของฉันความแตกต่างมีดังนี้

อธิบาย / บรรยาย

เมื่อค้นหาคำตอบอธิบาย / อธิบายเชิงโฟกัสหลักอยู่บนข้อมูลที่เรามีและเราพยายามที่จะค้นพบความสัมพันธ์พื้นฐานระหว่างข้อมูลหลังจากเสียงที่ได้รับการคิด

ตัวอย่าง: การออกกำลังกายอย่างสม่ำเสมอ (พูด 30 นาทีต่อวัน) ทำให้ความดันโลหิตลดลงหรือไม่? เพื่อตอบคำถามนี้เราอาจรวบรวมข้อมูลจากผู้ป่วยเกี่ยวกับระบบการออกกำลังกายและค่าความดันโลหิตเมื่อเวลาผ่านไป มีเป้าหมายเพื่อดูว่าเราสามารถอธิบายความแปรปรวนของความดันโลหิตโดยการเปลี่ยนแปลงในระบบการออกกำลังกายหรือไม่

ความดันโลหิตได้รับผลกระทบจากการออกกำลังกายโดยปัจจัยอื่น ๆ เช่นปริมาณโซเดียมต่อคนที่กินเป็นต้นปัจจัยอื่น ๆ เหล่านี้จะได้รับการพิจารณาว่าเป็นเสียงดังในตัวอย่างข้างต้น ความดันโลหิต.

คาดการณ์

เมื่อทำแบบฝึกหัดทำนายผลเราจะคาดการณ์ถึงสิ่งที่ไม่รู้จักโดยใช้ความสัมพันธ์ที่รู้จักระหว่างข้อมูลที่เรามีอยู่ ความสัมพันธ์ที่รู้จักอาจเกิดขึ้นจากการวิเคราะห์อธิบาย / อธิบายหรือเทคนิคอื่น ๆ

ตัวอย่าง: ถ้าฉันออกกำลังกายวันละ 1 ชั่วโมงความดันโลหิตของฉันจะลดลงเท่าไหร่? เพื่อตอบคำถามนี้เราอาจใช้ความสัมพันธ์ที่ไม่เปิดเผยก่อนหน้านี้ระหว่างความดันโลหิตและระบบการออกกำลังกายเพื่อทำนายผล

ในบริบทข้างต้นการโฟกัสไม่ได้อยู่ที่การอธิบายแม้ว่าตัวแบบอธิบายจะช่วยในกระบวนการทำนาย นอกจากนี้ยังมีวิธีการที่ไม่อธิบาย (เช่นอวนประสาท) ซึ่งดีในการทำนายสิ่งแปลกปลอมโดยไม่จำเป็นต้องเพิ่มความรู้ของเราเกี่ยวกับธรรมชาติของความสัมพันธ์พื้นฐานระหว่างตัวแปร


6
+1 คำตอบนี้ส่วนใหญ่หลีกเลี่ยงความสัมพันธ์ที่สับสนกับสาเหตุโดยใช้ภาษาของคำอธิบายคำอธิบายและความสัมพันธ์ สิ่งนี้ให้ความชัดเจนในระดับที่ต้องการ
whuber

4
ภายใต้คำอธิบายคุณเขียนว่า "การมุ่งเน้นหลักอยู่ที่ข้อมูลที่เรามี" - ฉันคิดว่าคุณกำลังพยายามที่จะบอกว่างานนั้นเป็นแบบย้อนหลัง (ตรงข้ามกับลักษณะที่คาดหวังของการทำนาย) ในการอธิบาย (อ่าน "คำอธิบายเชิงสาเหตุ") จริง ๆ แล้วมีการมุ่งเน้นไปที่ทฤษฎีและความรู้เกี่ยวกับโดเมนและข้อมูลที่ใช้ในการทดสอบสมมติฐาน / ทฤษฎีเหล่านี้ ในทางตรงกันข้ามในการทำนายว่ามันเป็นข้อมูลที่ขับเคลื่อนด้วยและคุณมีใจที่เปิดกว้างเกี่ยวกับความสัมพันธ์เพราะคุณไม่ได้ค้นหาสาเหตุ แต่เพื่อความสัมพันธ์
Galit Shmueli

@GalitShmueli Reg ทฤษฎี / โดเมนความรู้ - ใช่ฉันเห็นด้วยกับจุดนั้น ฉันเพียงแค่พยายามที่จะเปรียบเทียบการคาดการณ์คำอธิบายแบบเผชิญหน้าโดยมุ่งเน้นไปที่สิ่งที่ดูเหมือนว่าฉันแตกต่างที่สำคัญ - การประมาณค่าของตัวแปรเทียบกับการค้นพบความสัมพันธ์ระหว่างตัวแปร ในกระบวนการนี้ฉันมีความผิดในการละเลยความแตกต่างเล็กน้อยระหว่างกระบวนทัศน์ทั้งสอง
varty

1
@varty ผมเห็นด้วยกับจุดของคุณ: ในการอธิบาย / คำอธิบายคุณมีความสนใจในภาพรวม / เฉลี่ยสัมพันธ์ / ผลกระทบในขณะที่ในการทำนายคุณมีความสนใจในการทำนายค่าของแต่ละบุคคล (ไม่จำเป็นต้องคาดการณ์)
Galit Shmueli

19

ประเด็นปัญหาหนึ่งที่เกิดขึ้นที่นี่คือการเลือกตัวแปรในการสร้างแบบจำลอง ตัวแปรอาจเป็นตัวแปรอธิบายที่สำคัญ (เช่นมีนัยสำคัญทางสถิติ) แต่อาจไม่เป็นประโยชน์สำหรับวัตถุประสงค์ในการทำนาย (เช่นการรวมไว้ในแบบจำลองจะนำไปสู่ความแม่นยำในการพยากรณ์ที่แย่ลง) ฉันเห็นความผิดพลาดนี้เกือบทุกวันในเอกสารเผยแพร่

ความแตกต่างก็คือความแตกต่างระหว่างการวิเคราะห์องค์ประกอบหลักและการวิเคราะห์ปัจจัย PCA มักใช้ในการทำนาย แต่ก็ไม่มีประโยชน์สำหรับคำอธิบาย FA เกี่ยวข้องกับขั้นตอนการหมุนเพิ่มเติมซึ่งทำเพื่อปรับปรุงการตีความ มีความเป็นโพสต์ดีวันนี้ในบล็อก Galit Shmueli ของเกี่ยวกับเรื่องนี้

อัปเดต: กรณีที่สามเกิดขึ้นในอนุกรมเวลาเมื่อตัวแปรอาจเป็นตัวแปรอธิบายที่สำคัญ แต่ไม่สามารถใช้งานได้ในอนาคต ตัวอย่างเช่นสินเชื่อเพื่อที่อยู่อาศัยอาจมีความสัมพันธ์อย่างมากกับ GDP แต่นั่นไม่ได้ใช้มากนักในการทำนายสินเชื่อบ้านในอนาคตเว้นแต่ว่าเรามีการคาดการณ์ที่ดีของ GDP


3
ทำไมตัวแปรอธิบายที่สำคัญจะลดความแม่นยำในการทำนายได้อย่างไร

3
@Srikant สิ่งนี้สามารถเกิดขึ้นได้เมื่อตัวแปรอธิบายมีความสัมพันธ์ที่อ่อนแอ แต่มีนัยสำคัญกับตัวแปรตอบกลับ จากนั้นค่าสัมประสิทธิ์จะมีนัยสำคัญทางสถิติ แต่ยากที่จะประมาณ ดังนั้น MSE ของการทำนายสามารถเพิ่มขึ้นได้เมื่อตัวแปรถูกรวมไว้เมื่อเทียบกับเมื่อละเว้น (ความเอนเอียงจะลดลงเมื่อรวมเข้าด้วยกัน แต่ความแปรปรวนจะเพิ่มมากขึ้น)
Rob Hyndman

ย่อหน้าแรกเป็นจุดที่ดีมาก บางครั้งก็แย่กว่าเดิม PMID ที่นี่: 18052912 เป็นตัวอย่างที่ดีที่บางครั้งแบบจำลองที่ดีกว่าสามารถทำกับส่วนเสียงของชุดกว่าแบบจริงได้ - เห็นได้ชัดว่าเราสามารถทำแบบจำลองที่ดีในการสุ่มข้อมูล แต่นี่เป็นเรื่องที่น่าตกใจเล็กน้อย .

1
ยกโทษให้ความเขลาของฉัน แต่ปกติแล้วการหมุนจะไม่เป็นส่วนหนึ่งของ PCA และ FA ใช่ไหม
richiemorrisroe

3
ซิกทางสถิติ แต่ตัวทำนายที่อ่อนแอนั้นไม่ค่อยมีประสิทธิภาพสำหรับการทำนายหรือคำอธิบาย ตัวอย่างเช่นหากโซลูชันการถดถอยเชิงเส้นมี RSQ ที่ 0.40 โดยไม่รวมตัวทำนาย X1 และถ้ารวม X1 เพิ่ม. 01 เข้ากับ RSQ นั้น X1 ก็จะ "สำคัญ" ไม่ใช่สำหรับการทำนายหรือคำอธิบาย
rolando2

17

แม้ว่าบางคนคิดว่ามันง่ายที่สุดที่จะนึกถึงความแตกต่างในแง่ของแบบจำลอง / อัลกอริธึมที่ใช้ (เช่นโครงข่ายประสาท = ทำนาย) นั่นเป็นเพียงแง่มุมหนึ่งโดยเฉพาะของการอธิบาย / ทำนายความแตกต่าง นี่คือสำรับภาพนิ่งที่ฉันใช้ในหลักสูตรการทำเหมืองข้อมูลเพื่อสอนการถดถอยเชิงเส้นจากมุมทั้งสอง ถึงแม้จะมีการถดถอยเชิงเส้นเพียงอย่างเดียวและด้วยตัวอย่างเล็ก ๆ นี้ปัญหาต่าง ๆ ที่ปรากฏที่นำไปสู่รูปแบบที่แตกต่างกันสำหรับการอธิบายกับเป้าหมายการทำนาย (การเลือกตัวแปรการเลือกตัวแปรการวัดประสิทธิภาพ ฯลฯ )

โกรธ


5
จากความอยากรู้อยากรู้อยากเห็นหรือไม่ว่าในการสนทนาเรื่องการถดถอยของคุณสำหรับการทำนาย (เริ่มต้นหน้า 33) คุณเลือกผู้ทำนาย (ขั้นตอนที่ 1) ก่อนที่จะแบ่งพาร์ติชันออกเป็นชุดข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้อง ฉันคิดว่าขั้นตอนที่มีวัตถุประสงค์และซื่อสัตย์ที่สุดคือการแบ่งตอนแรกแม้กระทั่งก่อนที่จะดู scatterplots (ขั้นตอนที่ 2) หากมีการเลือกรีจีสเตอร์ตามชุดข้อมูลทั้งหมดจะไม่ทำให้ระดับความสำคัญปรากฏเด่นชัดในการทดสอบหลายครั้งแม้ว่าจะนำไปใช้กับข้อมูลการตรวจสอบความถูกต้องในภายหลังหรือไม่
whuber

ฉันคิดว่าคำถามทั่วไปคือว่าคุณทำการแสดงข้อมูลเป็นภาพก่อนที่จะหยุดพักหรือไม่ เมื่อชุดข้อมูลมีขนาดใหญ่ก็ไม่เป็นไร ด้วยตัวอย่างเล็ก ๆ การใช้การมองภาพเพื่อเลือกตัวทำนายนั้นเป็นอันตรายอย่างแน่นอน ในสไลด์ของฉันฉันไม่ได้หมายถึงการใช้การสร้างภาพเพื่อเลือกตัวแปร "การเลือกทำนาย" โดยทั่วไปคือ "เลือกชุดที่มีศักยภาพของการพยากรณ์ที่เหมาะสม" เพิ่มเติมเกี่ยวกับการรวมความรู้โดเมนสำหรับการเลือกชุดที่เหมาะสม
Galit Shmueli

อย่างต่อเนื่องในหัวข้อ "เพื่ออธิบายหรือทำนาย" ผมมีคำถามที่เกี่ยวข้องที่นี่ ฉันจะขอบคุณถ้าคุณดูเพราะคำถามส่วนใหญ่จะขึ้นอยู่กับกระดาษของคุณ
Richard Hardy

ศาสตราจารย์ Shmueli คุณพูดในหน้า 291 ของบทความของคุณในหัวข้อนี้ว่าคุณกำลังพิจารณาเพียง 'การทำนายที่ไม่หยุดนิ่ง' ตามที่กำหนดโดย Geisser, 1993 ฉันจะไปหาคำนิยามที่สมบูรณ์ของการทำนายที่ไม่หยุดนิ่งได้ที่ไหน ดีใจที่ได้โพสต์ใหม่เช่นกัน แต่คิดว่าฉันจะถามที่นี่ก่อน
user0

11

ตัวอย่าง: ตัวอย่างคลาสสิกที่ฉันได้เห็นอยู่ในบริบทของการทำนายประสิทธิภาพของมนุษย์ การรับรู้ความสามารถของตนเอง (เช่นระดับที่คนคิดว่าพวกเขาสามารถทำงานได้ดี) มักจะเป็นตัวทำนายผลงานที่แข็งแกร่ง ดังนั้นหากคุณใส่ความสามารถของตนเองในการถดถอยหลายครั้งพร้อมกับตัวแปรอื่น ๆ เช่นสติปัญญาและระดับประสบการณ์ก่อนหน้านี้คุณมักจะพบว่าการรับรู้ความสามารถของตนเองเป็นตัวพยากรณ์ที่แข็งแกร่ง

สิ่งนี้ทำให้นักวิจัยบางคนแนะนำว่าการรับรู้ความสามารถของตนเองเป็นสาเหตุของการทำงาน และการแทรกแซงที่มีประสิทธิภาพนั้นเป็นสิ่งที่มุ่งเน้นการเพิ่มความรู้สึกของการรับรู้ความสามารถของตนเอง

อย่างไรก็ตามแบบจำลองเชิงทฤษฎีทางเลือกเห็นว่าการรับรู้ความสามารถของตัวเองส่วนใหญ่เป็นผลมาจากการปฏิบัติงาน คือถ้าคุณเป็นคนดีคุณก็จะรู้ ในกรอบการแทรกแซงนี้ควรเน้นที่การเพิ่มความสามารถที่แท้จริงและไม่รับรู้ความสามารถ

ดังนั้นหากรวมถึงตัวแปรเช่นการรับรู้ความสามารถของตนเองอาจเพิ่มการทำนาย แต่ถ้าคุณใช้โมเดลการรับรู้ความสามารถของตนเองเป็นผลก็ไม่ควรรวมเป็นตัวทำนายหากจุดประสงค์ของโมเดลคือการอธิบายกระบวนการเชิงสาเหตุที่มีอิทธิพลต่อประสิทธิภาพ

หลักสูตรนี้ทำให้เกิดปัญหาของวิธีการพัฒนาและตรวจสอบแบบจำลองเชิงทฤษฎีเชิงสาเหตุ เรื่องนี้ต้องอาศัยการศึกษาหลาย ๆ อย่างชัดเจนโดยเฉพาะอย่างยิ่งกับการจัดการทดลองและการโต้แย้งกันเกี่ยวกับกระบวนการแบบไดนามิก

ใกล้เคียงกับปลาย : ฉันได้เห็นปัญหาที่คล้ายกันเมื่อนักวิจัยมีความสนใจในผลกระทบของสาเหตุปลายและใกล้เคียง สาเหตุใกล้เคียงมักจะทำนายได้ดีกว่าสาเหตุส่วนปลาย อย่างไรก็ตามความสนใจในเชิงทฤษฎีอาจอยู่ในการทำความเข้าใจวิธีการที่สาเหตุส่วนปลายและส่วนที่เหลือทำงาน

ปัญหาการเลือกตัวแปร : สุดท้ายปัญหาใหญ่ในการวิจัยทางสังคมศาสตร์คือปัญหาการเลือกตัวแปร ในการศึกษาใดก็ตามมีตัวแปรจำนวนอนันต์ที่สามารถวัดได้ แต่ไม่ใช่ ดังนั้นการตีความแบบจำลองต้องพิจารณาความหมายของสิ่งนี้เมื่อทำการตีความทางทฤษฎี


นอกจากนี้ยังมีปัญหาในสังคมศาสตร์ของ "สมมติฐานอ่อนแอ" (เช่นผลกระทบเป็นบวกกับลบ) และในตัวอย่าง "การรับรู้ความสามารถของตนเอง" คุณสามารถมองว่าเป็นตัวทำนายผลการปฏิบัติงานภายในที่แต่ละคนได้สร้างขึ้น ดังนั้นจึงอาจคล้ายกับการใช้การทำนาย "กล่องดำ" เป็นตัวแปรอธิบาย
ความน่าจะเป็นของระบบ

9

การสร้างแบบจำลองทางสถิติ: สองวัฒนธรรม (2001) โดย L. Breiman คือบางทีกระดาษที่ดีที่สุดในจุดนี้ ข้อสรุปหลักของเขา (ดูคำตอบจากนักสถิติที่มีชื่อเสียงคนอื่น ๆ ในตอนท้ายของเอกสาร) มีดังนี้:

  • "ความแม่นยำในการทำนายที่สูงขึ้นเกี่ยวข้องกับข้อมูลที่เชื่อถือได้มากขึ้นเกี่ยวกับกลไกข้อมูลพื้นฐานความแม่นยำในการทำนายที่อ่อนแอสามารถนำไปสู่ข้อสรุปที่น่าสงสัยได้"
  • "ตัวแบบอัลกอริทึมสามารถให้ความแม่นยำในการคาดการณ์ได้ดีกว่าตัวแบบข้อมูลและให้ข้อมูลที่ดีกว่าเกี่ยวกับกลไกพื้นฐาน"

3
เพียงเชื่อมโยงกับคำถามที่เกี่ยวข้องก่อนหน้านี้: The Two Cultures: สถิติเทียบกับการเรียนรู้ของเครื่อง?
chl

3
ปัญหาของตัวแบบอัลกอริทึมคือพวกมันเข้าใจยาก สิ่งนี้ทำให้ยากต่อการวินิจฉัยและแก้ไขปัญหาที่อาจเกิดขึ้น แบบจำลองโครงสร้างนั้นประเมินได้ง่ายกว่าเพราะคุณรู้ว่าแต่ละองค์ประกอบควรมีหน้าตาเป็นอย่างไร
ความน่าจะเป็นทางการ

8

ฉันไม่ได้อ่านงานของเธอเกินกว่านามธรรมของเอกสารที่เชื่อมโยง แต่ความรู้สึกของฉันคือความแตกต่างระหว่าง "คำอธิบาย" และ "การทำนาย" ควรถูกโยนทิ้งไปและแทนที่ด้วยความแตกต่างระหว่างจุดมุ่งหมายของผู้ปฏิบัติงานซึ่งเป็นทั้ง " สาเหตุ "หรือ" ทำนาย " โดยทั่วไปแล้วฉันคิดว่า "คำอธิบาย" เป็นคำที่คลุมเครือซึ่งไม่ได้มีความหมายอะไรเลย ตัวอย่างเช่นกฎของฮุคเป็นคำอธิบายหรือการคาดการณ์หรือไม่? ในอีกด้านหนึ่งของสเปกตรัมระบบการแนะนำที่แม่นยำถูกต้องคาดการณ์แบบจำลองเชิงสาเหตุที่ดีของการจัดอันดับรายการที่ชัดเจนหรือไม่ ฉันคิดว่าเราทุกคนมีสัญชาตญาณว่าเป้าหมายของวิทยาศาสตร์คือการอธิบายในขณะที่เป้าหมายของเทคโนโลยีคือการทำนาย และสัญชาตญาณนี้จะหลงทางเมื่อพิจารณาถึงเครื่องมือที่เราใช้เช่นอัลกอริทึมการเรียนรู้แบบมีผู้สอน

ต้องบอกว่าทั้งหมดอาจเป็นคำเดียวที่ฉันจะนำไปใช้กับแบบจำลองสามารถตีความได้ การถดถอยมักจะตีความได้ อวนที่มีหลายชั้นมักไม่เป็นเช่นนั้น ฉันคิดว่าบางครั้งผู้คนคิดว่าไร้เดียงสาว่าแบบจำลองที่ตีความได้นั้นให้ข้อมูลเชิงสาเหตุในขณะที่แบบจำลองที่ตีความไม่ได้จะให้ข้อมูลเชิงทำนายเท่านั้น ทัศนคติแบบนี้ดูเหมือนจะสับสนกับฉัน


7

ฉันยังไม่ชัดเจนว่าคำถามนี้เป็นอย่างไร ต้องบอกว่าในใจของฉันความแตกต่างพื้นฐานระหว่างแบบจำลองการทำนายและอธิบายคือความแตกต่างในการมุ่งเน้นของพวกเขา

แบบจำลองอธิบาย

xYβ

แบบจำลองการทำนาย

เป้าหมายของแบบจำลองการคาดการณ์คือการทำนายบางสิ่ง ดังนั้นพวกเขาจึงมีแนวโน้มที่จะให้ความสำคัญกับ parsimony หรือความเรียบง่ายน้อยลง แต่มีความสามารถในการทำนายตัวแปรตาม

อย่างไรก็ตามข้างต้นนั้นค่อนข้างที่จะมีความแตกต่างของแบบจำลองเนื่องจากสามารถใช้แบบจำลองเพื่อการทำนายและบางครั้งแบบจำลองการทำนายก็สามารถอธิบายบางสิ่งได้


+1 สำหรับการกล่าวถึงความซับซ้อนซึ่งไม่ได้กล่าวถึงโดยตรงจากคำตอบยอดนิยม อย่างไรก็ตามความท้าทายที่เกิดขึ้นเมื่อมีการใช้แบบจำลองที่อธิบายไว้สำหรับการแทรกแซง เราจะมั่นใจได้อย่างไรว่าค่าสัมประสิทธิ์โดยประมาณนั้นไม่ได้ลำเอียงซึ่งเป็นปัญหาที่พบบ่อยที่เกิดจากความประหยัด
Thomas Speidel

5

อย่างที่คนอื่นพูดไปแล้วความแตกต่างนั้นค่อนข้างไร้ความหมายยกเว้นในส่วนที่เกี่ยวข้องกับเป้าหมายของนักวิจัย

Brad Efron หนึ่งในนักวิจารณ์บนกระดาษThe Cultures สองคนทำการสังเกตต่อไปนี้ (ตามที่กล่าวไว้ในคำถามก่อนหน้านี้ ):

การทำนายด้วยตัวเองนั้นเพียงพอในบางครั้งเท่านั้น ที่ทำการไปรษณีย์มีความสุขกับวิธีการใด ๆ ที่ทำนายที่อยู่ที่ถูกต้องจากการเขียนด้วยลายมือ Peter Gregory ทำการศึกษาของเขาเพื่อจุดประสงค์ในการคาดการณ์ แต่ยังเพื่อทำความเข้าใจพื้นฐานทางการแพทย์ของโรคตับอักเสบ การสำรวจทางสถิติส่วนใหญ่มีการระบุปัจจัยสาเหตุเป็นเป้าหมายสูงสุด

เขตข้อมูลบางอย่าง (เช่นยา) วางน้ำหนักอย่างมากในการปรับแบบจำลองเป็นกระบวนการอธิบาย (การกระจาย ฯลฯ ) เป็นวิธีการทำความเข้าใจกระบวนการพื้นฐานที่สร้างข้อมูล สาขาอื่น ๆ มีความกังวลน้อยกว่าและจะมีความสุขกับโมเดล "กล่องดำ" ที่ประสบความสำเร็จในการทำนายสูงมาก สิ่งนี้สามารถทำงานในกระบวนการสร้างแบบจำลองได้เช่นกัน


5

ด้วยความเคารพคำถามนี้จะเน้นที่ดีขึ้น ผู้คนเคยใช้คำหนึ่งคำเมื่ออีกคำหนึ่งเหมาะสมกว่าหรือไม่ ใช่แน่นอน บางครั้งก็ชัดเจนเพียงพอจากบริบทหรือคุณไม่ต้องการอวดความรู้ บางครั้งผู้คนแค่เลอะเทอะหรือขี้เกียจในศัพท์ของพวกเขา นี่เป็นเรื่องจริงสำหรับหลาย ๆ คนและฉันก็ไม่ได้ดีขึ้นอย่างแน่นอน

สิ่งที่มีค่าที่อาจเกิดขึ้นที่นี่ (พูดคุยคำอธิบายกับการทำนายประวัติย่อ) คือการชี้แจงความแตกต่างระหว่างสองแนวทาง ในระยะสั้นความแตกต่างมุ่งเน้นไปที่บทบาทของเวรกรรม. หากคุณต้องการเข้าใจพลังบางอย่างในโลกและอธิบายว่าทำไมบางอย่างเกิดขึ้นอย่างที่มันเป็นคุณต้องระบุความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรที่เกี่ยวข้อง ในการทำนายคุณสามารถละเว้นสาเหตุได้ ตัวอย่างเช่นคุณสามารถทำนายผลกระทบจากความรู้เกี่ยวกับสาเหตุของมัน คุณสามารถทำนายการมีอยู่ของสาเหตุจากความรู้ที่เกิดขึ้น และคุณสามารถทำนายระดับผลกระทบโดยประมาณได้จากความรู้เกี่ยวกับผลกระทบอื่นที่เกิดจากสาเหตุเดียวกัน ทำไมบางคนต้องการที่จะสามารถทำเช่นนี้? เพื่อเพิ่มความรู้ในสิ่งที่อาจเกิดขึ้นในอนาคตเพื่อให้พวกเขาสามารถวางแผนได้อย่างเหมาะสม ตัวอย่างเช่นคณะกรรมการพิจารณาทัณฑ์บนอาจต้องการที่จะคาดการณ์ความน่าจะเป็นที่ผู้กระทำความผิดจะได้รับการชดเชยหากมีการผ่อนผัน อย่างไรก็ตามนี่ไม่เพียงพอสำหรับคำอธิบาย แน่นอน, การประมาณค่าความสัมพันธ์เชิงสาเหตุที่แท้จริงระหว่างสองตัวแปรอาจเป็นเรื่องยากมาก นอกจากนี้แบบจำลองที่จับภาพ (สิ่งที่คิดว่าเป็น) ความสัมพันธ์เชิงสาเหตุที่แท้จริงมักจะแย่กว่าสำหรับการคาดการณ์ แล้วทำไมต้องเป็นเช่นนั้น ประการแรกสิ่งนี้ส่วนใหญ่จะทำในวิทยาศาสตร์ที่มีการทำความเข้าใจเพื่อประโยชน์ของตัวเอง ประการที่สองหากเราสามารถเลือกสาเหตุที่แท้จริงและสามารถพัฒนาความสามารถในการส่งผลกระทบต่อพวกเขาเราสามารถออกแรงอิทธิพลเหนือผลกระทบ

สำหรับกลยุทธ์การสร้างแบบจำลองทางสถิตินั้นไม่แตกต่างกันมากนัก ความแตกต่างส่วนใหญ่อยู่ที่วิธีดำเนินการศึกษา หากเป้าหมายของคุณคือสามารถคาดการณ์ได้ให้ค้นหาว่าจะมีข้อมูลใดบ้างสำหรับผู้ใช้โมเดลเมื่อพวกเขาจะต้องทำการคาดการณ์ ข้อมูลที่พวกเขาจะไม่สามารถเข้าถึงนั้นไม่มีค่า หากพวกเขาต้องการที่จะสามารถทำนายได้ในระดับหนึ่ง (หรือภายในช่วงแคบ ๆ ) ของผู้ทำนายพยายามจัดกึ่งกลางช่วงของตัวอย่างที่มีการทำนายไว้ในระดับนั้น ตัวอย่างเช่นหากคณะกรรมการพิจารณาทัณฑ์บนส่วนใหญ่ต้องการทราบเกี่ยวกับอาชญากรที่มีความเชื่อมั่นใหญ่ 2 ประการคุณอาจรวบรวมข้อมูลเกี่ยวกับอาชญากรที่มีความเชื่อมั่น 1, 2 และ 3 ในอีกทางหนึ่งการประเมินสถานะสาเหตุของตัวแปรโดยทั่วไปต้องมีการทดสอบ นั่นคือ, หน่วยการทดลองจะต้องได้รับมอบหมายโดยการสุ่มถึงระดับที่กำหนดไว้ล่วงหน้าของตัวแปรอธิบาย หากมีความกังวลเกี่ยวกับลักษณะของผลกระทบเชิงสาเหตุที่เกิดขึ้นกับตัวแปรอื่น ๆ หรือไม่ตัวแปรนั้นจะต้องรวมอยู่ในการทดลอง หากไม่สามารถทำการทดลองจริงได้คุณต้องเผชิญกับสถานการณ์ที่ยากลำบากมากขึ้นสถานการณ์ที่ซับซ้อนเกินไปที่จะเข้าไปที่นี่


1
(x,Y,Z,โวลต์)Z(x,Y,โวลต์)ของการวิเคราะห์ ในย่อหน้าสุดท้ายของคุณมีหลายบัญชีในไซต์นี้ที่ยืนยันถึงความแตกต่างในกลยุทธ์
whuber

1
คุณพูดถูกเกี่ยวกับวัตถุประสงค์ของการศึกษา ฉันคิดว่าฉันไม่ได้อธิบายอย่างชัดเจน (ฉันแค่พูดถึงสิ่งที่คุณต้องการบรรลุ) นอกจากนี้ยังเป็นความจริงที่คำอธิบายไม่จำเป็นต้องเกี่ยวข้องกับความเป็นเหตุเป็นผล - สิ่งที่คล้ายคลึงกับความเหมาะสมเป็นอย่างดี (เช่นขนาด - กรณีปริมาณเป็นหนึ่งในความหมายเชิงตรรกะ / คณิตศาสตร์) อย่างไรก็ตามการสร้างแบบจำลองคำอธิบายส่วนใหญ่มุ่งเน้นไปที่เวรกรรม ฉันคิดว่าฉันคิดว่าฉันสามารถข้ามสิ่งนั้นไปเพื่อความเรียบง่าย ท้ายที่สุดกลยุทธ์แตกต่างกันระหว่างการออกแบบการศึกษาและการรวบรวมข้อมูล แต่การถอย y บน x นั้นค่อนข้างเหมือนกัน
gung

ขอบคุณสำหรับการตอบกลับ. จากการแลกเปลี่ยนอื่น ๆ ในเว็บไซต์นี้ฉันได้เรียนรู้ที่จะเข้าใจคำแถลงทั่วไปเช่น "การสร้างแบบจำลองที่มีคำอธิบายส่วนใหญ่เกี่ยวกับสาเหตุ" เพื่อสะท้อนภูมิหลังและประสบการณ์ของนักเขียนมากกว่าที่จะเป็นจริงอย่างแท้จริง ในวิทยาศาสตร์ทางกายภาพและ "ยาก" คำพูดนี้อาจถูกต้อง แต่ในทางสังคมและวิทยาศาสตร์ "อ่อน" ฉันสงสัยว่าผู้ปฏิบัติงานจะทำให้การเรียกร้องที่แข็งแกร่ง บ่อยครั้งที่ความจริงแล้วความสัมพันธ์ภายใต้การศึกษาเชื่อว่ามีสาเหตุที่ซ่อนอยู่ทั่วไป แต่ไม่ได้สะท้อนถึงสาเหตุโดยตรงระหว่าง regressors และ regressand
whuber

@ ความจริงที่ว่ามันเป็นความจริงที่ความคิดของฉันได้รับอิทธิพลจากภูมิหลังและประสบการณ์ของฉัน หากคำตอบนี้ไม่มีประโยชน์ (ฉันสังเกตว่าไม่ได้รับการลงคะแนนใด ๆ ) ฉันสามารถลบได้ มีคนอื่น ๆ ให้คำตอบซึ่งครอบคลุมความคิดที่ฉันต้องการสื่อ
gung

@whuber - ตัวอย่างที่ดีของสาเหตุที่อ่อนคือ "การสูบบุหรี่ทำให้เกิดมะเร็ง" - แม้ว่าฉันแน่ใจว่าคุณสามารถพบนักสูบบุหรี่ที่ไม่เป็นมะเร็ง ความคิดของเวรกรรมนั้นเชื่อมโยงกับเวลาของเหตุการณ์ สาเหตุต้องเกิดขึ้นก่อนเอฟเฟกต์ - ซึ่งอธิบายว่าทำไมตัวอย่างลูกบาศก์ไม่สมเหตุสมผล
ความน่าจะเป็นทาง

4

คำตอบส่วนใหญ่มีส่วนช่วยในการอธิบายการสร้างแบบจำลองสำหรับคำอธิบายและการสร้างแบบจำลองสำหรับการทำนายคืออะไรและทำไมจึงแตกต่างกัน อะไรคือสิ่งที่ไม่ชัดเจนป่านนี้เป็นวิธีการที่แตกต่างกัน ดังนั้นฉันคิดว่าฉันจะเสนอตัวอย่างที่อาจเป็นประโยชน์

สมมติว่าเรามีส่วนร่วมในการสร้างแบบจำลองวิทยาลัยเกรดเฉลี่ยเป็นหน้าที่ของการเตรียมความพร้อมทางวิชาการ มาตรการของการเตรียมความพร้อมด้านวิชาการเรามี:

  1. คะแนนการทดสอบความถนัด;
  2. HS เกรดเฉลี่ย; และ
  3. จำนวนการทดสอบ AP ที่ผ่านไปแล้ว

กลยุทธ์สำหรับการทำนาย

หากเป้าหมายคือการทำนายฉันอาจใช้ตัวแปรเหล่านี้ทั้งหมดพร้อมกันในโมเดลเชิงเส้นและข้อกังวลหลักของฉันคือความแม่นยำในการทำนาย ตัวแปรใดที่พิสูจน์ว่ามีประโยชน์มากที่สุดในการทำนายวิทยาลัยเกรดเฉลี่ยจะรวมอยู่ในรูปแบบสุดท้าย

กลยุทธ์สำหรับคำอธิบาย

หากเป้าหมายคือคำอธิบายฉันอาจกังวลเกี่ยวกับการลดข้อมูลและคิดอย่างรอบคอบเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรอิสระ ข้อกังวลหลักของฉันคือการตีความค่าสัมประสิทธิ์

ตัวอย่าง

ในปัญหาหลายตัวแปรโดยทั่วไปกับตัวทำนายที่สัมพันธ์กันมันจะไม่ใช่เรื่องแปลกที่จะสังเกตค่าสัมประสิทธิ์การถดถอยที่ "ไม่คาดคิด" เนื่องจากความสัมพันธ์ระหว่างตัวแปรอิสระมันไม่น่าแปลกใจที่จะเห็นค่าสัมประสิทธิ์บางส่วนสำหรับตัวแปรเหล่านี้บางอย่างที่ไม่ได้อยู่ในทิศทางเดียวกับความสัมพันธ์แบบศูนย์สั่งและอาจดูเหมือนง่ายและยากที่จะอธิบาย

ตัวอย่างเช่นสมมติว่าแบบจำลองแสดงให้เห็นว่า (ด้วยคะแนนการทดสอบความถนัดและจำนวนการทดสอบ AP เสร็จสมบูรณ์โดยคำนึงถึงความสำเร็จแล้ว) GPA ระดับมัธยมปลายที่สูงขึ้นเกี่ยวข้องกับ GPAs ของวิทยาลัยที่ ต่ำกว่า ซึ่งไม่เป็นปัญหาสำหรับการคาดการณ์ แต่มันก็ไม่ก่อให้เกิดปัญหาสำหรับรูปแบบการอธิบายที่ความสัมพันธ์ดังกล่าวเป็นเรื่องยากที่จะตีความ แบบจำลองนี้อาจให้การคาดการณ์ตัวอย่างที่ดีที่สุด แต่ก็มีน้อยที่จะช่วยให้เราเข้าใจความสัมพันธ์ระหว่างการเตรียมความพร้อมด้านวิชาการและ GPA ของวิทยาลัย

แต่กลยุทธ์การอธิบายอาจหารูปแบบของการลดตัวแปรเช่นองค์ประกอบหลักการวิเคราะห์ปัจจัยหรือ SEM เพื่อ:

  1. มุ่งเน้นไปที่ตัวแปรที่เป็นตัวชี้วัดที่ดีที่สุดของ "ผลการเรียน" และแบบจำลอง GPA ของวิทยาลัยในตัวแปรตัวเดียว หรือ
  2. ใช้คะแนนปัจจัย / ตัวแปรแฝงที่ได้จากการรวมกันของทั้งสามมาตรการของการเตรียมการทางวิชาการมากกว่าตัวแปรดั้งเดิม

กลยุทธ์เช่นนี้อาจลดพลังการทำนายของโมเดล แต่พวกเขาอาจเข้าใจได้ดีขึ้นว่าการเตรียมความพร้อมด้านวิชาการเกี่ยวข้องกับวิทยาลัยเกรดเฉลี่ย


เกี่ยวกับเครื่องหมายตอบโต้ฉันสงสัยว่าเป็นเพราะสัญชาตญาณของเราแปลความแปรปรวนร่วมผิดเหมือนผลหลักเหมือนกับว่ามันซ้อนกันหรือเอฟเฟกต์ปฏิสัมพันธ์
ความน่าจะเป็นทาง

3

ฉันต้องการนำเสนอมุมมองที่เน้นโมเดลในเรื่องนี้

การทำนายแบบจำลองคือสิ่งที่เกิดขึ้นในการวิเคราะห์ส่วนใหญ่ ตัวอย่างเช่นนักวิจัยตั้งค่าแบบจำลองการถดถอยพร้อมตัวพยากรณ์จำนวนมาก ค่าสัมประสิทธิ์การถดถอยนั้นเป็นตัวแทนของการเปรียบเทียบการทำนายระหว่างกลุ่ม ด้านการทำนายนั้นมาจากแบบจำลองความน่าจะเป็น: การอนุมานนั้นกระทำโดยคำนึงถึงแบบจำลองที่มีประชากรมากซึ่งอาจทำให้เกิดประชากรหรือกลุ่มตัวอย่างที่สังเกตได้ จุดประสงค์ของรุ่นนี้คือการทำนายผลลัพธ์ใหม่สำหรับหน่วยที่เกิดขึ้นจากการมีประชากรมากนี้ บ่อยครั้งนี่เป็นเป้าหมายที่ไร้สาระเพราะสิ่งต่าง ๆ เปลี่ยนแปลงตลอดเวลาโดยเฉพาะในโลกสังคม หรือเนื่องจากโมเดลของคุณเกี่ยวกับหน่วยที่หายากเช่นประเทศและคุณไม่สามารถวาดตัวอย่างใหม่ได้ ประโยชน์ของรูปแบบในกรณีนี้เหลือไว้เพื่อชื่นชมนักวิเคราะห์

เมื่อคุณพยายามที่จะสรุปผลลัพธ์ให้กับกลุ่มอื่นหรือหน่วยในอนาคตการคาดการณ์นี้จะยังคงอยู่ แต่จะเป็นแบบอื่น เราอาจเรียกมันว่าการพยากรณ์ จุดสำคัญคือพลังการทำนายของแบบจำลองโดยประมาณนั้นเป็นค่าเริ่มต้นของลักษณะเชิงพรรณนา คุณเปรียบเทียบผลลัพธ์ระหว่างกลุ่มและตั้งสมมติฐานรูปแบบความน่าจะเป็นสำหรับการเปรียบเทียบเหล่านี้ แต่คุณไม่สามารถสรุปได้ว่าการเปรียบเทียบเหล่านี้เป็นผลเชิงสาเหตุ

เหตุผลก็คือว่ากลุ่มคนเหล่านี้อาจได้รับจากอคติเลือก นั่นคือพวกเขาอาจมีคะแนนสูงกว่าในผลของความสนใจโดยไม่คำนึงถึงการรักษา (การแทรกแซงสาเหตุสมมุติ) หรืออาจมีขนาดเอฟเฟกต์การรักษาแตกต่างจากกลุ่มอื่น นี่คือเหตุผลว่าทำไมโดยเฉพาะอย่างยิ่งสำหรับข้อมูลเชิงสังเกตแบบจำลองโดยประมาณโดยทั่วไปเกี่ยวกับการเปรียบเทียบเชิงทำนายและไม่ใช่คำอธิบาย คำอธิบายเกี่ยวกับการระบุและการประเมินผลกระทบเชิงสาเหตุและต้องการการทดลองที่ออกแบบมาอย่างดีหรือการใช้ตัวแปรเครื่องมืออย่างรอบคอบ ในกรณีนี้การเปรียบเทียบการทำนายถูกตัดออกจากอคติการเลือกใด ๆ และแสดงถึงผลกระทบเชิงสาเหตุ แบบจำลองอาจถูกมองว่าเป็นคำอธิบาย

ฉันพบว่าการคิดในแง่เหล่านี้มักจะอธิบายสิ่งที่ฉันทำจริง ๆ เมื่อตั้งค่าแบบจำลองสำหรับข้อมูลบางอย่าง


+1 มีข้อมูลที่ดีที่นี่ ฉันจะระมัดระวังเกี่ยวกับคำแถลงว่า "การสร้างแบบจำลองการทำนายเป็นสิ่งที่เกิดขึ้นในการวิเคราะห์ส่วนใหญ่" อย่างไรก็ตาม การสร้างแบบจำลองการทำนายจะพบได้บ่อยหรือไม่นั้นจะแตกต่างกันไปตามระเบียบวินัยและอื่น ๆ ฉันเดาว่าการจำลองแบบส่วนใหญ่ในสถาบันการศึกษานั้นมีคำอธิบายและการทำแบบจำลอง / การทำเหมืองข้อมูลจำนวนมากที่ทำในภาคเอกชน เป็นการทำนาย ฉันอาจจะผิดได้ง่าย แต่มันยากที่จะบอกว่านิรนัยซึ่งเกิดขึ้นเกือบตลอดเวลา
gung

1
ในมุมมองของฉันการสร้างแบบจำลองของข้อมูลเชิงสังเกตการณ์ส่วนใหญ่นั้นสามารถคาดเดาได้แม้ว่าเป้าหมายจะเป็นคำอธิบายก็ตาม หากคุณไม่สุ่มตัวอย่างที่มาของการรักษาและทำให้เกิดการเปลี่ยนแปลงในการตั้งค่าการทดลองสัมประสิทธิ์การถดถอยของคุณจะมีเพียงค่าพรรณนานั่นคือพวกเขาให้วิธีการเปรียบเทียบการทำนาย ตัวอย่างเช่นคุณสามารถทำนายความสำเร็จที่โรงเรียนตามลักษณะทางประชากร แต่นั่นไม่ได้หมายความว่าข้อมูลประชากรเหล่านี้เป็นผลเชิงสาเหตุที่อธิบายได้ เหตุผลก็คือการคาดการณ์เชิงเปรียบเทียบมีความเอนเอียงในการคัดเลือก
ไลโอเนลเฮนรี

1

เราสามารถเรียนรู้ได้มากกว่าที่เราคิดจากโมเดลกล่อง "พยากรณ์" กุญแจสำคัญในการใช้งานการวิเคราะห์ความไวและการจำลองต่าง ๆ เพื่อทำความเข้าใจว่าแบบจำลอง OUTPUT ได้รับผลกระทบจากการเปลี่ยนแปลงในพื้นที่ INPUT อย่างไร ในแง่นี้แม้แต่ตัวแบบทำนายอย่างหมดจดสามารถให้ข้อมูลเชิงลึกที่อธิบายได้ นี่เป็นจุดที่ชุมชนนักวิจัยมักมองข้ามหรือเข้าใจผิด เพียงเพราะเราไม่เข้าใจว่าทำไมอัลกอริธึมจึงไม่ได้หมายความว่าอัลกอริทึมขาดพลังในการอธิบาย ...

โดยรวมจากมุมมองหลักการตอบกลับสั้น ๆ น่าจะเป็นของถูกต้องอย่างแน่นอน ...


มันไม่มีความชัดเจนว่า "ข้อมูลเชิงลึกที่อธิบาย" สามารถรวบรวมได้ด้วยวิธีนี้ถ้าด้วยวลีดังกล่าวคุณแสดงถึงความเป็นเหตุเป็นผล
gung

1

มีความแตกต่างระหว่างสิ่งที่เธอเรียกว่าคำอธิบายการใช้งานและการทำนายในสถิติ เธอบอกว่าเราควรรู้ทุกครั้งที่เราใช้อันใดอันหนึ่งซึ่งอันที่จริงถูกใช้งานอยู่ เธอบอกว่าเรามักจะผสมให้เข้ากันจึงconflation

ฉันเห็นด้วยว่าในการใช้งานทางสังคมศาสตร์ความแตกต่างนั้นสมเหตุสมผล แต่ในวิทยาศาสตร์ธรรมชาติพวกเขาเป็นและควรจะเหมือนกัน นอกจากนี้ฉันเรียกพวกเขาว่าการอนุมานกับการคาดการณ์และยอมรับว่าในสังคมศาสตร์เราไม่ควรรวมมันเข้าด้วยกัน

ฉันจะเริ่มต้นด้วยวิทยาศาสตร์ธรรมชาติ ในวิชาฟิสิกส์เรากำลังมุ่งเน้นไปที่การอธิบายเรากำลังพยายามที่จะเข้าใจว่าโลกทำงานอย่างไรสิ่งที่ทำให้เกิดอะไรเป็นต้นดังนั้นการมุ่งเน้นไปที่เวรกรรมการอนุมานและอื่น ๆ ในอีกด้านหนึ่งการทำนายก็เป็นส่วนหนึ่งของกระบวนการทางวิทยาศาสตร์เช่นกัน ในความเป็นจริงวิธีที่คุณพิสูจน์ทฤษฎีซึ่งอธิบายการสังเกตการณ์ได้ดี (คิดถึงตัวอย่าง) คือการทำนายการสังเกตใหม่จากนั้นตรวจสอบว่าการทำนายนั้นทำงานอย่างไร ทฤษฎีใดก็ตามที่ขาดความสามารถในการทำนายจะมีปัญหาใหญ่ในการได้รับการยอมรับในวิชาฟิสิกส์ นั่นเป็นเหตุผลที่การทดลองเช่นMichelson-Morleyมีความสำคัญมาก

ในสังคมศาสตร์โชคไม่ดีที่ปรากฏการณ์ที่ซ่อนอยู่ไม่แน่นอนไม่สามารถทำซ้ำได้ หากคุณดูการสลายตัวของนิวเคลียสคุณจะได้ผลลัพธ์เหมือนเดิมทุกครั้งที่คุณสังเกตเห็นและผลลัพธ์เดียวกันกับที่ฉันหรือเพื่อนเมื่อหนึ่งร้อยปีก่อนได้รับ ไม่ได้อยู่ในสาขาเศรษฐศาสตร์หรือการเงิน นอกจากนี้ความสามารถในการดำเนินการทดลองมี จำกัด อย่างมากเกือบจะไม่มีอยู่จริงสำหรับการใช้งานจริงทั้งหมดเราสังเกตและทำการสุ่มตัวอย่างเท่านั้นจากการสังเกต ฉันสามารถดำเนินการต่อไปได้ แต่ความคิดที่ว่าปรากฏการณ์ที่เราจัดการนั้นไม่เสถียรมากดังนั้นทฤษฎีของเราจึงไม่ได้มีคุณภาพเช่นเดียวกับในวิชาฟิสิกส์ ดังนั้นหนึ่งในวิธีที่เราจัดการกับสถานการณ์คือการมุ่งเน้นไปที่การอนุมาน (เมื่อคุณพยายามที่จะเข้าใจว่าอะไรเป็นสาเหตุหรือส่งผลกระทบอะไร) หรือการคาดการณ์ (แค่พูดในสิ่งที่คุณคิดว่าจะเกิดขึ้นกับสิ่งนี้


0

แบบจำลองโครงสร้างจะให้คำอธิบายและแบบจำลองการทำนายจะให้การทำนาย ตัวแบบโครงสร้างจะมีตัวแปรแฝง แบบจำลองโครงสร้างเป็นสุดยอดของการวิเคราะห์การถดถอยและปัจจัยพร้อมกัน

ตัวแปรแฝงจะปรากฏในรูปแบบของ collinearity หลายแบบจำลองทำนาย (ถดถอย)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.