กฎง่ายๆสำหรับสถิติ "ทันสมัย"


85

ฉันชอบหนังสือ G Van Belle เกี่ยวกับกฎทางสถิติของ Thumbและข้อผิดพลาดทั่วไปในสถิติ (และวิธีการหลีกเลี่ยง)จาก Phillip I Good และ James W. Hardin ข้อผิดพลาดเหล่านี้จะจัดการกับข้อผิดพลาดทั่วไปเมื่อตีความผลลัพธ์จากการศึกษาเชิงทดลองและเชิงสังเกตการณ์และให้คำแนะนำเชิงปฏิบัติสำหรับการอนุมานเชิงสถิติหรือการวิเคราะห์ข้อมูลเชิงสำรวจ แต่ฉันรู้สึกว่าแนวทาง "ทันสมัย" ค่อนข้างขาดโดยเฉพาะอย่างยิ่งการใช้สถิติการคำนวณและการใช้งานที่เพิ่มขึ้นอย่างต่อเนื่องในหลาย ๆ ด้านหรือการแนะนำเทคนิคจากชุมชนการเรียนรู้ของเครื่องจักรเช่นชีวสถิติคลินิกหรือระบาดวิทยาทางพันธุกรรม

นอกเหนือจากเทคนิคการคำนวณหรือข้อผิดพลาดทั่วไปในการสร้างภาพข้อมูลซึ่งสามารถแก้ไขได้ที่อื่นฉันต้องการถาม: อะไรคือกฎสูงสุดของหัวแม่มือที่คุณอยากจะแนะนำสำหรับการวิเคราะห์ข้อมูลที่มีประสิทธิภาพ? ( หนึ่งกฎต่อคำตอบโปรด )

ฉันกำลังคิดถึงแนวทางที่คุณอาจมอบให้กับเพื่อนร่วมงานนักวิจัยที่ไม่มีพื้นฐานด้านการสร้างแบบจำลองทางสถิติที่ดีหรือนักเรียนในระดับกลางถึงระดับสูง สิ่งนี้อาจเกี่ยวข้องกับขั้นตอนต่าง ๆ ของการวิเคราะห์ข้อมูลเช่นกลยุทธ์การสุ่มตัวอย่างการเลือกคุณสมบัติหรือการสร้างแบบจำลองการเปรียบเทียบแบบจำลองการประมาณค่าภายหลัง ฯลฯ

คำตอบ:


62

อย่าลืมทำการตรวจสอบข้อมูลพื้นฐานก่อนที่จะเริ่มการวิเคราะห์ โดยเฉพาะอย่างยิ่งดูพล็อตกระจายของตัวแปรทุกตัวที่คุณต้องการวิเคราะห์กับหมายเลข ID วันที่ / เวลาของการรวบรวมข้อมูลหรือคล้ายกัน ตามักจะสามารถหยิบรูปแบบที่เปิดเผยปัญหาเมื่อสถิติสรุปไม่แสดงอะไรผิดปกติ และถ้าคุณจะใช้บันทึกหรือการแปลงอื่นสำหรับการวิเคราะห์ก็ใช้มันสำหรับพล็อต


6
ฉันเรียนรู้วิธีนี้อย่างหนัก สองครั้ง
onestop

2
ใช่ ดูก่อนที่คุณจะกระโดด กรุณาดูที่ข้อมูล
vqv

7
การตรวจสอบด้วยภาพของข้อมูลสามารถขยายความผิดพลาดประเภทที่ I หากการตัดสินใจถูกทำขึ้นภายหลัง ฉันมักจะทำการวิเคราะห์แบบยืนยันตามที่กำหนดไว้ล่วงหน้าและรวมผลลัพธ์ที่ได้รับผลกระทบจากการตรวจสอบเป็นการสำรวจเชิงสำรวจหรือการวิเคราะห์ความอ่อนไหว
AdamO

51

เก็บการวิเคราะห์ของคุณทำซ้ำได้ ผู้ตรวจสอบหรือหัวหน้าของคุณหรือคนอื่นจะถามคุณว่าผลลัพธ์ของคุณมาถึงคุณอย่างแน่นอน - อาจเป็นเวลาหกเดือนหรือมากกว่าหลังจากที่คุณทำการวิเคราะห์ คุณจะจำไม่ได้ว่าคุณล้างข้อมูลอย่างไรคุณวิเคราะห์อะไรทำไมคุณถึงเลือกรุ่นที่คุณใช้ ... และการสร้างใหม่ทั้งหมดนี้เป็นความเจ็บปวด

ข้อสรุป: ใช้ภาษาสคริปต์บางชนิดใส่ความคิดเห็นในสคริปต์วิเคราะห์ของคุณและเก็บไว้ สิ่งที่คุณใช้ (R, SAS, Stata หรืออะไรก็ตาม) มีความสำคัญน้อยกว่าการมีสคริปต์ที่ทำซ้ำได้อย่างสมบูรณ์ ปฏิเสธสภาพแวดล้อมที่เป็นไปไม่ได้หรืออึดอัดใจ


24
หากคุณกำลังจะใช้ R ฉันขอแนะนำให้ฝังรหัส R ในเอกสาร Sweave ที่สร้างรายงานของคุณ วิธีนี้รหัส R จะอยู่ในรายงาน
John D. Cook

36

ไม่มีอาหารกลางวันฟรี

ส่วนใหญ่ของความล้มเหลวทางสถิติถูกสร้างขึ้นโดยการคลิกปุ่มเงาขนาดใหญ่ที่เรียกว่า "คำนวณความสำคัญ" โดยไม่คำนึงถึงภาระของสมมติฐานที่ซ่อนอยู่

ทำซ้ำ

แม้ว่าจะมีการโทรไปยังเครื่องกำเนิดไฟฟ้าแบบสุ่มเพียงครั้งเดียว แต่ก็อาจมีโชคหรือโชคไม่ดีดังนั้นจึงข้ามไปสู่ข้อสรุปที่ผิด


29

หนึ่งกฎต่อคำตอบ ;-)

พูดคุยกับนักสถิติก่อนดำเนินการศึกษา ถ้าเป็นไปได้ก่อนสมัครขอรับทุน ช่วยเขา / เธอเข้าใจปัญหาที่คุณกำลังศึกษารับข้อมูลเกี่ยวกับวิธีการวิเคราะห์ข้อมูลที่คุณกำลังรวบรวมและคิดเกี่ยวกับสิ่งที่มีความหมายสำหรับการออกแบบการศึกษาและข้อกำหนดด้านข้อมูลของคุณ บางทีสถิติ guy / gal แนะนำให้ทำแบบจำลองลำดับชั้นเพื่อพิจารณาว่าใครเป็นผู้วินิจฉัยผู้ป่วย - จากนั้นคุณต้องติดตามผู้ที่วินิจฉัยว่าเป็นใคร ฟังดูไม่สำคัญ แต่ควรคิดให้ดีกว่านี้ก่อนที่คุณจะรวบรวมข้อมูล (และไม่สามารถรวบรวมสิ่งที่สำคัญ) กว่าหลังจากนั้น

ในบันทึกที่เกี่ยวข้อง: ทำการวิเคราะห์พลังงานก่อนเริ่ม ไม่มีอะไรน่าผิดหวังอย่างที่ไม่มีงบประมาณสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่พอสมควร ในการคิดเกี่ยวกับขนาดของเอฟเฟกต์ที่คุณคาดหวังให้จำความลำเอียงของสิ่งพิมพ์ - ขนาดของเอฟเฟกต์ที่คุณจะหาอาจจะเล็กกว่าที่คุณคาดไว้จากวรรณกรรม (เอนเอียง)


28

สิ่งหนึ่งที่ฉันบอกนักเรียนของฉันคือการสร้างกราฟที่เหมาะสมสำหรับทุกค่า p เช่นสแกตเตอร์แปลงถ้าพวกเขาทดสอบความสัมพันธ์กล่องข้างเคียงถ้าพวกเขาทำการวิเคราะห์ความแปรปรวนแบบทางเดียว ฯลฯ


28

หากคุณกำลังตัดสินใจระหว่างสองวิธีในการวิเคราะห์ข้อมูลลองทั้งสองวิธีและดูว่ามันสร้างความแตกต่างหรือไม่

สิ่งนี้มีประโยชน์ในหลายบริบท:

  • เพื่อแปลงหรือไม่แปลง
  • การทดสอบแบบไม่มีพารามิเตอร์หรือแบบพารามิเตอร์
  • ความสัมพันธ์ของ Spearman หรือ Pearson
  • PCA หรือการวิเคราะห์ปัจจัย
  • ไม่ว่าจะใช้ค่าเฉลี่ยเลขคณิตหรือค่าประมาณที่มีประสิทธิภาพ
  • ไม่ว่าจะรวมถึง covariate หรือไม่
  • ไม่ว่าจะใช้การลบแบบ list-wise, การลบแบบ double-wise, imputation หรือวิธีอื่น ๆ ที่ใช้แทนค่าที่หายไป

สิ่งนี้ไม่ควรทำให้พ้นจากการคิดในเรื่องนี้ แต่อย่างน้อยก็ให้ความรู้สึกถึงระดับที่การค้นพบที่แท้จริงนั้นมีความแข็งแกร่งต่อตัวเลือก


4
มันเป็นใบเสนอราคาหรือไม่? ฉันแค่สงสัยว่าการลองวิธีการทดสอบทางเลือกอื่น (ไม่ใช่กลยุทธ์การวิเคราะห์!) อาจไม่สามารถควบคุมข้อผิดพลาด Type I หรือการคำนวณพลังงานครั้งแรกได้บ้าง ฉันรู้ว่า SAS ส่งคืนผลลัพธ์อย่างเป็นระบบจากการทดสอบแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์ (อย่างน้อยที่สุดในการเปรียบเทียบค่าเฉลี่ยของสองวิธีและ ANOVA) แต่ฉันมักพบสิ่งที่น่าสนใจนี้: เราไม่ควรตัดสินใจก่อนที่จะเห็นผลลัพธ์
chl

4
@ จุดดีมาก ฉันยอมรับว่ากฎง่ายๆข้างต้นสามารถใช้ด้วยเหตุผลที่ผิด คือพยายามทำหลายวิธีและรายงานผลลัพธ์ที่ให้คำตอบที่น่าพอใจมากขึ้นเท่านั้น ฉันเห็นว่ากฎของหัวแม่มือมีประโยชน์ในฐานะเครื่องมือการฝึกอบรมนักวิเคราะห์ข้อมูลเพื่อเรียนรู้ผลของการตัดสินใจในการวิเคราะห์ต่อข้อสรุปที่สำคัญ ฉันเคยเห็นนักเรียนหลายคนหลงทางกับการตัดสินใจโดยเฉพาะอย่างยิ่งที่มีคำแนะนำในการแข่งขันในวรรณคดี (เช่นการแปลงหรือไม่แปลง) ที่มักมีอิทธิพลน้อยที่สุดต่อข้อสรุปที่สำคัญ
Jeromy Anglim

1
@chl ไม่มันไม่ใช่ใบเสนอราคา แต่ฉันคิดว่ามันเป็นการดีที่จะกำหนดขอบเขตของหัวแม่มือจากเหตุผลและคำเตือน ฉันเปลี่ยนเป็นตัวหนาเพื่อให้ชัดเจน
Jeromy Anglim

1
ตกลงฉันรู้สึกได้ถึงความพยายามที่จะเปลี่ยนรูปแบบที่แตกต่างกันและดูว่ามันมีวิธีที่ดีกว่าในการพิจารณาความสัมพันธ์ที่ศึกษา; สิ่งที่ฉันไม่เข้าใจคือการลองใช้กลยุทธ์การวิเคราะห์ที่แตกต่างกันถึงแม้ว่ามันจะเป็นวิธีปฏิบัติในปัจจุบัน (แต่ไม่ได้รายงานในบทความที่ตีพิมพ์ :-), esp เมื่อพวกเขาพึ่งพาสมมติฐานที่แตกต่างกัน (ใน EFA เทียบกับ PCA คุณถือว่ามีข้อผิดพลาดเพิ่มเติมในการทดสอบที่ไม่ใช่พารามิเตอร์เทียบกับพารามิเตอร์คุณจะทิ้งสมมติฐานบางส่วนและอื่น ๆ ) แต่ผมเห็นด้วยแบ่งเขตระหว่างการวิเคราะห์สอบสวนและยืนยันจะไม่ให้ชัดเจน ...
CHL

2
ดูเหมือนว่าฉันจะมีประโยชน์สำหรับการวิเคราะห์เชิงสำรวจหรือระหว่างการฝึกอบรมและขั้นตอนการตรวจสอบความถูกต้องเท่านั้น คุณก็จะต้องมีขั้นตอนการตรวจสอบการทดสอบสุดท้ายหรือมิฉะนั้นคุณอาจหลอกตัวเองโดยผลอย่างมีนัยสำคัญบางอย่างที่ทำงานได้ดีเมื่อคุณมีความแตกต่างที่ต้องการตามความเชื่อ 'อัตนัย' ของคุณ ใครคือผู้ตัดสินว่าวิธีไหนดีกว่ากัน? ผมเองถ้าผมสงสัยวิธีการที่แตกต่างกันแล้วผมทดสอบบนข้อมูลจำลองเพื่อทดสอบสิ่งต่างๆเช่นความแปรปรวนของการประมาณค่าหรือความทนทาน ฯลฯ
Martijn Weterings

22

ตั้งคำถามกับข้อมูลของคุณ ในยุคปัจจุบันของ RAM ราคาถูกเรามักจะทำงานกับข้อมูลจำนวนมาก ข้อผิดพลาด 'fat-finger' หนึ่งข้อหรือ 'ตำแหน่งทศนิยมที่หายไป' สามารถควบคุมการวิเคราะห์ได้อย่างง่ายดาย หากไม่มีการตรวจสติขั้นพื้นฐาน (หรือวางแผนข้อมูลตามที่คนอื่นแนะนำที่นี่) อาจเสียเวลาได้มาก นอกจากนี้ยังแนะนำให้ใช้เทคนิคพื้นฐานบางอย่างสำหรับ 'ความทนทาน' ถึงค่าผิดปกติ


2
ข้อสรุป: ดูว่ามีคนเขียนรหัสที่หายไปเป็น "9999" แทนที่จะเป็น "NA" หรือไม่ หากซอฟต์แวร์ของคุณใช้ค่านี้ตามมูลค่าหน้าจอมันจะทำให้การวิเคราะห์ของคุณยุ่งเหยิง
Stephan Kolassa

21

ใช้ซอฟต์แวร์ที่แสดงสายโซ่ของตรรกะการเขียนโปรแกรมจากข้อมูลดิบไปจนถึงการวิเคราะห์ / ผลลัพธ์ขั้นสุดท้าย หลีกเลี่ยงซอฟต์แวร์เช่น Excel ที่ผู้ใช้รายหนึ่งสามารถทำให้เกิดข้อผิดพลาดที่ไม่สามารถตรวจจับได้ในเซลล์เดียวซึ่งการตรวจสอบด้วยตนเองเท่านั้นที่จะรับได้


1
VisTrailsเป็นระบบหนึ่งที่ช่วยให้กระบวนการนี้ (ผมเคยใช้เฉพาะระบบ homebrew; กลุ่มเป้าหมายร่วมกันมีความสำคัญมากกว่าเครื่องมือเฉพาะ.)
เดนิส

18

ถามตัวเองเสมอว่า "ผลลัพธ์เหล่านี้มีความหมายอย่างไรและจะใช้อย่างไร"

โดยปกติแล้ววัตถุประสงค์ของการใช้สถิติคือเพื่อช่วยในการตัดสินใจภายใต้ความไม่แน่นอน ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องอยู่ต่อหน้าความคิดของคุณ "การตัดสินใจอะไรที่จะเกิดขึ้นจากการวิเคราะห์นี้และการวิเคราะห์นี้จะมีผลต่อการตัดสินใจเหล่านี้อย่างไร" (เช่นเผยแพร่บทความแนะนำวิธีการใหม่ที่จะใช้ให้ $ X ในการระดมทุนให้กับ Y รับข้อมูลเพิ่มเติมรายงานปริมาณโดยประมาณเป็น E ฯลฯ ฯลฯ ..... )

หากคุณไม่รู้สึกว่ามีการตัดสินใจใด ๆ เกิดขึ้นสิ่งหนึ่งที่น่าประหลาดใจก็คือทำไมคุณถึงทำการวิเคราะห์ในตอนแรก (เพราะค่อนข้างแพงในการทำการวิเคราะห์) ฉันคิดว่าสถิติเป็น "ความรำคาญ" ในการที่จะเป็นวิธีการสิ้นสุดมากกว่าสิ้นสุดเอง ในมุมมองของฉันเราเพียงปริมาณความไม่แน่นอนเพื่อให้เราสามารถใช้ในการตัดสินใจที่บัญชีสำหรับความไม่แน่นอนนี้ในทางที่แม่นยำ

ฉันคิดว่านี่เป็นเหตุผลหนึ่งว่าทำไมการรักษาสิ่งต่าง ๆ ให้เรียบง่ายเป็นนโยบายที่ดีโดยทั่วไปเพราะโดยปกติแล้วมันจะง่ายกว่ามากในการเชื่อมโยงวิธีแก้ปัญหาที่ง่าย ๆ เข้ากับโลกแห่งความเป็นจริง . นอกจากนี้ยังง่ายต่อการเข้าใจข้อ จำกัด ของคำตอบง่ายๆ จากนั้นคุณย้ายไปยังโซลูชันที่ซับซ้อนยิ่งขึ้นเมื่อคุณเข้าใจข้อ จำกัด ของโซลูชันง่าย ๆ และวิธีแก้ไขปัญหาที่ซับซ้อนเหล่านั้นอย่างไร


3
ฉันเห็นด้วยกับทุกอย่างยกเว้นความคิดที่จะทำให้สิ่งต่าง ๆ เรียบง่าย สำหรับฉันความเรียบง่ายหรือความซับซ้อนควรเป็นหน้าที่ของค่าใช้จ่ายในการตัดสินใจที่ไม่เหมาะสมที่คุณอธิบายอย่างละเอียด ความเรียบง่ายอาจมีค่าใช้จ่ายเล็กน้อยในพื้นที่หนึ่ง (เช่นการแสดงโฆษณาที่ไม่ถูกต้องให้กับลูกค้า) และค่าใช้จ่ายที่แตกต่างกันอย่างมากในอีกเรื่องหนึ่ง
Thomas Speidel

18

อาจมีรายการยาว แต่พูดถึงน้อย: (ในลำดับที่ไม่เฉพาะ)

  1. ค่า P ไม่ใช่ความน่าจะเป็น โดยเฉพาะมันไม่ใช่ความน่าจะเป็นที่จะยอมรับข้อผิดพลาด Type I ในทำนองเดียวกัน CIs ไม่มีการตีความความน่าจะเป็นสำหรับข้อมูลที่ได้รับ พวกเขาจะใช้สำหรับการทดลองซ้ำแล้วซ้ำอีก

  2. ปัญหาที่เกี่ยวข้องกับความแปรปรวนจะมีอคติมากที่สุดในทางปฏิบัติดังนั้นการประเมินแบบเอนเอียงที่มีความแปรปรวนเล็กน้อยจะดีกว่าการประมาณแบบเอนเอียงที่มีความแปรปรวนขนาดใหญ่

  3. การสร้างแบบจำลองเป็นกระบวนการที่ต้องทำซ้ำ ก่อนการวิเคราะห์ข้อมูลเข้าใจแหล่งที่มาของข้อมูลและตัวแบบที่เป็นไปได้ที่เหมาะสมหรือไม่เหมาะสมกับคำอธิบาย ลองทำแบบจำลองปัญหาการออกแบบในแบบจำลองของคุณ

  4. ใช้เครื่องมือสร้างภาพดูข้อมูล (สำหรับความผิดปกติที่เป็นไปได้แนวโน้มที่ชัดเจน ฯลฯ เพื่อทำความเข้าใจข้อมูล) ก่อนที่จะวิเคราะห์ ใช้วิธีการสร้างภาพ (ถ้าเป็นไปได้) เพื่อดูว่าแบบจำลองนั้นเหมาะสมกับข้อมูลนั้นอย่างไร

  5. สุดท้าย แต่ไม่ใช่อย่างน้อยให้ใช้ซอฟต์แวร์ทางสถิติสำหรับสิ่งที่พวกเขาทำขึ้นมา (เพื่อให้งานการคำนวณของคุณง่ายขึ้น) พวกเขาไม่ได้ใช้แทนความคิดของมนุษย์


14
รายการที่ 1 ของคุณไม่ถูกต้อง: ค่า P คือความน่าจะเป็นที่จะได้รับข้อมูลว่ารุนแรงหรือสุดขั้วเนื่องจากสมมติฐานว่าง เท่าที่ฉันรู้นั่นหมายความว่า P คือความน่าจะเป็น - เงื่อนไข แต่ความน่าจะเป็นอย่างไรก็ตาม คำแถลงของคุณถูกต้องในสถานการณ์ที่คนหนึ่งทำงานภายใต้กรอบความผิดพลาดของ Neyman-Pearson แต่ไม่ใช่คนหนึ่งที่ทำงานในกระบวนทัศน์ของชาวประมงที่ค่า P เป็นหลักฐานของหลักฐานต่อสมมติฐานว่าง มันเป็นความจริงที่ว่ากระบวนทัศน์นั้นมีการผสมกันอย่างสม่ำเสมอเป็น mish-mash แต่ทั้งคู่นั้น 'ถูกต้อง' เมื่อใช้เพียงอย่างเดียวและไม่บุบสลาย
Michael Lew

2
สำหรับช่วงเวลาความเชื่อมั่นที่คุณเป็นอีกครั้งให้แก้ไขภายในขอบเขตของความเชื่อมั่นของ Neymanian เท่านั้น ฟิชเชอร์ (และคนอื่น ๆ ก่อนหน้าเขา) ได้วางแผนและใช้สิ่งต่าง ๆ ที่จะตีความว่าเป็นช่วงความเชื่อมั่นและมีการตีความที่ถูกต้องสมบูรณ์ของช่วงเวลาดังกล่าวซึ่งอ้างอิงถึงการทดลองเฉพาะที่ให้ช่วงเวลา ในความคิดของฉันพวกเขาชอบของเนย์แมนมากกว่า ดูคำตอบของฉันสำหรับคำถามฟังก์ชั่นที่ไม่ต่อเนื่อง: ครอบคลุมช่วงเวลาที่มั่นใจ สำหรับรายละเอียดเพิ่มเติม: stats.stackexchange.com/questions/8844/…
Michael Lew

@Michael คุณถูกต้อง แต่ให้ดู: Null ถูกต้องกี่ครั้ง? หรือดีกว่า: ทุกคนสามารถพิสูจน์ได้ว่าเป็นโมฆะหรือไม่ เราสามารถมีการถกเถียงทางปรัชญาลึก ๆ เกี่ยวกับเรื่องนี้ แต่นั่นไม่ใช่ประเด็น ในการทำซ้ำการควบคุมคุณภาพมีเหตุผล แต่ในทางวิทยาศาสตร์กฎการตัดสินใจ ใด ๆ ที่ดีต้องมีเงื่อนไขข้อมูล
suncoolsu

1
ฟิชเชอร์รู้เรื่องนี้ (การ จำกัด ข้อมูลที่สังเกตได้และข้อสังเกตเกี่ยวกับการควบคุมคุณภาพนั้นเป็นไปตามนั้น) เขาสร้างตัวอย่างที่เคาน์เตอร์จำนวนมากตามนี้ เบย์ได้ต่อสู้กับสิ่งนี้มานานกว่าครึ่งศตวรรษแล้ว
suncoolsu

1
@Michael ขออภัยถ้าฉันยังไม่ชัดเจนพอ ทั้งหมดที่ฉันต้องการพูด: P-value คือความน่าจะเป็นเฉพาะเมื่อโมฆะเป็นจริง แต่เวลาส่วนใหญ่นั้นไม่เป็นความจริง (เช่น: เราไม่เคยคาดหวังเป็นจริงเราถือว่ามันเป็นจริง แต่ข้อสันนิษฐานของเรานั้นไม่ถูกต้องในทางปฏิบัติ) ในกรณีที่คุณมีความสนใจฉันสามารถชี้ให้เห็นวรรณกรรมบางชิ้นที่พูดถึงแนวคิดนี้โดยละเอียดยิ่งขึ้น μ=0
suncoolsu

13

สำหรับองค์กรข้อมูล / การจัดการให้แน่ใจว่าเมื่อคุณสร้างตัวแปรใหม่ในชุดข้อมูล (เช่นการคำนวณดัชนีมวลกายจากส่วนสูงและน้ำหนัก) ตัวแปรดั้งเดิมจะไม่ถูกลบ วิธีการไม่ทำลายที่ดีที่สุดจากมุมมองการทำซ้ำ คุณไม่มีทางรู้ว่าคุณอาจป้อนคำสั่งผิดพลาดและจำเป็นต้องทำการสร้างตัวแปรซ้ำอีกครั้ง หากไม่มีตัวแปรดั้งเดิมคุณจะเสียเวลามาก!


11

คิดหนักเกี่ยวกับขั้นตอนการสร้างข้อมูลพื้นฐาน (DGP) หากโมเดลที่คุณต้องการใช้ไม่ได้สะท้อนถึง DGP คุณจะต้องค้นหาโมเดลใหม่


คุณจะรู้ได้อย่างไรคุณจะรู้ได้อย่างไรว่า DGP คืออะไร ตัวอย่างเช่นฉันใช้อนุกรมเวลาในพื้นที่ที่ฉันยังไม่เห็นทฤษฎีที่พัฒนามาอย่างดี (เหตุใดการใช้จ่ายสาธารณะบางประเภทจึงเกิดขึ้น) ฉันไม่คิดว่าเป็นไปได้ที่จะรู้ขั้นตอนที่แท้จริงในกรณีนี้
user54285

8

สำหรับฮิสโทแกรมกฎง่ายๆสำหรับจำนวนช่องเก็บในฮิสโตแกรม :

สแควร์รูทของจำนวนจุดข้อมูล


6

แม้จะมีชุดข้อมูลขนาดใหญ่ขึ้นและซอฟต์แวร์ที่มีประสิทธิภาพยิ่งขึ้น แต่โมเดล over-fitting เป็นอันตรายที่สำคัญต่อนักวิจัยโดยเฉพาะผู้ที่ยังไม่ถูกเผาไหม้ด้วยการปรับขนาด การปรับให้แน่นเกินไปนั้นหมายความว่าคุณได้ติดตั้งบางสิ่งที่ซับซ้อนกว่าข้อมูลของคุณและความทันสมัย เช่นเดียวกับความรักหรือความงามมันยากที่จะนิยามให้คนเดียวกำหนดความเป็นทางการ แต่จดจำได้ง่ายกว่า

กฎง่ายๆคือจุดข้อมูล 10 จุดสำหรับพารามิเตอร์ทุกตัวที่ประเมินสำหรับการถดถอยแบบคลาสสิกและระวังผลที่ตามมาหากคุณไม่สนใจ สำหรับการวิเคราะห์อื่น ๆ คุณมักจะต้องทำงานให้ดีขึ้นอีกมากโดยเฉพาะอย่างยิ่งหากมีหมวดหมู่ที่หายากในข้อมูล

แม้ว่าคุณจะสามารถจัดวางแบบจำลองได้อย่างง่ายดายคุณควรกังวลตลอดเวลาเกี่ยวกับความหมายและระยะเวลาในการทำซ้ำของชุดข้อมูลที่คล้ายกันมาก


โดยทั่วไปถือว่าเป็นกฎง่ายๆสำหรับรุ่นที่การตอบสนองเป็นแบบมีเงื่อนไข ในกรณีอื่น ๆ มันเป็นอิสระเกินไป ตัวอย่างเช่นสำหรับการจำแนกเลขฐานสองกฎของหัวแม่มือที่สอดคล้องกันจะเป็นข้อสังเกต 15 ข้อในหมวดหมู่ที่เกิดขึ้นน้อยกว่าสำหรับตัวแปรทุกตัว และสำหรับการวิเคราะห์เพื่อความอยู่รอดมันจะเป็น 10 เหตุการณ์ (เช่นไม่ใช่ข้อมูลที่ถูกเซ็นเซอร์) สำหรับทุกตัวแปร
gung

ฉันเห็นด้วย. ฉันจะแก้ไข แต่ทำไมไม่โพสต์กฎง่ายๆของคุณพร้อมกับคำอธิบายเพิ่มเติม
Nick Cox

1
คุณควรเน้นประโยคสุดท้าย"แม้ว่าคุณจะสามารถจัดวางแบบจำลองได้อย่างง่ายดายคุณควรกังวลตลอดเวลาเกี่ยวกับความหมายและระยะเวลาในการทำซ้ำด้วยชุดข้อมูลที่คล้ายคลึงกันมาก"
Martijn Weterings

6

Yt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. Yt+h
  2. Yt+hYt

Yt+hYt+Xt


5

หากโมเดลไม่มาบรรจบกันอย่างง่ายดายและรวดเร็วนั่นอาจเป็นความผิดพลาดของซอฟต์แวร์ อย่างไรก็ตามเป็นเรื่องธรรมดาที่ข้อมูลของคุณไม่เหมาะกับโมเดลหรือโมเดลไม่เหมาะกับข้อมูล อาจเป็นการยากที่จะบอกว่าผู้ใดและนักประสบการณ์นิยมและนักทฤษฎีสามารถมีมุมมองที่แตกต่างกัน แต่การคิดแบบมีสาระ, การดูข้อมูล, และการคิดเกี่ยวกับการตีความแบบจำลองอย่างต่อเนื่องจะช่วยได้มาก เหนือสิ่งอื่นใดลองใช้แบบจำลองที่ง่ายกว่าหากแบบจำลองที่ซับซ้อนจะไม่มาบรรจบกัน

ไม่มีประโยชน์ในการบังคับให้เกิดการบรรจบกันหรือในการประกาศชัยชนะและรับผลหลังจากการทำซ้ำหลายครั้ง แต่ก่อนที่แบบจำลองของคุณจะมาบรรจบกัน อย่างดีที่สุดคุณหลอกตัวเองถ้าคุณทำอย่างนั้น


"ดูข้อมูลจริงๆ" มันจะดีมากเมื่อเราได้รับ NN ที่ใช้งานได้กับเรา
Martijn Weterings

มันถูกเรียกว่า JWT
Nick Cox

5

ในการถดถอยตัวแปรเครื่องมือมักจะตรวจสอบความสำคัญร่วมกันของเครื่องมือของคุณ กฎของ Staiger-Stock ระบุว่า F-statistic ที่น้อยกว่า 10 นั้นน่าเป็นห่วงและบ่งชี้ว่าเครื่องมือของคุณอาจอ่อนแอเช่นว่ามันไม่ได้มีความสัมพันธ์กับตัวแปรภายนอกอย่างเพียงพอ อย่างไรก็ตามสิ่งนี้ไม่ได้หมายความโดยอัตโนมัติว่า F ที่สูงกว่า 10 รับประกันเครื่องมือที่แข็งแกร่ง Staiger และ Stock (1997)ได้แสดงให้เห็นว่าเทคนิคตัวแปรเครื่องมือเช่น 2SLS สามารถลำเอียงที่ไม่ดีในตัวอย่าง "เล็ก" หากเครื่องมือมีความสัมพันธ์อย่างอ่อนกับตัวแปรภายนอกเท่านั้น ตัวอย่างของพวกเขาคือการศึกษาโดย Angrist และ Krueger (1991) ซึ่งมีการสำรวจมากกว่า 300,000 ครั้งซึ่งเป็นข้อเท็จจริงที่น่าวิตกเกี่ยวกับแนวคิดของกลุ่มตัวอย่างที่ "เล็ก"


ฉันได้เพิ่มลิงก์ไปยังบทความ แต่ฉันเชื่อว่าคำตอบที่ไม่ดีนี้ต้องมีการจัดรูปแบบเพิ่มเติมฉันพบว่ามันยากเกินไปที่จะเน้น 'กฎของหัวแม่มือ' จากการสแกนบทความอย่างรวดเร็วและคำตอบนี้ไม่ง่ายนัก
Martijn Weterings

3

ไม่มีเกณฑ์ให้เลือกเกณฑ์ข้อมูล

เมื่อมีคนพูดว่า "The? IC ระบุสิ่งนี้ แต่เป็นที่ทราบกันบ่อยครั้งว่าให้ผลลัพธ์ที่ผิด" (ที่ใดคือจดหมายที่คุณชอบ) คุณรู้ว่าคุณจะต้องคิดถึงรูปแบบและโดยเฉพาะอย่างยิ่ง ความรู้สึกทางวิทยาศาสตร์หรือการปฏิบัติ

พีชคณิตไม่สามารถบอกคุณได้ว่า


2

ฉันอ่านนี่ที่ไหนสักแห่ง (อาจจะผ่านการตรวจสอบข้าม) และฉันไม่สามารถหาได้ทุกที่ดังนั้นที่นี่ไป ...

หากคุณค้นพบผลลัพธ์ที่น่าสนใจนั่นอาจเป็นความผิดพลาด

เป็นเรื่องง่ายมากที่จะตื่นเต้นกับการคาดหวังของค่า p ที่มีค่าหรือข้อผิดพลาดในการตรวจสอบความถูกต้องข้ามที่สมบูรณ์แบบ ฉันนำเสนอผลลัพธ์ที่ยอดเยี่ยม (เท็จ) ที่เป็นส่วนตัวต่อผู้ร่วมงานเพียงเพื่อจะเพิกถอนพวกเขา บ่อยที่สุดถ้ามันดูดีเกินกว่าที่จะเป็นจริง ...

เป็นเรื่องจริง มัวหมองจริงเลย


2

พยายามที่จะกล้าหาญแทนที่จะเป็นผู้มีคุณธรรมนั่นคืออย่าปล่อยให้สัญลักษณ์ย่อย ๆ ที่ไม่ใช่เรื่องปกติ, ไม่เป็นอิสระหรือไม่เป็นเส้นตรง ฯลฯ ปิดกั้นถนนของคุณหากสิ่งบ่งชี้ดังกล่าวจำเป็นต้องถูกมองข้ามเพื่อให้ข้อมูลพูดเสียงดังและชัดเจน . - ในภาษาเดนมาร์กคำว่า 'dristig' กับ 'dydig' เป็นคำคุณศัพท์


1

เมื่อวิเคราะห์ข้อมูลระยะยาวให้แน่ใจว่าได้ตรวจสอบว่าตัวแปรนั้นมีรหัสเหมือนกันในแต่ละช่วงเวลา

ในขณะที่เขียนวิทยานิพนธ์ของฉันซึ่งเกี่ยวข้องกับการวิเคราะห์ข้อมูลทุติยภูมิมีหนึ่งสัปดาห์หรือมากกว่านั้นจากการเปลี่ยนหน่วย 1 คะแนนคะแนนเฉลี่ยภาวะซึมเศร้าในค่าเฉลี่ยคงที่ในปี: มันกลายเป็นว่าหนึ่งในปีของฉัน ชุดข้อมูลรายการสเกลสำหรับเครื่องมือที่ตรวจสอบแล้วได้รับการเข้ารหัส 1–4 แทนที่จะเป็น 0–3


1

สมมติฐานของคุณควรผลักดันรูปแบบที่คุณเลือกไม่ใช่วิธีอื่น

ในการถอดความ Maslow หากคุณเป็นค้อนทุกอย่างดูเหมือนเป็นเล็บ แบบจำลองเฉพาะนั้นมาพร้อมกับม่านบังตาและสมมติฐานเกี่ยวกับโลกที่สร้างขึ้นในตัวแบบตัวอย่างเช่นแบบจำลองที่ไม่ไดนามิกทำให้เกิดผลตอบรับการรักษา


1

ใช้การจำลองเพื่อตรวจสอบว่าโครงสร้างของแบบจำลองของคุณอาจจะสร้าง "ผลลัพธ์" ซึ่งเป็นเพียงสิ่งประดิษฐ์ทางคณิตศาสตร์ของสมมติฐานของแบบจำลองของคุณ

ทำการวิเคราะห์ของคุณเกี่ยวกับตัวแปร rerandomized หรือตัวแปรจำลองที่ทราบกันว่าไม่เกี่ยวข้องกัน ทำสิ่งนี้หลายครั้งและเปรียบเทียบความแตกต่างโดยประมาณของจุด (และความมั่นใจหรือช่วงเวลาที่น่าเชื่อถือ) กับผลลัพธ์ที่คุณได้รับจากข้อมูลจริงหรือไม่: สิ่งเหล่านั้นแตกต่างกันหรือไม่?


0

ฉันเป็นนักวิเคราะห์ข้อมูลมากกว่านักสถิติ แต่นี่คือคำแนะนำของฉัน

1) ก่อนที่คุณจะวิเคราะห์ข้อมูลให้แน่ใจว่าสมมติฐานของวิธีการของคุณถูกต้อง เมื่อคุณเห็นผลลัพธ์พวกเขาอาจลืมได้ยากแม้หลังจากที่คุณแก้ไขปัญหาและผลลัพธ์ก็เปลี่ยนไป

2) ช่วยให้ทราบข้อมูลของคุณ ฉันใช้อนุกรมเวลาและได้รับผลที่ทำให้รู้สึกไม่ค่อยได้รับข้อมูลปีที่ผ่านมา ฉันตรวจสอบวิธีการในแง่ของสิ่งนั้นและค้นพบว่าค่าเฉลี่ยของแบบจำลองในวิธีนั้นบิดเบือนผลลัพธ์เป็นระยะเวลาหนึ่ง (และเกิดการแตกเชิงโครงสร้างขึ้น)

3) ระวังกฎของหัวแม่มือ พวกเขาสะท้อนประสบการณ์ของนักวิจัยแต่ละคนจากข้อมูลของตัวเองและหากสาขาของพวกเขาแตกต่างจากคุณมากข้อสรุปของพวกเขาอาจไม่ถูกต้องสำหรับข้อมูลของคุณ ยิ่งกว่านั้นและนี่เป็นสิ่งที่ทำให้ฉันตกใจนักสถิติมักไม่เห็นด้วยกับประเด็นสำคัญ

4) พยายามวิเคราะห์ข้อมูลด้วยวิธีการต่าง ๆ และดูว่าผลลัพธ์คล้ายกันหรือไม่ เข้าใจว่าไม่มีวิธีการใดที่สมบูรณ์แบบและระมัดระวังในการตรวจสอบว่าคุณสามารถฝ่าฝืนข้อสันนิษฐานได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.