กำลังตรวจสอบความแตกต่างระหว่างประชากร


9

บอกว่าเรามีตัวอย่างจากประชากรสองกลุ่ม A: และA Bสมมติว่าประชากรเหล่านี้ทำจากบุคคลและเราเลือกที่จะอธิบายบุคคลในแง่ของคุณสมบัติ คุณสมบัติบางอย่างเหล่านี้มีการจัดหมวดหมู่ (เช่นพวกเขาขับรถไปทำงานหรือไม่) และบางส่วนเป็นตัวเลข (เช่นความสูง) ขอเรียกคุณสมบัติเหล่านี้:X_n เรารวบรวมคุณลักษณะเหล่านี้หลายร้อยรายการ (เช่น n = 200) สมมติว่าใช้งานง่ายโดยไม่มีข้อผิดพลาดหรือเสียงรบกวนในทุกคนX1...Xn

เราตั้งสมมติฐานว่าประชากรสองคนนั้นแตกต่างกัน เป้าหมายของเราคือการตอบคำถามสองข้อต่อไปนี้:

  1. จริง ๆ แล้วพวกเขาแตกต่างกันอย่างมีนัยสำคัญ?
  2. อะไรคือความแตกต่างระหว่างพวกเขา?

วิธีการเช่นต้นไม้ตัดสินใจ (เช่นป่าสุ่ม) และการวิเคราะห์การถดถอยเชิงเส้นสามารถช่วยได้ ตัวอย่างเช่นเราสามารถดูความสำคัญของคุณลักษณะในป่าสุ่มหรือสัมประสิทธิ์ที่เหมาะสมในการถดถอยเชิงเส้นเพื่อทำความเข้าใจกับสิ่งที่อาจแยกแยะกลุ่มเหล่านี้และสำรวจความสัมพันธ์ระหว่างคุณลักษณะและประชากร

ก่อนที่ฉันจะไปตามเส้นทางนี้ฉันต้องการเข้าใจตัวเลือกของฉันที่นี่สิ่งที่ดีและทันสมัยกับการปฏิบัติที่ไม่ดี โปรดทราบว่าเป้าหมายของฉันไม่ใช่การคาดการณ์ต่อการทดสอบและการค้นหาความแตกต่างที่สำคัญระหว่างกลุ่ม

อะไรคือหลักการในการแก้ไขปัญหานี้

ต่อไปนี้เป็นข้อกังวลของฉัน:

  • วิธีการเช่นการวิเคราะห์การถดถอยเชิงเส้นอาจไม่ตอบอย่างเต็มที่ (2) ใช่ไหม? เช่นความพอดีสามารถช่วยค้นหาความแตกต่างบางอย่าง แต่ไม่ใช่ความแตกต่างที่สำคัญทั้งหมด ตัวอย่างเช่นความหลากหลายหลายระดับอาจทำให้เราไม่สามารถค้นหาคุณลักษณะทั้งหมดที่แตกต่างกันในแต่ละกลุ่ม (อย่างน้อยก็ในรูปแบบเดียว) ด้วยเหตุผลเดียวกันฉันคาดหวังว่า ANOVA จะไม่สามารถให้คำตอบเต็ม (2) ได้เช่นกัน

  • ยังไม่ชัดเจนว่าวิธีการคาดการณ์จะตอบได้อย่างไร (1) ตัวอย่างเช่นฟังก์ชั่นการสูญเสียการจำแนกประเภท / การทำนายใดที่เราควรลด และเราจะทดสอบได้อย่างไรว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญเมื่อเรามีความเหมาะสมหรือไม่? ในที่สุดฉันกังวลว่าคำตอบที่ฉันได้รับ (1) อาจขึ้นอยู่กับชุดการจำแนกประเภทเฉพาะที่ฉันใช้

คำตอบ:


5

ลองคิดปัญหาดังนี้

พูดว่าและเป็นตัวแปรเลขฐานสองสำหรับประชากร:หมายถึงประชากรแรกหมายถึงประชากรที่สอง สมมติฐานว่างสามารถแสดงได้หลายวิธีที่เทียบเท่า:X=(X1,X2,..Xn)YY=0Y=1

  • H0 : ประชากรเหมือนกัน
  • H0 : การแจกแจงกำหนดเหมือนกับการแจกแจงให้XY=0XY=1
  • H0 :และเป็นอิสระXY
  • H0 : สำหรับฟังก์ชั่นใด ๆเป็น ,และเป็นอิสระ{0,1}(X)Y

ฉันไม่รู้อะไรเกี่ยวกับป่าสุ่ม แต่พวกเขาอาจคิดว่าเป็นตัวทำนายที่มีวัตถุประสงค์เพื่อหลีกเลี่ยงการปรับตัวให้เข้าที่เกินไป ถ้าเราทำให้พวกมันค่อนข้างสมบูรณ์แบบ: มันเป็นสิ่งที่สามารถตรวจจับความสัมพันธ์ระหว่างกับคุณสมบัติใด ๆโดยไม่ต้องปรับให้เหมาะสมYX

เป็นไปได้ที่จะลองทำบางสิ่งตามสิ่งนี้ แยกชุดข้อมูลต้นฉบับออกเป็นชุดฝึกอบรมและชุดทดสอบ แล้ว:

  • ฝึกป่าสุ่มที่ทำนายจากในชุดฝึกซ้อมYX
  • ทำแบบทดสอบอิสระแบบไคสแควร์ (โดยมีความเสี่ยง ) ระหว่างและในชุดทดสอบα(X)Y

การทดสอบนี้ค่อนข้างอนุรักษ์นิยม หากสุ่มฟอเรสต์เป็นวิธีการที่แย่ที่สุดการส่งออกที่แย่ที่สุดมันจะปฏิเสธด้วยความน่าจะเป็นน้อยกว่าอย่างไรก็ตาม (เมื่อเป็นจริง) ความกระชับมากเกินไปจะไม่เป็นปัญหาเพราะเราใช้ชุดทดสอบและชุดฝึกอบรม อย่างไรก็ตามพลังของการทดสอบโดยตรงขึ้นอยู่กับความฉลาดของวิธีการป่าสุ่ม (หรือตัวทำนายใด ๆ ที่ใช้)(X)H0αH0

โปรดทราบว่าคุณสามารถใช้พยากรณ์ที่เป็นไปได้หลายอย่างเช่นธรรมดาถดถอยโลจิสติเก่าก่อนแล้วการถดถอยโลจิสติกที่มีคุณสมบัติข้ามบางส่วนแล้วต้นไม้ตัดสินใจไม่กี่แล้วป่าสุ่ม ... แต่ถ้าคุณทำเช่นนั้นคุณควรปรับไปที่หมายเลข ของการทดสอบเพื่อหลีกเลี่ยง "การค้นพบที่ผิดพลาด" ดู: การปรับอัลฟ่าสำหรับการทดสอบหลายครั้งα


ขอบคุณเบอนัวต์ (+1) สิ่งนี้มีผลกับคำถาม (1) มีแนวคิดใดบ้างเกี่ยวกับวิธีจัดการ (2) ด้วยวิธีนี้หรือวิธีอื่น
Amelio Vazquez-Reina

ตามที่ชี้ไปที่ DJohnson RF ไม่สามารถตีความได้ การถดถอยโลจิสติกอาจเป็น (อย่างน้อยหนึ่งคุณสมบัติ) มันขึ้นอยู่กับตัวทำนาย การติดตามความคิดใกล้กับ RF เป็นไปได้ที่จะใช้แผนภูมิการตัดสินใจ (สุ่ม) จำนวนมาก (ที่ปรับเปลี่ยนได้ดีα) และแสดงต้นไม้ที่มีค่า p น้อยที่สุด (= ดีที่สุด)
เบอนัวต์ซานเชซ

ขอบคุณ ฉันชอบข้อเสนอแนะของการปรับ DT แบบสุ่มให้เหมาะสมและค้นหาผู้ที่มีผลลัพธ์ที่สำคัญที่สุดในการทดสอบแบบไคสแควร์ ฉันถือว่าคุณกำลังอ้างถึงการแก้ไข Bonferroni เมื่อคุณกล่าวถึงโดยใช้การปรับเปลี่ยนอย่างดีα. สิ่งนี้จะแตกต่างจากการใช้ RF และทดสอบต้นไม้แต่ละต้นอย่างไร
Amelio Vazquez-Reina

นอกจากนี้ความหวังของฉันกับ RFs คือการระบุคุณสมบัติที่จับความแตกต่าง (เช่นได้รับอย่างน้อยคำตอบบางส่วนถึง (2)) พวกเขาไม่เหมาะสำหรับการตีความ (แม้ว่าฉันคิดว่าเราสามารถทำได้โดยจำกัดความสูง) ในทั้งสองกรณีเดียวกันสามารถพูดเกี่ยวกับ DT ได้ไหม? เพียงทำให้แน่ใจว่าฉันเข้าใจความคิดเห็นของคุณเป็นอย่างดี
Amelio Vazquez-Reina

ใช่ฉันอ้างถึง Bonferroni ด้วย RF คุณสามารถสร้างตัวทำนายเดี่ยวโดยเฉลี่ย DTs จำนวนมาก จากนั้นคุณทำการทดสอบเดี่ยวด้วยค่าเฉลี่ยนี้ไม่ใช่ผลการทดสอบแต่ละค่าαอันตราย ด้วย DT หลายตัวที่คุณทำn ผลการทดสอบใน 1-(1-α)nความเสี่ยง (เว้นแต่คุณจะใช้ Bonferroni) ต้องคิดว่าเป็นการทดสอบหลายรายการในขณะที่ (a) RF เฉลี่ยโดยเฉลี่ย DTs จำนวนมากเป็นการทดสอบเดี่ยว
เบอนัวต์ซานเชซ

3

คุณไม่ได้บอกคุณสมบัติที่มีอยู่ในข้อมูล น้อยมากใหญ่โต? เราสามารถสมมติว่ามันเป็นคุณสมบัติที่เหมือนกันระหว่างประชากรทั้งหมดที่วัดได้ด้วยเครื่องมือวิธีการและรังสีเดียวกัน ถ้าไม่เช่นนั้นคุณมีปัญหาที่ใหญ่กว่าซึ่งรูปแบบการวัดข้อผิดพลาดในตัวแปรอาจทำงานได้

@benoitsanchez ดูเหมือนจะตอบคำถาม # 1)

Wrt # 2) ฉันไม่แน่ใจว่า RFs สามารถช่วยได้ โดยการใช้แบบจำลองที่เป็นทางการมากขึ้นเช่น ANOVA แบบทางเดียวที่นำไปใช้กับคุณลักษณะหนึ่งครั้งการทดสอบความแตกต่างระหว่างประชากรสำหรับคุณลักษณะสามารถพัฒนาได้ โดยการสรุปผลลัพธ์ของการทดสอบเหล่านั้นตามขนาดของการทดสอบรวมถึงความสำคัญของมันโปรไฟล์ที่เป็นคำอธิบายเกี่ยวกับความแตกต่างของประชากรที่มีต่อคุณลักษณะต่างๆ นี่เป็นโซลูชั่นเฉพาะกิจและเป็นที่ยอมรับซึ่งอาจไม่เข้มงวดเพียงพอสำหรับรสนิยมความชอบและการฝึกอบรมของคุณ

การเขียนโน้ตแบบลาเท็กซ์ไม่ดีเลยให้ฉันอธิบายวิธีการทดสอบเหล่านี้ได้ผล: ขั้นแรกสร้างแมโครลูปบางชนิดที่ส่งผ่านคุณสมบัติทั้งหมดผ่านครั้งละหนึ่งฟีเจอร์ ด้วยการวนซ้ำของแต่ละลูปคุณลักษณะใหม่จะกลายเป็นเป้าหมายหรือ DV พร้อมXซึ่งประกอบด้วยตัวแปรดัมมี่สำหรับประชากรรวมถึงตัวแปรควบคุมใด ๆ ที่เหมาะสม ตรวจสอบให้แน่ใจว่ามีการใช้ตัวควบคุมเดียวกันสำหรับแต่ละคุณลักษณะรวมถึงข้อมูลอ้างอิงนั้นเหมือนกันสำหรับ ANOVAs ทั้งหมดโดยขจัดความผันแปรที่เกิดจากความผันผวนของตัวอย่างข้อมูล จำกัด รวมค่าการทดสอบ F สำหรับตัวแปรดัมมี่สำหรับแต่ละคุณสมบัติ สิ่งนี้จะให้ตัวชี้วัดมาตรฐานที่เปิดใช้งานการเปรียบเทียบคุณลักษณะต่างๆ การทดสอบ F เป็นสิ่งที่ดีกว่าที่จะติดตั้งbetasตั้งแต่betasไม่ได้มาตรฐานถูกแสดงในหน่วยและมาตรฐานของแต่ละคุณสมบัติ

ความคิดเห็นสุดท้ายของคุณ "ฉันกังวลว่าคำตอบที่ฉันได้รับ (1) อาจขึ้นอยู่กับชุดการจำแนกประเภท / แบบจำลองการถดถอยเฉพาะที่ฉันใช้" เป็นจริงเสมอ คำตอบมีแนวโน้มที่จะแตกต่างกันไปตามฟังก์ชั่นของรุ่นที่ใช้ นอกจากนี้ยังเป็นการแสดงออกของอาการป่วยไข้ที่พบบ่อยในหมู่นักสถิติเชิงทฤษฎีและฝึกอบรมที่มีความรุนแรงซึ่งไม่สบายใจหรือมีปัญหาในการยอมรับธรรมชาติที่ไม่ได้กำหนดไว้ของการสร้างแบบจำลองทางสถิติประยุกต์ ยาแก้พิษที่ดีเยี่ยมสำหรับอาการเหล่านี้เป็น Efron และหนังสือเล่มล่าสุดของ Hastie คอมพิวเตอร์อายุสถิติอนุมาน พวกเขานำแบบจำลองทางสถิติเข้ามาในวันที่ 21 C, อายุของวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องให้ตรงไปตรงมาโดยยอมรับซ้ำใกล้เคียงกับธรรมชาติแก้ปัญหาของทุกคนตัวแบบที่มีคำผิดพลาด เราไม่จำเป็นต้องเป็นชาวเบเซียนเพื่อรับรู้ความจริงที่มีอยู่ในการสังเกตนี้ ของพวกเขาคือมุมมองที่สดชื่นที่แตกต่างจากระดับที่เข้มงวดของการปฏิบัติทางสถิติแบบคลาสสิก, 20 c ซึ่งขว้างขึ้นมือเมื่อเช่นเมทริกซ์ข้ามผลิตภัณฑ์จะไม่กลับหัวและ / หรือสมมติฐานแบบอวดบางอย่าง


ขอบคุณ @Dohnson เมื่อคุณพูดว่า "รวมค่าการทดสอบ F สำหรับตัวแปรดัมมี่สำหรับแต่ละคุณลักษณะ" คุณหมายถึงอะไรกันแน่? เช่นคุณจะทำอะไรกับผลลัพธ์นี้อย่างแน่นอน นอกจากนี้คุณหมายถึงอะไรโดย betas ในบริบทนี้? ในที่สุดจะไม่ซ้ำวิธีนี้ซ้ำไม่ จำกัด การโต้ตอบ? เช่นใช้ตัวอย่างดั้งเดิมจะเกิดอะไรขึ้นถ้ามีความแตกต่างอย่างมีนัยสำคัญใน "ความสูงของบุคคลที่ขับรถไปทำงาน"
Amelio Vazquez-Reina

นอกจากนี้ทำไมคุณถึงดำเนินการทดสอบ ANOVA แบบทางเดียวแทนการทำ ANOVA แบบหลายทาง
Amelio Vazquez-Reina

2
คำถามที่ดี ในแง่ของโปรไฟล์บรรยายที่เป็นผลลัพธ์ฉันกำลังคิดถึงการบันทึกการทดสอบ F และความสำคัญที่เกี่ยวข้องหรือค่า p สำหรับแต่ละคุณลักษณะแล้วจัดลำดับพวกเขาจากสูงไปต่ำ เนื่องจากการทดสอบ F เป็นอัตราส่วนของไคสแควร์และดังนั้นไม่ใช่สมมาตรจึงสามารถเพิ่มค่าเฉลี่ยประชากรลงในรายงานเพื่อช่วยในการทำความเข้าใจทิศทางของผลลัพธ์ อีกวิธีหนึ่งการทดสอบ t สามารถช่วยในการทำความเข้าใจนี้ โปรไฟล์นี้จะช่วยในการทำความเข้าใจทั้งขนาดหรือความแข็งแรงของคุณสมบัติเป็นหน้าที่ของประชากรที่อยู่ภายใต้
Mike Hunter

ตามที่ระบุไว้ควรเพิ่มตัวแปรควบคุมตามความเหมาะสม สิ่งเหล่านี้อาจรวมถึงการโต้ตอบตราบใดที่มีการใช้อย่างต่อเนื่องในทุกรุ่น การแนะนำปัจจัยเพิ่มเติมตามนิยามจะขยายโมเดลจากทางเดียวเป็นหลายถดถอยหรือ ANOVA
Mike Hunter
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.