การเลือกคุณสมบัติแบบใดที่สามารถใช้ทดสอบไคสแควร์ได้


11
  1. ที่นี่ฉันถามเกี่ยวกับสิ่งที่คนอื่นทำกันโดยทั่วไปเพื่อใช้การทดสอบไคสแควร์สำหรับการเลือกคุณสมบัติ WRT ในการเรียนรู้แบบมีผู้สอน หากฉันเข้าใจอย่างถูกต้องพวกเขาจะทดสอบความเป็นอิสระระหว่างแต่ละคุณลักษณะและผลลัพธ์และเปรียบเทียบค่า p ระหว่างการทดสอบสำหรับแต่ละคุณลักษณะหรือไม่

  2. ในhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

    การทดสอบไคสแควร์ของเพียร์สันเป็นการทดสอบทางสถิติที่ใช้กับชุดของข้อมูลที่เป็นหมวดหมู่เพื่อประเมินว่ามีความเป็นไปได้ที่ความแตกต่างที่สังเกตได้ระหว่างเซตเกิดขึ้นโดยบังเอิญ

    ...

    การทดสอบความเป็นอิสระประเมินว่าการสังเกตแบบจับคู่กับตัวแปรสองตัวที่แสดงในตารางฉุกเฉินหรือไม่นั้นเป็นอิสระจากกัน (เช่นการตอบแบบสำรวจจากคนต่างชาติเพื่อดูว่าสัญชาติของคนนั้นเกี่ยวข้องกับการตอบสนองหรือไม่)

    ดังนั้นตัวแปรทั้งสองที่ต้องทดสอบความเป็นอิสระโดยการทดสอบจะต้องจัดหมวดหมู่หรือไม่ต่อเนื่อง (อนุญาตให้สั่งนอกเหนือจากหมวดหมู่) แต่ไม่ต่อเนื่องกัน?

  3. จากhttp://scikit-learn.org/stable/modules/feature_selection.htmlพวกเขา

    ดำเนินการทดสอบχ2กับชุดข้อมูล irisเพื่อดึงเฉพาะคุณสมบัติที่ดีที่สุดสองอย่าง

    ในชุดข้อมูล irisคุณลักษณะทั้งหมดเป็นตัวเลขและต่อเนื่องมูลค่าและผลลัพธ์คือเลเบลคลาส (หมวดหมู่) การทดสอบความเป็นอิสระของไคสแควร์นำไปใช้กับคุณลักษณะต่อเนื่องได้อย่างไร

    ในการใช้การทดสอบความเป็นอิสระของไคสแควร์กับชุดข้อมูลเราต้องแปลงฟีเจอร์ต่อเนื่องเป็นฟีเจอร์ที่แยกออกจากกันโดยเริ่มจากการทำ binning (เช่นการแยกโดเมนแรกต่อเนื่องของฟีเจอร์ออกเป็นถังขยะแล้วเปลี่ยนฟีเจอร์นั้น ๆ )?

    เหตุการณ์ที่เกิดขึ้นในถังขยะหลายรูปแบบนั้นมีคุณลักษณะหลายอย่าง (เกิดขึ้นหรือไม่เกิดขึ้นในแต่ละถังขยะ) ดังนั้นการทดสอบความเป็นอิสระของไคสแควร์จึงสามารถใช้ได้กับพวกมันใช่ไหม?

    โดยวิธีการที่ฉันเดาเราสามารถใช้การทดสอบความเป็นอิสระของไคสแควร์กับคุณสมบัติและผลลัพธ์ของชนิดใด ๆถูกต้อง?

    สำหรับส่วนผลลัพธ์เราสามารถเลือกฟีเจอร์สำหรับการจัดหมวดหมู่ไม่เพียง แต่สำหรับการถดถอยโดยการทดสอบความเป็นอิสระของไคสแควร์โดยการสรุปผลลัพธ์อย่างต่อเนื่องใช่มั้ย

  4. เว็บไซต์เรียนรู้ scikitยังกล่าวว่า

    คำนวณสถิติไคสแควร์ระหว่างคุณลักษณะที่ไม่เป็นลบและคลาส

    คะแนนนี้สามารถใช้เพื่อเลือกคุณสมบัติ n_features ที่มีค่าสูงสุดสำหรับสถิติทดสอบไคสแควร์จาก X ซึ่งต้องมีเฉพาะคุณสมบัติที่ไม่เป็นลบเช่น booleans หรือความถี่ (เช่นจำนวนคำในการจำแนกเอกสาร) เทียบกับ ชั้นเรียน

    ทำไมการทดสอบจึงต้องการคุณสมบัติที่ไม่จำเป็น

    หากคุณสมบัติไม่มีสัญญาณ แต่มีการจัดหมวดหมู่หรือไม่ต่อเนื่องการทดสอบยังสามารถใช้กับมันได้หรือไม่? (ดูส่วนของฉัน 1)

    หากคุณสมบัติเป็นลบเราสามารถลบโดเมนของพวกเขาและแทนที่ด้วยสิ่งที่เกิดขึ้น (เช่นเดียวกับสิ่งที่ฉันเดาสำหรับการใช้การทดสอบกับชุดข้อมูลของไอริสดูตอนที่ 2) ใช่ไหม?

หมายเหตุ: ฉันเดา Scikit Learn ตามหลักการทั่วไปและนั่นคือสิ่งที่ฉันขอที่นี่ ถ้าไม่เช่นนั้นก็ยังคงอยู่

คำตอบ:


2

ฉันคิดว่าส่วนหนึ่งของความสับสนของคุณเกี่ยวกับตัวแปรประเภทใดที่ไคสแควร์สามารถเปรียบเทียบได้ Wikipedia กล่าวว่าสิ่งต่อไปนี้เกี่ยวกับสิ่งนี้:

มันทดสอบสมมติฐานว่างที่ระบุว่าการแจกแจงความถี่ของเหตุการณ์บางอย่างที่สังเกตได้ในตัวอย่างนั้นสอดคล้องกับการแจกแจงเชิงทฤษฎีโดยเฉพาะ

ดังนั้นจึงเปรียบเทียบการแจกแจงความถี่หรือที่เรียกว่าการนับหรือเรียกอีกอย่างว่าตัวเลขที่ไม่เป็นลบ การแจกแจงความถี่ที่แตกต่างกันถูกกำหนดโดยตัวแปรเด็ดขาด เช่นสำหรับแต่ละค่าของตัวแปรเด็ดขาดจะต้องมีการแจกแจงความถี่ที่สามารถเปรียบเทียบกับคนอื่น ๆ

มีหลายวิธีในการรับการแจกแจงความถี่ มันอาจมาจากตัวแปรเด็ดขาดที่สองซึ่งเกิดร่วมกับตัวแปรเด็ดขาดแรกจะถูกนับเพื่อให้ได้การแจกแจงความถี่แบบแยก อีกทางเลือกหนึ่งคือการใช้ตัวแปรตัวเลข (หลายตัว) สำหรับค่าที่แตกต่างกันของตัวแปรเด็ดขาดก็สามารถ (เช่น) รวมผลรวมของตัวแปรตัวเลข ในความเป็นจริงหากตัวแปรเด็ดขาดจะถูกแปลงเป็นแบบไบนารี่เดิมเป็นรุ่นที่เฉพาะเจาะจงในภายหลัง

ตัวอย่าง

จากตัวอย่างดูชุดตัวแปรเหล่านี้:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

ตัวแปรหมวดหมู่xและyสามารถเปรียบเทียบได้โดยการนับการเกิดร่วมและนี่คือสิ่งที่เกิดขึ้นกับการทดสอบไคสแควร์:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

อย่างไรก็ตามคุณยังสามารถรับรู้ค่าของ 'x' และรับตัวแปรต่อไปนี้:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

zนับค่าอยู่ในขณะนี้เท่ากับข้อสรุปค่าที่ตรงกับค่าของ

                 x1    x2
'wild'           1     0
'domesticated'   1     2

ในขณะที่คุณสามารถเห็นตัวแปรเด็ดขาดเดียว ( x) หรือตัวแปรตัวเลขหลายตัว ( x1และx2) จะแสดงเท่า ๆ กันในตารางฉุกเฉิน ดังนั้นการทดสอบ chi-squared สามารถนำไปใช้กับตัวแปรเด็ดขาด (ฉลากใน sklearn) รวมกับตัวแปรเด็ดขาดอื่นหรือตัวแปรตัวเลขหลายตัว (คุณสมบัติใน sklearn)


ดังนั้นหากการเลือกคุณลักษณะ chi_square สามารถใช้ได้เฉพาะกับคุณสมบัติที่ไม่เป็นลบ (freq, count, ect) นั่นหมายความว่าอย่างไรสำหรับสถานการณ์ที่มีคุณลักษณะที่มีค่าลบ แปลงคุณสมบัติหรือใช้วิธีการเลือกคุณสมบัติอื่นหรือไม่ สมมติว่าเราได้ทำการวิจัยใหม่เกี่ยวกับ Iris Dataset และเรามีฟีเจอร์ที่วัดการเปลี่ยนแปลงของความยาว sepal ทุกวัน ในที่สุดและจะมีค่าลบ พืชจะเหี่ยวแห้งและหดตัวทำให้ความยาวเปลี่ยนแปลงเป็นลบ บางทีเรากำลังพยายามจำแนกพืชที่ว่ามันจะเหี่ยวแห้งหรือเร็วขนาดไหน
Arash Howaida

1
ไคสแควร์ขึ้นอยู่กับสัดส่วนของค่า (เช่นการแจกแจงความถี่) สิ่งนี้ถูกนำไปใช้โดยการรวมค่าคุณลักษณะ (สองครั้ง) ดังนั้นส่วนหนึ่งของผลรวมทั้งหมดควรมีความหมาย ด้วยค่าลบนี่ไม่ใช่กรณี
Pieter
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.