วิธีการพิสูจน์ทางสถิติว่าคอลัมน์มีข้อมูลหมวดหมู่หรือไม่ใช้ Python


10

ฉันมี data frame ใน python ที่ฉันต้องการค้นหาตัวแปรเด็ดขาดทั้งหมด การตรวจสอบประเภทของคอลัมน์นั้นไม่ได้ผลเสมอไปเพราะintประเภทยังสามารถจัดหมวดหมู่ได้

ดังนั้นฉันจึงขอความช่วยเหลือในการค้นหาวิธีทดสอบสมมติฐานที่ถูกต้องเพื่อระบุว่าคอลัมน์นั้นเป็นหมวดหมู่หรือไม่

ฉันพยายามทดสอบไคสแควร์ด้านล่าง แต่ไม่แน่ใจว่าดีพอหรือไม่

import numpy as np
data = np.random.randint(0,5,100)
import scipy.stats as ss
ss.chisquare(data)

กรุณาแนะนำ


1
คุณช่วยอธิบายได้ไหมถ้าฉันเข้าใจถูกต้องว่าคุณต้องการแยกความแตกต่างระหว่าง int ที่ใช้เป็นตัวแปรลำดับและใช้เป็นการเข้ารหัสหมวดหมู่โดยพลการ? ฉันไม่มีคำตอบ แต่มันอาจช่วยให้คนอ่านอ่านอย่างชัดเจนว่าคุณต้องการอะไร ฉันไม่คิดว่า Chi2 สามารถทำงานได้อย่างน่าเชื่อถือ
ReneBt

ใช่คุณถูก. ยกเว้นการมุ่งเน้นของฉันไม่ได้อยู่ที่ประเภทของตัวแปร แต่เป็นข้อมูลที่มีอยู่ ดังนั้นในโค้ดตัวอย่างที่ฉันแบ่งปันผลลัพธ์ควรเป็นตัวแปรเด็ดขาดเพราะมีค่าที่ไม่ซ้ำกันเพียง 5 ค่า
Amit

1
กฎ "ผลลัพธ์ควรอยู่ที่ไหนว่าเป็นตัวแปรเด็ดขาดเพราะมีค่าที่ไม่ซ้ำกัน 5 ค่าเท่านั้น" มาจาก?
Dennis Soemers

โอ้ไม่ใช่กฎฉันรู้ว่าข้อมูลคอลัมน์ทั้งหมดของฉันคือค่า 5 ค่าเหล่านี้เท่านั้น
Amit

แม้ว่าคนอื่น ๆ จะชี้ให้เห็นอย่างถูกต้องว่ามันไม่สามารถทำได้ แต่สิ่งนี้จะทำให้เกิดปัญหาการเรียนรู้ของเครื่องที่น่าสนใจ ไม่ต้องสงสัยเลยว่ามีโดเมนปัญหาที่สามารถคาดการณ์ได้อย่างแม่นยำอย่างสมเหตุสมผล
John Coleman

คำตอบ:


34

คำตอบสั้น ๆ : คุณทำไม่ได้

ไม่มีการทดสอบทางสถิติที่จะบอกคุณว่าตัวทำนายที่มีจำนวนเต็มระหว่าง 1 ถึง 10 เป็นตัวทำนายตัวเลข (เช่นจำนวนลูก) หรือเข้ารหัสสิบหมวดหมู่ที่แตกต่างกัน (หากผู้ทำนายมีตัวเลขติดลบหรือจำนวนที่เล็กที่สุดมีขนาดใหญ่กว่าหนึ่งหรือข้ามจำนวนเต็มนี่อาจแย้งว่าเป็นการเข้ารหัสแบบหมวดหมู่ - หรืออาจหมายถึงว่านักวิเคราะห์ใช้การเข้ารหัสที่ไม่ได้มาตรฐาน)

วิธีเดียวที่จะตรวจสอบให้แน่ใจคือใช้ประโยชน์จากความเชี่ยวชาญของโดเมนหรือชุดโค้ดของชุดข้อมูล (ซึ่งควรมีอยู่เสมอ)


14
"codebook ของชุดข้อมูล (ซึ่งควรมีอยู่เสมอ)" - ฮ่าดีมาก
ประสาทวิทยา

12

ไม่ว่าคุณจะใช้หลักเกณฑ์หรือกฎง่ายๆเพียงใดก็ตามสำหรับชุดข้อมูลของคุณยินดีต้อนรับคุณ แต่เราไม่เห็นข้อมูลของคุณ ไม่ว่าในกรณีใดปัญหาจะดีขึ้นโดยทั่วไปและไม่มีการอ้างอิงถึงซอฟต์แวร์เฉพาะใด ๆ

มันแย่กว่าที่คุณคิดแม้ว่าคุณจะคิดว่ามันแย่กว่าที่คุณคิด

  1. @Stephan Kolassa ตอบคำถามแล้วทำให้เป็นประเด็นสำคัญ จำนวนเต็มขนาดเล็กอาจหมายถึงการนับมากกว่าหมวดหมู่: 3 หมายถึงรถยนต์หรือแมว 3 ตัวไม่เหมือนกับ 3 ซึ่งหมายถึง "บุคคลที่เป็นเจ้าของรถยนต์" หรือ "บุคคลที่เป็นเจ้าของแมว"

  2. จุดทศนิยมสามารถแฝงตัวอยู่ในตัวแปรเด็ดขาดซึ่งเป็นส่วนหนึ่งของการจำแนกประเภทรหัสเช่นอุตสาหกรรมหรือโรค

  3. การวัดความรู้สึกที่เข้มงวดอาจเป็นจำนวนเต็มตามแบบแผนเช่นความสูงของคนอาจถูกรายงานเป็นจำนวนเต็มเซนติเมตรหรือนิ้วความดันโลหิตเป็นจำนวนเต็มมิลลิเมตร Hg

  4. จำนวนที่แตกต่างกัน (คำที่ดีกว่า "ไม่ซ้ำ" ซึ่งยังคงมีความหมายหลักของการเกิดขึ้นเพียงครั้งเดียว) ค่าไม่ได้เป็นแนวทางที่ดีเช่นกัน จำนวนความสูงที่แตกต่างกันของคนที่เป็นไปได้ในกลุ่มตัวอย่างอาจจะน้อยกว่าจำนวนของความผูกพันทางศาสนาที่แตกต่างกันหรือต้นกำเนิดชาติพันธุ์


+1 นี่คือรายการสิ่งที่ควรพิจารณา คุณควรรวมสิ่งนี้กับความรู้เกี่ยวกับโดเมนของคุณเกี่ยวกับชุดข้อมูล (และเอกสารประกอบ) เพื่อทำการตรวจหาตัวแปรเด็ดขาดแบบอัตโนมัติ
แอนนา

@Anna ฉันจะบอกว่าการตรวจจับอัตโนมัติไม่ควรทำและเป็นสิ่งที่จะทำให้คุณมีปัญหาตามที่ระบุไว้ในหัวข้อนี้ ความรู้เกี่ยวกับโดเมนและเอกสารประกอบควรระบุตัวแปรหลายตัวแปรจากตัวแปรอื่น ๆ เพื่อให้คุณไม่ต้องเดา
prince_of_pears

7

ฉันคิดว่ามันเลวร้ายยิ่งกว่าคำตอบอื่น ๆ ที่แนะนำ: ข้อมูลไม่ใช่หมวดหมู่ย่อยหรือตัวเลขย่อยæternatis - "ระดับการวัด" เป็นสิ่งที่นักวิเคราะห์กำหนดเพื่อตอบคำถามเฉพาะในโอกาสพิเศษ ดูคำตอบ Glen_b ของที่นี่

มันมีความสำคัญในทางปฏิบัติที่จะเข้าใจว่า ตัวอย่างเช่นด้วยต้นไม้การจำแนกความแตกต่างระหว่างอัตราส่วนช่วงเวลาและตัวทำนายระดับลำดับจะไม่มีผล: ความแตกต่างเพียงอย่างเดียวที่สำคัญก็คือว่าระหว่างตัวทำนายลำดับและตัวระบุ การกำหนดอัลกอริธึมเพื่อแยกตัวทำนายที่จุดตามเส้นโดยแยกสูงขึ้นจากค่าที่ต่ำกว่าสามารถมีผลกระทบอย่างมีนัยสำคัญต่อประสิทธิภาพการทำนาย - สำหรับดีหรือไม่ดีขึ้นอยู่กับความนุ่มนวลของความสัมพันธ์ของตัวทำนาย & ขนาดของชุดข้อมูล ไม่มีเหตุผลที่จะทำการตัดสินใจเพียงอย่างเดียวโดยคำนึงถึงว่าตัวแปรพยากรณ์เป็นอย่างไรโดยไม่คำนึงถึงการวิเคราะห์ที่คุณกำลังจะทำโดยไม่คำนึงถึงคุณค่าที่คุณพบในตัวอย่าง


0

นี่เป็นคำถามเปิดการวิจัย ดูตัวอย่างงานของ Valera และคณะ ( กระดาษ ) หรือส่วนขยาย (เช่นหนึ่งโดย Dhir et al. - paper )

แก้ไข:

การปฏิบัติทั่วไปในสถิติและการเรียนรู้ของเครื่องคือการสมมติว่าชนิดข้อมูลทางสถิติ (เช่นลำดับ, หมวดหมู่หรือมูลค่าจริง) ของตัวแปรและโดยปกติแล้วยังเป็นที่รู้จักกันในรูปแบบความน่าจะเป็น อย่างไรก็ตามเนื่องจากความพร้อมใช้งานของข้อมูลในโลกแห่งความจริงเพิ่มขึ้นข้อสันนิษฐานนี้จึงเข้มงวดเกินไป ข้อมูลมักจะต่างกันซับซ้อนและจัดทำเอกสารไม่ถูกต้องหรือไม่สมบูรณ์ น่าแปลกที่ถึงแม้จะมีความสำคัญในทางปฏิบัติแล้วก็ยังไม่มีเครื่องมือในการค้นหาประเภทสถิติโดยอัตโนมัติรวมถึงแบบจำลองความน่าจะเป็น (เสียงรบกวน) ที่เหมาะสมสำหรับตัวแปรในชุดข้อมูล

(จากกระดาษ Valera)

ดังนั้นเมื่อเราพูดว่านี่เป็น "คำถามเปิด" (อ้างถึงตัวเองแปลก ๆ ) เราหมายถึงว่าในปัจจุบันไม่มีวิธีการอัตโนมัติที่ดีสำหรับการอนุมานประเภทของข้อมูลที่ได้รับตัวอย่างแน่นอน หากคุณมีตัวอย่างที่ไม่มีที่สิ้นสุดสิ่งนี้จะเป็นเรื่องง่าย แต่เนื่องจากเป็นไปไม่ได้เราจึงจำเป็นต้องเปลี่ยนกลับไปใช้วิธีอื่น


คุณสามารถบอกเราว่าคุณกำลังอ้างอิงถึงโดย "คำถามเปิดการวิจัย" โปรดพิจารณาด้วยว่าคำตอบของคุณไม่ได้ขัดแย้งกับคำตอบอื่น ๆ ในกระทู้นี้หรือไม่!
whuber

แน่นอนให้ฉันแก้ไขคำตอบของฉัน
Astrid

ขอบคุณ. ดูเหมือนว่าสำหรับฉันเมื่ออ่านบทความของวาเลร่าแล้วมันก็อ้างได้ว่าแข็งแกร่งกว่า: กล่าวคือมันมีวิธีที่จะคาดเดาเกี่ยวกับประเภทของตัวแปรและโดยเฉพาะอย่างยิ่งในการแยกแยะความแตกต่างระหว่างข้อมูลเชิงลำดับและลำดับ ฉันไม่ได้ศึกษาวิธีการ แต่สันนิษฐานว่ามันต้องเป็นไปตาม (อย่างน้อยส่วนหนึ่ง) ในการมองหาความสัมพันธ์ระหว่างตัวแปรดังกล่าวกับตัวแปรอื่น ๆ ที่พวกเขาคาดว่าจะเกี่ยวข้อง ฉันไม่สามารถเข้าใจได้ว่า "ตัวอย่างที่ไม่มีที่สิ้นสุด" (สิ่งใดก็ตามที่อาจเป็นไปได้) จะเป็นการใช้งานเพิ่มเติมใด ๆ : คุณช่วยอธิบายได้อย่างไรว่ามันจะทำให้ปัญหา "ง่าย" หรือไม่?
whuber

จริงๆแล้วมันเป็นวิธีการที่มีประสิทธิภาพมากและฉันมีตัวเองได้ศึกษาในรายละเอียด (ซึ่งทำให้ฉันค่อนข้างจะลำเอียงใจคุณ) แต่พวกเขาคิดว่าฉลาดมาก เราสันนิษฐานว่าคอลัมน์แต่ละประเภทสามารถอธิบายได้ว่าเป็นส่วนผสมของประเภท (เหมือนรูปแบบผสม) และจากนั้นเราพยายามค้นหาประเภทที่มีน้ำหนักสูงสุดแล้วเรียกนักข่าวว่า 'ชนิด' ชนิดที่แท้จริงของตัวแปร เท่าที่การอนุมานประเภทดำเนินไปมันฉลาดและเป็นวิธีอัตโนมัติที่ดีที่สุด (ที่ฉันรู้) หากคนอื่นรู้จักผู้อื่นโปรดแชร์!
Astrid
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.