คุณควรสร้างมาตรฐานให้กับตัวแปรไบนารีหรือไม่?


25

ฉันมีชุดข้อมูลที่มีชุดคุณสมบัติ บางคนก็มีไบนารีใช้งานหรือไล่ออกใช้งานหรืออยู่เฉยๆ) และส่วนที่เหลือจะมีมูลค่าที่แท้จริงเช่น4564.342(1=0=4564.342

ฉันต้องการที่จะเลี้ยงข้อมูลนี้ไปยังขั้นตอนวิธีการเรียนรู้ของเครื่องดังนั้นฉัน -score คุณสมบัติมูลค่าจริงทั้งหมด ฉันได้พวกมันมาระหว่างช่วงและโดยประมาณ ตอนนี้ค่าไบนารีนอกจากนี้ยังมี -scored ดังนั้นศูนย์กลายเป็นและคนที่กลายเป็น0.5555Z3-2Z-0.2220.5555

การทำให้เป็นมาตรฐานตัวแปรไบนารีเช่นนี้เหมาะสมหรือไม่

คำตอบ:


14

การทำให้ตัวแปรฐานสองแบบมาตรฐานไม่สมเหตุสมผล ค่าต่าง ๆ โดยพลการ; พวกเขาไม่ได้มีความหมายอะไรกับตัวเอง อาจมีเหตุผลในการเลือกค่าบางอย่างเช่น 0 & 1 ที่เกี่ยวกับปัญหาความมั่นคงเชิงตัวเลข แต่นั่นคือเหตุผล


เกิดอะไรขึ้นถ้าพวกเขาอยู่ระหว่าง 0-100 ดังที่ฉันพูดพวกเขาหมายถึงสิ่งต่าง ๆ เช่น "จดจำใบหน้า" และ "ไม่รู้จักใบหน้า" และ 0-100 หมายถึงระดับความมั่นใจ มันทำให้รู้สึกถึงคะแนน z ที่?
siamii

ตัวอย่าง 0-100 ของคุณดูเหมือนว่าเป็นการจัดอันดับตามลำดับ มีรายละเอียดเล็ก ๆ น้อย ๆ เกี่ยวกับวิธีการจัดการที่ดีที่สุดกับสถานการณ์นั้น & มันถูกกล่าวถึงใน CV ค่อนข้างน้อย ค้นหาตามลำดับแท็กเพื่อเรียนรู้เพิ่มเติม
gung - Reinstate Monica

ปัญหาก็คือตัวแปรบางตัวเท่านั้นที่มีค่า 0-100 ตัวอย่างอื่น ๆ เช่น -400 - +400
siamii

ปัญหาที่เกิดขึ้นคืออะไร? นี่เป็นปัญหาด้านเสถียรภาพเชิงตัวเลขหรือไม่?
gung - Reinstate Monica

บางทีคุณแนะนำฉันไม่ได้คะแนน z หรือไม่?
siamii

14

ตัวแปรไบนารีที่มีค่า 0, 1 สามารถ (โดยปกติ) ถูกปรับอัตราส่วนเป็น (ค่า - ค่าเฉลี่ย) / SD ซึ่งน่าจะเป็นคะแนน z ของคุณ

ข้อ จำกัด ที่ชัดเจนที่สุดคือถ้าคุณเกิดขึ้นเพื่อรับค่าศูนย์ทั้งหมดหรือค่าทั้งหมดจากนั้นเสียบใน SD สุ่มสี่สุ่มห้าจะหมายความว่าคะแนน z นั้นไม่แน่นอน มีกรณีสำหรับการกำหนดศูนย์เกินไปจนเป็นค่า - หมายถึงเป็นศูนย์เหมือนกัน แต่สิ่งต่าง ๆ ทางสถิติจะไม่สมเหตุสมผลถ้าตัวแปรเป็นค่าคงที่จริงๆ อย่างไรก็ตามโดยทั่วไปหาก SD มีขนาดเล็กจะมีความเสี่ยงมากกว่าที่คะแนนจะไม่เสถียรและ / หรือไม่ได้รับการพิจารณาที่ดี

ปัญหาการให้คำตอบที่ดีกว่าสำหรับคำถามของคุณคือสิ่งที่คุณกำลังพิจารณา ฟังดูราวกับว่าเป็นอัลกอริธึมที่รวมข้อมูลสำหรับตัวแปรหลายตัวและดังนั้นจึงมักจะสมเหตุสมผลที่จะจัดให้มีขนาดใกล้เคียงกัน

(LATER) ในขณะที่โปสเตอร์ต้นฉบับเพิ่มความคิดเห็นทีละคำถามของพวกเขาคือ morphing ฉันยังคงพิจารณาว่า (ค่า - ค่าเฉลี่ย) / SD เหมาะสม (เช่นไม่ไร้สาระ) สำหรับตัวแปรไบนารีตราบใดที่ SD เป็นค่าบวก อย่างไรก็ตามการถดถอยโลจิสติกได้รับการตั้งชื่อในภายหลังว่าเป็นแอปพลิเคชันและสำหรับเรื่องนี้ไม่มีประโยชน์ทางทฤษฎีหรือการปฏิบัติ (และแน่นอนการสูญเสียความเรียบง่าย) กับสิ่งอื่นใดนอกเหนือจากการให้อาหารในตัวแปรไบนารีเช่น 0, 1 ที่; หากไม่เป็นเช่นนั้นให้ละทิ้งซอฟต์แวร์นั้นไปใช้กับโปรแกรมที่สามารถทำได้ ในแง่ของคำถามชื่อ: สามารถใช่; ไม่ควร


3
คำตอบสั้น ๆ ก็คือมันไม่มีความหมายที่แตกต่างกันและฉันเห็นว่าไม่มีเหตุผลว่าทำไมการเปลี่ยน 0, 1 ถึง z-score จะช่วยอะไรในสถานการณ์นี้ หากต้องการโน้มน้าวใจตัวเองลองทั้งสองวิธีแล้วดูว่าไม่มีอะไรเปลี่ยนแปลงที่สำคัญ
Nick Cox

3
ในทางตรงกันข้ามฉันคิดว่าคนส่วนใหญ่จะใช้ 0, 1 ที่นี่
Nick Cox

1
เมื่อคุณทำการถดถอยโลจิสติกส์ซอฟต์แวร์เกือบจะทำมาตรฐานภายใต้ประทุนอย่างแน่นอน (เพื่อให้ได้คุณสมบัติตัวเลขที่ดีขึ้น) ดังนั้นจึงเป็นความคิดที่ดีที่จะเก็บตัวบ่งชี้ไบนารีไว้ในทางที่มีความหมาย การกำหนดมาตรฐานไม่ให้เสียงดีหรือมีประโยชน์
whuber

1
วิธีการเรียนรู้ของเครื่องใด ๆ ที่ต้องให้คุณ "คาดการณ์" แบบไบนารีเป็นสิ่งต้องสงสัย
Frank Harrell

2
เนื่องจากเป็นการใช้งานของคุณเองดังนั้นจึงไม่มีใครที่มีพื้นฐานที่จะให้คำตอบอย่างมีวัตถุประสงค์! คุณต้องตรวจสอบว่าซอฟต์แวร์ของคุณปฏิบัติต่อข้อมูลเพื่อตัดสินใจว่ามาตรฐานก่อนหน้านี้เหมาะสมหรือไม่
whuber

3

ตัวอย่างที่ดีอย่างหนึ่งที่สามารถเป็นประโยชน์ในการสร้างมาตรฐานในวิธีที่แตกต่างกันเล็กน้อยได้รับในหัวข้อ 4.2 ของ Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ ) นี่คือส่วนใหญ่เมื่อการตีความของสัมประสิทธิ์เป็นที่สนใจและบางทีเมื่อมีผู้ทำนายไม่มาก

ที่นั่นพวกมันสร้างมาตรฐานของตัวแปรไบนารี (โดยมีสัดส่วนเท่ากับ 0 และ 1) โดย

x-μx2σx,
σ±0.5x=0x=1σx

โปรดอธิบาย "ด้วยสัดส่วนที่เท่ากับ 0 และ 1" เนื่องจากตัวแปรไบนารีที่ฉันเห็นนั้นไม่ค่อยเป็นเช่นนั้น
Nick Cox

ฉันไม่คิดว่าสัดส่วนจะสร้างความแตกต่างได้จริงพวกเขาแค่ใช้มันเพื่อทำให้ตัวอย่างสะอาดขึ้น
นักเรียนของ Gosset

1

คุณต้องการสร้างมาตรฐานตัวแปรสุ่มไบนารีหรือสัดส่วนได้อย่างไร

Y:SRY{0,1}

X[0,1]xR+


0

ในตัวแปรไบนารีการถดถอยโลจิสติกอาจเป็นมาตรฐานสำหรับการรวมกับ vars continuos เมื่อคุณต้องการให้พวกเขาทั้งหมดที่ไม่ให้ข้อมูลก่อนเช่น N ~ (0,5) หรือ Cauchy ~ (0,5) มาตรฐานแนะนำให้เป็นดังนี้: ใช้จำนวนรวมและให้

1 = สัดส่วน 1

0 = 1 - สัดส่วนของ 1

-----

แก้ไข: จริง ๆ แล้วฉันไม่ถูกต้องเลยมันไม่ใช่มาตรฐาน แต่การขยับไปที่กึ่งกลางที่ 0 และแตกต่างกัน 1 ในสภาพล่างและชั้นบนสมมติว่าประชากร 30% กับ บริษัท A และอีก 70% เราสามารถกำหนดตัวแปร "บริษัท A" ที่กึ่งกลางเพื่อรับค่า -0.3 และ 0.7


ไม่สามารถเข้าใจสิ่งนี้ว่าเป็นมาตรฐาน
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.