จำเป็นต้องมีมาตรฐานก่อนการถดถอยโลจิสติกที่เหมาะสมหรือไม่


39

คำถามของฉันคือเราจำเป็นต้องสร้างมาตรฐานให้กับชุดข้อมูลเพื่อให้แน่ใจว่าตัวแปรทั้งหมดมีขนาดเท่ากันระหว่าง [0,1] ก่อนการถดถอยโลจิสติกที่เหมาะสม สูตรคือ:

ximin(xi)max(xi)min(xi)

ชุดข้อมูลของฉันมี 2 ตัวแปรพวกเขาอธิบายสิ่งเดียวกันสำหรับสองช่องทาง แต่ปริมาณนั้นแตกต่างกัน สมมติว่าเป็นจำนวนการเข้าชมของลูกค้าในร้านค้าสองแห่งและที่นี่คือว่าลูกค้าซื้อหรือไม่ เพราะลูกค้าสามารถเยี่ยมชมร้านค้าทั้งสองหรือร้านค้าครั้งแรกสองครั้งร้านค้าที่สองก่อนที่เขาจะทำการซื้อ แต่จำนวนการเข้าชมของลูกค้าทั้งหมดสำหรับร้านค้าที่ 1 นั้นใหญ่กว่าร้านที่สองถึง 10 เท่า เมื่อฉันเหมาะสมกับการถดถอยโลจิสติกนี้โดยไม่มีมาตรฐาน, coef(store1)=37, coef(store2)=13; coef(store1)=133, coef(store2)=11ถ้าฉันมาตรฐานข้อมูลแล้ว บางสิ่งเช่นนี้ วิธีใดที่เหมาะสมกว่า

ถ้าฉันทำโมเดลต้นไม้ตัดสินใจให้เหมาะสมล่ะ ฉันรู้ว่าโมเดลโครงสร้างแบบต้นไม้ไม่จำเป็นต้องมีมาตรฐานเพราะตัวแบบเองจะปรับมันอย่างใด แต่การตรวจสอบกับคุณทุกคน


10
คุณไม่จำเป็นต้องสร้างมาตรฐานเว้นแต่การถดถอยของคุณจะทำให้เป็นมาตรฐาน อย่างไรก็ตามบางครั้งมันช่วยในการตีความและไม่ค่อยเจ็บปวด
alex

3
ไม่ใช่วิธีปกติในการสร้างมาตรฐานxix¯sd(x) ?
Peter Flom - Reinstate Monica

1
@ ปีเตอร์นั่นคือสิ่งที่ฉันคิดไว้ก่อน แต่ฉันพบบทความbenetzkorn.com/2011/11/data-normalization-and-standardization/ ...... > ดูเหมือนว่าการทำให้เป็นมาตรฐานและมาตรฐานนั้นแตกต่างกัน หนึ่งคือการทำให้ความแปรปรวน 0 หมายถึง 1, อื่น ๆ คือการ rescale แต่ละตัวแปร นั่นคือสิ่งที่ฉันสับสน ขอบคุณสำหรับการตอบกลับของคุณ.
user1946504

7
สำหรับฉันมาตรฐานทำให้การตีความยากขึ้น
Frank Harrell

2
หากต้องการชี้แจงเกี่ยวกับสิ่งที่ @alex กล่าวไว้การปรับข้อมูลของคุณหมายถึงการCเปลี่ยนแปลงปัจจัยการกำหนดมาตรฐานที่เหมาะสม ดังนั้นคุณต้องเลือกCหลังจากสร้างมาตรฐานข้อมูล
akxlr

คำตอบ:


37

มาตรฐานไม่จำเป็นสำหรับการถดถอยโลจิสติก เป้าหมายหลักของคุณสมบัติมาตรฐานคือการช่วยให้การบรรจบกันของเทคนิคที่ใช้ในการเพิ่มประสิทธิภาพ ตัวอย่างเช่นหากคุณใช้ Newton-Raphson เพื่อเพิ่มโอกาสในการเพิ่มความเป็นไปได้การกำหนดมาตรฐานของคุณสมบัติต่างๆ มิฉะนั้นคุณสามารถเรียกใช้การถดถอยโลจิสติกของคุณโดยไม่ต้องรักษามาตรฐานในคุณสมบัติ


ขอบคุณสำหรับการตอบกลับของคุณ. นั่นหมายความว่าต้องการมาตรฐานหรือไม่ เนื่องจากเราต้องการให้ตัวแบบมาบรรจบกันและเมื่อเรามีตัวแปรนับล้านตัวมันก็ง่ายกว่าที่จะใช้ตรรกะของการสร้างมาตรฐานในขั้นตอนการสร้างแบบจำลองกว่าการปรับตัวแปรทีละตัวตามความจำเป็น ฉันเข้าใจถูกมั้ย
user1946504

4
ขึ้นอยู่กับวัตถุประสงค์ของการวิเคราะห์ ซอฟต์แวร์ที่ทันสมัยสามารถจัดการกับข้อมูลสุดขีดโดยไม่มีมาตรฐาน หากมีหน่วยธรรมชาติสำหรับแต่ละตัวแปร (ปี, ยูโร, กิโลกรัม ฯลฯ ) จากนั้นฉันจะลังเลที่จะสร้างมาตรฐานแม้ว่าฉันจะรู้สึกอิสระที่จะเปลี่ยนหน่วยจากกิโลกรัมเป็นตันหรือกรัมตัวอย่างเช่นเมื่อใดก็ตามที่เหมาะสมกว่า
Maarten Buis

19

@Aymen ถูกต้องคุณไม่จำเป็นต้องทำให้ข้อมูลของคุณเป็นปกติสำหรับการถดถอยโลจิสติก (สำหรับข้อมูลทั่วไปมากขึ้นก็อาจจะช่วยให้การอ่านผ่านด้าย CV นี้: เมื่อคุณควรศูนย์ข้อมูลของคุณและเมื่อคุณควรสร้างมาตรฐาน?นอกจากนี้คุณยังอาจจะทราบว่าการเปลี่ยนแปลงของคุณจะมากกว่าปกติที่เรียกว่า 'normalizing' ดู: วิธีการตรวจสอบ การกระจายเป็นปกติหรือไม่ ) ขอผมพูดถึงประเด็นอื่น ๆ ในคำถาม

เป็นที่น่าสังเกตว่าในการถดถอยโลจิสติกสัมประสิทธิ์ของคุณบ่งบอกถึงผลกระทบของการเปลี่ยนแปลงหนึ่งหน่วยในตัวแปรทำนายของคุณในอัตราต่อรองของ 'ความสำเร็จ' ผลของการเปลี่ยนตัวแปร (เช่นโดยการทำให้เป็นมาตรฐานหรือการทำให้เป็นมาตรฐาน) คือการเปลี่ยนแปลงสิ่งที่เราเรียกว่า 'หน่วย' ในบริบทของแบบจำลองของเรา ข้อมูลดิบของคุณแปรผันไปตามจำนวนหน่วยในเมตริกดั้งเดิม หลังจากที่คุณปกติข้อมูลของคุณตั้งแต่ที่จะ1นั่นคือการเปลี่ยนแปลงหนึ่งหน่วยในตอนนี้หมายถึงการเปลี่ยนจากการสังเกตค่าต่ำสุดไปเป็นค่าสังเกตสูงสุด จำนวนการเพิ่มของอัตราต่อรองของความสำเร็จจะไม่เปลี่ยนแปลง จากข้อเท็จจริงเหล่านี้ฉันสงสัยว่าตัวแปรแรกของคุณ ( ) ถูกขยายx01store1133/373.6หน่วยดั้งเดิมและตัวแปรที่สองของคุณ ( store2) ขยายออกเพียงหน่วยดั้งเดิม 11/130.85


17

หากคุณใช้การถดถอยแบบโลจิสติกด้วย LASSO หรือการถดถอยแบบสัน (เช่นเดียวกับคลาสWeka Logistic ) คุณควร ดังที่Hastie, Tibshirani และ Friedmanชี้ให้เห็น (หน้า 82 ของ pdf หรือที่หน้า 63 ของหนังสือ):

คำตอบของสันเขานั้นไม่เท่ากันภายใต้สเกลของอินพุตและดังนั้นหนึ่งมาตรฐานจะเป็นอินพุตมาตรฐานก่อนที่จะแก้ไข

ยังหัวข้อนี้จะ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.