เหตุใดเราจึงแปลงข้อมูลที่เบ้เป็นการแจกแจงแบบปกติ


15

ฉันกำลังแก้ไขปัญหาการแข่งขันด้านราคาที่อยู่อาศัยใน Kaggle ( เคอร์เนลของ Human Analog ในราคาบ้าน: เทคนิคการถดถอยขั้นสูง ) และได้ข้ามส่วนนี้:

# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew

skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index

train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])

ฉันไม่แน่ใจว่าจำเป็นต้องแปลงการแจกแจงแบบเบ้เป็นการแจกแจงแบบปกติอย่างไร กรุณาอธิบายให้คนอื่นทราบ:

  1. ทำไมสิ่งนี้ถึงถูกทำที่นี่? หรือว่ามีประโยชน์อย่างไร
  2. สิ่งนี้แตกต่างจากการปรับขนาดคุณสมบัติอย่างไร
  3. นี่เป็นขั้นตอนที่จำเป็นสำหรับวิศวกรรมคุณลักษณะหรือไม่ จะเกิดอะไรขึ้นถ้าฉันข้ามขั้นตอนนี้

2
ดังนั้นที่เหลือเป็นแบบเกาส์ (และสามารถยกเลิกได้โดยเฉลี่ย) ความแปรปรวนที่มีเสถียรภาพและเงื่อนไขเพิ่มประสิทธิภาพการบรรจบ expedite en.wikipedia.org/wiki/Power_transform
Emre

คำตอบ:


12

คุณอาจต้องการตีความค่าสัมประสิทธิ์ของคุณ นั่นคือเพื่อให้สามารถที่จะพูดสิ่งที่ชอบ "ถ้าผมเพิ่มตัวแปรของฉันโดย 1 แล้วโดยเฉลี่ยและทุกคนเท่าเทียมกัน, Yควรจะเพิ่มขึ้นโดยβ 1 "X1Yβ1

เพื่อให้สัมประสิทธิ์ของคุณตีความได้การถดถอยเชิงเส้นถือว่าเป็นเรื่องต่าง ๆ

หนึ่งในสิ่งเหล่านี้คือไม่มีความสัมพันธ์อันหลากหลาย นั่นคือตัวแปรของคุณไม่ควรมีความสัมพันธ์ซึ่งกันและกันX

อีกประการหนึ่งคือความกระเทย ข้อผิดพลาดที่กระทำแบบจำลองของคุณควรจะมีความแปรปรวนเดียวกันเช่นคุณควรให้แน่ใจว่าการถดถอยเชิงเส้นไม่ได้ทำให้ข้อผิดพลาดเล็ก ๆ สำหรับค่าที่ต่ำของและข้อผิดพลาดที่ยิ่งใหญ่สำหรับค่าที่สูงขึ้นของX ในคำอื่น ๆ ความแตกต่างระหว่างสิ่งที่คุณคาดการณ์Yและค่าที่แท้จริงYควรจะคงที่ คุณสามารถมั่นใจได้ว่าด้วยการทำให้แน่ใจว่าYติดตามการแจกแจงแบบเกาส์ (การพิสูจน์เป็นแบบคณิตศาสตร์สูง)XXY^YY

ขึ้นอยู่กับข้อมูลของคุณคุณอาจทำให้ Gaussian การแปลงแบบปกติกำลังการผกผัน, ลอการิทึมหรือรากที่สอง แน่นอนว่ามีคนอื่น ๆ อีกมากมายทุกอย่างขึ้นอยู่กับข้อมูลของคุณ คุณต้องดูข้อมูลของคุณแล้วทำฮิสโตแกรมหรือเรียกใช้การทดสอบปกติเช่นการทดสอบ Shapiro-Wilk

เหล่านี้เป็นเทคนิคในการสร้างประมาณเป็นกลาง ฉันไม่คิดว่ามันจะเกี่ยวอะไรกับการคอนเวอร์เจนซ์อย่างที่คนอื่นพูด (บางครั้งคุณอาจต้องการทำให้ข้อมูลของคุณเป็นปกติ แต่นั่นเป็นหัวข้อที่ต่างออกไป)

การทำตามสมมติฐานการถดถอยเชิงเส้นเป็นสิ่งสำคัญหากคุณต้องการตีความค่าสัมประสิทธิ์หรือหากคุณต้องการใช้การทดสอบทางสถิติในแบบจำลองของคุณ มิฉะนั้นลืมมัน

Y^-Y2Ynormalize


3

ข้อมูลที่เอียงที่นี่กำลังถูกทำให้เป็นมาตรฐานโดยการเพิ่มหนึ่งรายการ (เพิ่มอีกหนึ่งรายการเพื่อให้ค่าศูนย์ถูกแปลงเป็นหนึ่งเนื่องจากไม่ได้กำหนดล็อก 0 ไว้) และทำการบันทึกตามธรรมชาติ ข้อมูลเกือบจะเป็นมาตรฐานโดยใช้เทคนิคการแปลงเช่นการสแควร์รูทหรือซึ่งกันและกันหรือลอการิทึม ตอนนี้มันเป็นสิ่งจำเป็น อันที่จริงแล้วอัลกอริธึมในข้อมูลจำนวนมากถือว่าวิทยาศาสตร์ข้อมูลเป็นเรื่องปกติและคำนวณสถิติต่างๆที่สมมติว่าเป็นเช่นนี้ ดังนั้นยิ่งข้อมูลใกล้เคียงกับปกติมากเท่าไหร่มันก็ยิ่งเหมาะกับสมมติฐานมากเท่านั้น


3
อัลกอริทึมที่นี่เป็นการไล่ระดับสีแบบไล่ระดับและถดถอยแบบ Lasso ฉันคิดว่าคำตอบนี้จะเป็นประโยชน์มากขึ้นหากสามารถแสดงให้เห็นว่าเกี่ยวข้องกับอัลกอริธึมทั้งสองนี้อย่างไร (หรือไม่)
oW_

จากมุมมองของฉันเมื่อแบบจำลองได้รับการฝึกฝนไม่ว่าจะเป็นแบบถดถอยเชิงเส้นหรือต้นไม้การตัดสินใจบางส่วน (มีประสิทธิภาพถึงค่าผิดปกติ) ข้อมูลแบบเบ้ทำให้รูปแบบที่ยากต่อการหารูปแบบที่เหมาะสมในข้อมูลคือเหตุผลที่เราต้องทำการ เป็นปกติหรือหนึ่งเสียน
Goldi Rana

1

เพราะข้อมูลวิทยาศาสตร์เป็นเพียงสถิติในตอนท้ายของวันและเป็นหนึ่งในสมมติฐานที่สำคัญของสถิติเป็นทฤษฎีขีด จำกัด กลาง ดังนั้นขั้นตอนนี้จึงเสร็จเนื่องจากบางขั้นตอนต่อมาใช้เทคนิคสถิติที่ต้องอาศัย


1
ทฤษฎีบทไม่ใช่ข้อสมมติฐาน ทฤษฎีบทขีด จำกัด กลางที่จริงแล้วรับประกันได้ว่าค่าเฉลี่ยของตัวแปรสุ่มที่เป็นอิสระนั้นโดยปกติแล้วจะถูกกระจายโดยทั่วไปแม้ว่าตัวแปรสุ่มแต่ละตัวจะไม่ได้รับการกระจายตามปกติ
Elias Strehle

1
นี่เป็นเหตุผลหนึ่งที่ทำให้มีข้อบกพร่องอย่างมาก มันเหมือน: "- ฉันเคยเห็นคนปอกเปลือกแอปเปิ้ลก่อนกินทำไม - โอ้นั่นเป็นเพราะแอปเปิ้ลเป็นผลไม้และหนึ่งในผลไม้สำคัญคือส้มและคุณมักปอกเปลือกส้ม!"
ayorgo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.