คำถามติดแท็ก data-transformation

การแสดงออกทางคณิตศาสตร์บ่อยครั้งไม่เชิงเส้นของค่าข้อมูล ข้อมูลมักถูกแปลงเพื่อให้เป็นไปตามสมมติฐานของแบบจำลองทางสถิติหรือเพื่อให้ผลลัพธ์ของการวิเคราะห์สามารถตีความได้มากขึ้น

12
ฉันจะแปลงข้อมูลที่ไม่เป็นลบรวมถึงศูนย์ได้อย่างไร
หากฉันมีข้อมูลในเชิงบวกอย่างมากฉันมักจะบันทึก แต่ฉันควรทำอย่างไรกับข้อมูลที่ไม่ใช่ค่าลบที่มีค่าเป็นศูนย์ที่เอียงอย่างมาก ฉันเห็นการเปลี่ยนแปลงสองอย่างที่ใช้: เข้าสู่ระบบ( x + 1 )log⁡(x+1)\log(x+1)ซึ่งมีคุณสมบัติเรียบร้อยที่ 0 แมปกับ 0 เข้าสู่ระบบ( x + c )log⁡(x+c)\log(x+c)โดยที่ c ถูกประมาณหรือตั้งค่าเป็นค่าบวกที่น้อยมาก มีวิธีอื่นอีกไหม? มีเหตุผลที่ดีไหมที่จะชอบวิธีการหนึ่งมากกว่าวิธีอื่น?


2
เมื่อใด (และทำไม) คุณควรบันทึกการกระจาย (ของตัวเลข)?
สมมติว่าฉันมีข้อมูลในอดีตเช่นราคาหุ้นที่ผ่านมาความผันผวนของราคาตั๋วเครื่องบินข้อมูลทางการเงินในอดีตของ บริษัท ... ตอนนี้มีใครบางคน (หรือบางสูตร) มาพร้อมและกล่าวว่า "ขอใช้เวลา / ใช้เข้าสู่ระบบของการกระจาย" และนี่คือที่ที่ผมไปทำไม ? คำถาม: ทำไมคนเราควรจดบันทึกการกระจายสินค้าตั้งแต่แรก? บันทึกของการแจกแจง 'ให้ / ลดความซับซ้อน' ที่การกระจายดั้งเดิมไม่สามารถทำได้ / ไม่ได้? การเปลี่ยนแปลงบันทึกเป็น 'ไม่สูญเสีย' หรือไม่? คือเมื่อเปลี่ยนเป็น log-space และวิเคราะห์ข้อมูลข้อสรุปเดียวกันนี้มีไว้สำหรับการแจกแจงดั้งเดิมหรือไม่? มาทำไม และในที่สุดเมื่อไหร่ที่จะบันทึกการกระจาย? ภายใต้เงื่อนไขใดบ้างที่ตัดสินใจทำเช่นนี้ ฉันต้องการเข้าใจการแจกแจงแบบอิงบันทึก (เช่น lognormal) แต่ฉันไม่เคยเข้าใจแง่มุมว่าเมื่อใด / ทำไม - นั่นคือบันทึกการแจกแจงเป็นการแจกแจงแบบปกติดังนั้นจะเป็นอย่างไร สิ่งนั้นบอกอะไรกับฉันและทำไมตื๊อ ดังนั้นคำถาม! UPDATE : ตามความเห็นของ @ whuber ฉันดูที่โพสต์และด้วยเหตุผลบางอย่างฉันเข้าใจการใช้ log แปรรูปและการประยุกต์ในการถดถอยเชิงเส้นเนื่องจากคุณสามารถวาดความสัมพันธ์ระหว่างตัวแปรอิสระและบันทึกของตัวแปรตาม อย่างไรก็ตามคำถามของฉันเป็นเรื่องทั่วไปในแง่ของการวิเคราะห์การกระจายตัวเอง - ไม่มีความสัมพันธ์ต่อกันที่ฉันสามารถสรุปได้เพื่อช่วยให้เข้าใจเหตุผลของการบันทึกเพื่อวิเคราะห์การกระจาย …

8
ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง
ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?

1
ทำไมการแปลงสแควร์รูทจึงแนะนำสำหรับการนับข้อมูล
มันมักจะแนะนำให้ใช้รากที่สองเมื่อคุณมีข้อมูลนับ (สำหรับตัวอย่างบางส่วนใน CV ดู @ คำตอบ HarveyMotulsky ของที่นี่หรือคำตอบของ @ whuber ที่นี่ .) ในทางกลับกันเมื่อการปรับรูปแบบเชิงเส้นทั่วไปกับตัวแปรตอบสนองกระจายเป็น Poisson บันทึกคือการเชื่อมโยงที่เป็นที่ยอมรับ นี่เหมือนกับการแปลงบันทึกข้อมูลการตอบกลับของคุณ (แม้ว่าจะแม่นยำกว่านั้นคือทำการแปลงบันทึกของพารามิเตอร์ที่ควบคุมการกระจายการตอบสนอง) ดังนั้นจึงมีความตึงเครียดระหว่างสองสิ่งนี้ λλ\lambda คุณจะปรับความคลาดเคลื่อน (ชัดเจน) นี้อย่างไร ทำไมสแควร์รูทถึงดีกว่าลอการิทึม

5
ปริมาณที่ควรเพิ่มลงไปใน x เพื่อหลีกเลี่ยงการบันทึกเป็นศูนย์?
ฉันวิเคราะห์ข้อมูลของฉันแล้ว ตอนนี้ฉันต้องการดูการวิเคราะห์ของฉันหลังจากจดบันทึกตัวแปรทั้งหมด ตัวแปรหลายตัวมีค่าศูนย์จำนวนมาก ดังนั้นฉันจะเพิ่มจำนวนเล็กน้อยเพื่อหลีกเลี่ยงการบันทึกของศูนย์ จนถึงตอนนี้ฉันได้เพิ่ม 10 ^ -10 โดยไม่มีเหตุผลใด ๆ จริง ๆ เพียงเพราะฉันรู้สึกว่าการเพิ่มจำนวนน้อยมากจะแนะนำให้ลดผลกระทบของปริมาณที่ฉันเลือกโดยพลการ แต่ตัวแปรบางตัวมีค่าศูนย์เป็นส่วนใหญ่ดังนั้นเมื่อบันทึกไว้ส่วนใหญ่ -23.02 ช่วงของช่วงตัวแปรของฉันคือ 1.33-8819.21 และความถี่ของเลขศูนย์ก็แตกต่างกันเช่นกัน ดังนั้นตัวเลือกส่วนตัวของฉัน "ปริมาณน้อย" จึงมีผลต่อตัวแปรต่างกันมาก เป็นที่ชัดเจนแล้วว่า 10 ^ -10 เป็นตัวเลือกที่ไม่สามารถยอมรับได้อย่างสมบูรณ์เนื่องจากความแปรปรวนส่วนใหญ่ในตัวแปรทั้งหมดนั้นมาจาก "ปริมาณเล็กน้อย" โดยพลการ ฉันสงสัยว่าอะไรจะเป็นวิธีที่ถูกต้องมากขึ้นในการทำเช่นนี้ อาจจะดีกว่าถ้าเราหาปริมาณจากตัวแปรแต่ละตัวจากการกระจายตัว มีแนวทางใดบ้างเกี่ยวกับ "ปริมาณเล็กน้อย" ที่ควรได้รับ การวิเคราะห์ของฉันส่วนใหญ่เป็นรูปแบบค็อกซ์ที่เรียบง่ายกับตัวแปรและอายุ / เพศเป็น IV ตัวแปรคือความเข้มข้นของไขมันในเลือดต่าง ๆ ซึ่งมักมีค่าสัมประสิทธิ์การเปลี่ยนแปลงค่อนข้างมาก แก้ไข : การเพิ่มค่าที่ไม่เป็นศูนย์ที่เล็กที่สุดของตัวแปรดูเหมือนจะเป็นประโยชน์สำหรับข้อมูลของฉัน แต่อาจจะมีวิธีแก้ปัญหาทั่วไปใช่ไหม แก้ไข 2 : เนื่องจากศูนย์เพียงระบุความเข้มข้นต่ำกว่าขีด จำกัด การตรวจจับอาจตั้งค่าให้เป็น …

8
มันสมเหตุสมผลไหมที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง?
ในการตอบคำถามนี้เกี่ยวกับข้อมูลที่ไม่ต่อเนื่องและต่อเนื่องฉันยืนยันอย่างชัดเจนว่ามันไม่ค่อยมีเหตุผลที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง บนใบหน้าของมันที่ดูเหมือนชัดเจนในตัวเอง แต่ปรีชามักจะเป็นแนวทางที่ดีสำหรับสถิติหรืออย่างน้อยก็เป็นของฉัน ดังนั้นตอนนี้ฉันสงสัยว่า: จริงหรือ หรือมีการวิเคราะห์ที่สร้างขึ้นสำหรับการแปลงจากข้อมูลที่เป็นหมวดหมู่ไปเป็นบางส่วนที่มีประโยชน์จริง ๆ ? มันจะสร้างความแตกต่างได้ไหมถ้าข้อมูลนั้นเป็นอันดับ?

3
เครื่องชั่งน้ำหนักของเครื่องชั่งเหมาะสมเมื่อใด
ฉันได้อ่านว่าการใช้เครื่องชั่งบันทึกเมื่อการสร้างแผนภูมิ / กราฟเหมาะสมในบางสถานการณ์เช่นแกน y ในแผนภูมิอนุกรมเวลา อย่างไรก็ตามฉันไม่สามารถหาคำอธิบายที่ชัดเจนว่าทำไมถึงเป็นเช่นนั้นหรือเมื่อใดจะเหมาะสม โปรดจำไว้ว่าฉันไม่ใช่นักสถิติดังนั้นฉันอาจพลาดประเด็นไปโดยสิ้นเชิงและหากเป็นเช่นนั้นฉันขอขอบคุณทิศทางการแก้ไขทรัพยากร

3
Box-Cox ชอบการแปลงสำหรับตัวแปรอิสระหรือไม่?
Box-Cox มีการแปลงสำหรับตัวแปรอิสระหรือไม่? นั่นคือการแปลงที่ปรับตัวแปรให้เหมาะสมที่สุดเพื่อให้เหมาะสมกับแบบจำลองเชิงเส้นมากขึ้นหรือไม่xxxy~f(x) ถ้าเป็นเช่นนั้นมีฟังก์ชั่นในการทำสิ่งนี้ด้วยRหรือไม่?

1
การเข้ารหัสดัมมี่เทียบกับหนึ่งใน Scikit เรียนรู้
มีวิธีการเข้ารหัสตัวแปรเด็ดขาดสองวิธี กล่าวว่าหนึ่งตัวแปรเด็ดขาดมีค่าn การเข้ารหัสแบบ one-hotจะแปลงเป็นตัวแปรnในขณะที่การเข้ารหัสแบบจำลองจะแปลงเป็นตัวแปรn-1 ถ้าเรามีตัวแปรเด็ดขาดkแต่ละตัวมีค่าn การเข้ารหัสฮอตหนึ่งจบลงด้วยตัวแปรknในขณะที่การเข้ารหัสดัมมี่ลงท้ายด้วยตัวแปรkn-k ฉันได้ยินมาว่าสำหรับการเข้ารหัสที่ร้อนแรงเพียงครั้งเดียวการสกัดกั้นอาจนำไปสู่ปัญหา collinearity ซึ่งทำให้ตัวแบบไม่ดัง บางคนเรียกมันว่า " กับดักตัวแปรจำลอง " คำถามของฉัน: โมเดลการถดถอยเชิงเส้นของ Scikit-Learn ช่วยให้ผู้ใช้ปิดใช้งานการสกัดกั้น ดังนั้นสำหรับการเข้ารหัสที่ร้อนแรงฉันควรตั้งค่า fit_intercept = False เสมอหรือไม่ สำหรับการเข้ารหัสแบบสุ่มควรตั้งค่า fit_intercept เป็น True หรือไม่ ฉันไม่เห็น "คำเตือน" บนเว็บไซต์ เนื่องจากการเข้ารหัสแบบร้อนแรงสร้างตัวแปรมากขึ้นมันมีระดับความอิสระมากกว่าการเข้ารหัสแบบจำลองหรือไม่?

1
วิธีการใช้มาตรฐาน / การทำให้เป็นมาตรฐานในการฝึกอบรมและชุดทดสอบหากการทำนายเป็นเป้าหมาย?
ฉันจะแปลงข้อมูลทั้งหมดหรือเท่าของฉัน (ถ้าใช้ CV) ในเวลาเดียวกันได้หรือไม่? เช่น (allData - mean(allData)) / sd(allData) ฉันจะแปลงชุดรถไฟและชุดทดสอบแยกกันได้หรือไม่? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) หรือว่าฉันจะแปลงชุดรถไฟและใช้การคำนวณกับชุดทดสอบ? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) ฉันเชื่อว่า 3 เป็นวิธีที่ถูกต้อง ถ้า 3 ถูกต้องฉันต้องกังวลเกี่ยวกับค่าเฉลี่ยไม่ใช่ 0 หรือช่วงที่ไม่อยู่ระหว่าง [0; 1] หรือ [-1; 1] (การทำให้เป็นมาตรฐาน) ของชุดทดสอบหรือไม่

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
การทำให้เป็นมาตรฐานและการปรับขนาด
อะไรคือความแตกต่างระหว่างข้อมูล 'การทำให้เป็นมาตรฐาน' และ 'มาตราส่วน' ของข้อมูล? จนถึงตอนนี้ฉันคิดว่าทั้งสองคำอ้างถึงกระบวนการเดียวกัน แต่ตอนนี้ฉันรู้แล้วว่ามีบางอย่างที่ฉันไม่รู้ / เข้าใจ นอกจากนี้หากมีความแตกต่างระหว่างการปรับสภาพและการปรับขนาดเมื่อใดที่เราควรใช้การปรับสภาพ แต่ไม่ปรับขนาดและในทางกลับกัน โปรดอธิบายอย่างละเอียดด้วยตัวอย่าง

1
การถดถอย: การแปลงตัวแปร
เมื่อเปลี่ยนตัวแปรคุณต้องใช้การแปลงแบบเดียวกันทั้งหมดหรือไม่? ตัวอย่างเช่นฉันสามารถเลือกและเลือกตัวแปรที่แปลงต่างกันเช่นใน: อนุญาต,เป็นอายุ, ระยะเวลาการจ้างงาน, ระยะเวลาพำนักและรายได้x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) หรือคุณจะต้องสอดคล้องกับการแปลงร่างของคุณและใช้สิ่งเดียวกันทั้งหมดหรือไม่? ในขณะที่: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) ความเข้าใจของฉันคือเป้าหมายของการเปลี่ยนแปลงคือการแก้ไขปัญหาของภาวะปกติ เมื่อดูกราฟฮิสโตแกรมของตัวแปรแต่ละตัวเราจะเห็นว่าพวกมันมีการแจกแจงที่แตกต่างกันมากซึ่งจะทำให้ฉันเชื่อว่าการแปลงที่ต้องการนั้นแตกต่างกันไปในแต่ละตัวแปรโดยพื้นฐานของตัวแปร ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) ท้ายสุดมันมีความถูกต้องในการแปลงตัวแปรโดยใช้โดยที่มีค่าอย่างไร ไม่แปลงนี้จำเป็นที่จะต้องสอดคล้องกันระหว่างตัวแปรทั้งหมดหรือมันคือใช้เฉพาะกิจแม้สำหรับตัวแปรเหล่านั้นซึ่งไม่รวมถึง 's?log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

1
ทางเลือกแทน ANOVA ทางเดียวสำหรับข้อมูล heteroskedastic
ฉันมีข้อมูลจากชีวมวลสาหร่าย 3 กลุ่ม ( , , ) ซึ่งมีขนาดตัวอย่างไม่เท่ากัน ( , , ) และฉันต้องการเปรียบเทียบว่ากลุ่มเหล่านี้มาจากประชากรเดียวกันหรือไม่B C n A = 15 n B = 13 n C = 12AAABBBCCCnA= 15nA=15n_A=15nB= 13nB=13n_B=13nC= 12nC=12n_C=12 การวิเคราะห์ความแปรปรวนแบบทางเดียวจะเป็นวิธีที่แน่นอนอย่างไรก็ตามเมื่อทำการทดสอบความเป็นไปได้ในข้อมูลของฉัน heteroskedascity ดูเหมือนจะเป็นประเด็นหลัก ข้อมูลดิบของฉันโดยไม่มีการแปลงทำให้อัตราส่วนของความแปรปรวน ( ) ซึ่งสูงกว่าค่าวิกฤติมาก ( F _ {\ rm crit} = 4.16 ) ดังนั้นฉันจึงไม่สามารถทำการวิเคราะห์ความแปรปรวนแบบทางเดียวได้ .Fสูงสุด= 19.1Fmax=19.1F_{\max} = 19.1Fc …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.