สถิติและข้อมูลขนาดใหญ่ data-transformation

12

ฉันจะแปลงข้อมูลที่ไม่เป็นลบรวมถึงศูนย์ได้อย่างไร

หากฉันมีข้อมูลในเชิงบวกอย่างมากฉันมักจะบันทึก แต่ฉันควรทำอย่างไรกับข้อมูลที่ไม่ใช่ค่าลบที่มีค่าเป็นศูนย์ที่เอียงอย่างมาก ฉันเห็นการเปลี่ยนแปลงสองอย่างที่ใช้: เข้าสู่ระบบ( x + 1 )log⁡(x+1)\log(x+1)ซึ่งมีคุณสมบัติเรียบร้อยที่ 0 แมปกับ 0 เข้าสู่ระบบ( x + c )log⁡(x+c)\log(x+c)โดยที่ c ถูกประมาณหรือตั้งค่าเป็นค่าบวกที่น้อยมาก มีวิธีอื่นอีกไหม? มีเหตุผลที่ดีไหมที่จะชอบวิธีการหนึ่งมากกว่าวิธีอื่น?

191 data-transformation large-data

9

จะสรุปข้อมูลตามกลุ่มใน R ได้อย่างไร [ปิด]

ฉันมีกรอบข้อมูล R ดังนี้: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... ฉันต้องการรับ data frame ในแบบฟอร์มต่อไปนี้: group mean sd 1 34.5 5.6 2 32.3 4.2 ... …

181 r data-transformation

2

เมื่อใด (และทำไม) คุณควรบันทึกการกระจาย (ของตัวเลข)?

สมมติว่าฉันมีข้อมูลในอดีตเช่นราคาหุ้นที่ผ่านมาความผันผวนของราคาตั๋วเครื่องบินข้อมูลทางการเงินในอดีตของ บริษัท ... ตอนนี้มีใครบางคน (หรือบางสูตร) มาพร้อมและกล่าวว่า "ขอใช้เวลา / ใช้เข้าสู่ระบบของการกระจาย" และนี่คือที่ที่ผมไปทำไม ? คำถาม: ทำไมคนเราควรจดบันทึกการกระจายสินค้าตั้งแต่แรก? บันทึกของการแจกแจง 'ให้ / ลดความซับซ้อน' ที่การกระจายดั้งเดิมไม่สามารถทำได้ / ไม่ได้? การเปลี่ยนแปลงบันทึกเป็น 'ไม่สูญเสีย' หรือไม่? คือเมื่อเปลี่ยนเป็น log-space และวิเคราะห์ข้อมูลข้อสรุปเดียวกันนี้มีไว้สำหรับการแจกแจงดั้งเดิมหรือไม่? มาทำไม และในที่สุดเมื่อไหร่ที่จะบันทึกการกระจาย? ภายใต้เงื่อนไขใดบ้างที่ตัดสินใจทำเช่นนี้ ฉันต้องการเข้าใจการแจกแจงแบบอิงบันทึก (เช่น lognormal) แต่ฉันไม่เคยเข้าใจแง่มุมว่าเมื่อใด / ทำไม - นั่นคือบันทึกการแจกแจงเป็นการแจกแจงแบบปกติดังนั้นจะเป็นอย่างไร สิ่งนั้นบอกอะไรกับฉันและทำไมตื๊อ ดังนั้นคำถาม! UPDATE : ตามความเห็นของ @ whuber ฉันดูที่โพสต์และด้วยเหตุผลบางอย่างฉันเข้าใจการใช้ log แปรรูปและการประยุกต์ในการถดถอยเชิงเส้นเนื่องจากคุณสามารถวาดความสัมพันธ์ระหว่างตัวแปรอิสระและบันทึกของตัวแปรตาม อย่างไรก็ตามคำถามของฉันเป็นเรื่องทั่วไปในแง่ของการวิเคราะห์การกระจายตัวเอง - ไม่มีความสัมพันธ์ต่อกันที่ฉันสามารถสรุปได้เพื่อช่วยให้เข้าใจเหตุผลของการบันทึกเพื่อวิเคราะห์การกระจาย …

173 distributions data-transformation logarithm

8

ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง

ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?

164 regression distributions data-transformation logarithm regression-strategies

1

ทำไมการแปลงสแควร์รูทจึงแนะนำสำหรับการนับข้อมูล

มันมักจะแนะนำให้ใช้รากที่สองเมื่อคุณมีข้อมูลนับ (สำหรับตัวอย่างบางส่วนใน CV ดู @ คำตอบ HarveyMotulsky ของที่นี่หรือคำตอบของ @ whuber ที่นี่ .) ในทางกลับกันเมื่อการปรับรูปแบบเชิงเส้นทั่วไปกับตัวแปรตอบสนองกระจายเป็น Poisson บันทึกคือการเชื่อมโยงที่เป็นที่ยอมรับ นี่เหมือนกับการแปลงบันทึกข้อมูลการตอบกลับของคุณ (แม้ว่าจะแม่นยำกว่านั้นคือทำการแปลงบันทึกของพารามิเตอร์ที่ควบคุมการกระจายการตอบสนอง) ดังนั้นจึงมีความตึงเครียดระหว่างสองสิ่งนี้ λλ\lambda คุณจะปรับความคลาดเคลื่อน (ชัดเจน) นี้อย่างไร ทำไมสแควร์รูทถึงดีกว่าลอการิทึม

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

5

ปริมาณที่ควรเพิ่มลงไปใน x เพื่อหลีกเลี่ยงการบันทึกเป็นศูนย์?

ฉันวิเคราะห์ข้อมูลของฉันแล้ว ตอนนี้ฉันต้องการดูการวิเคราะห์ของฉันหลังจากจดบันทึกตัวแปรทั้งหมด ตัวแปรหลายตัวมีค่าศูนย์จำนวนมาก ดังนั้นฉันจะเพิ่มจำนวนเล็กน้อยเพื่อหลีกเลี่ยงการบันทึกของศูนย์ จนถึงตอนนี้ฉันได้เพิ่ม 10 ^ -10 โดยไม่มีเหตุผลใด ๆ จริง ๆ เพียงเพราะฉันรู้สึกว่าการเพิ่มจำนวนน้อยมากจะแนะนำให้ลดผลกระทบของปริมาณที่ฉันเลือกโดยพลการ แต่ตัวแปรบางตัวมีค่าศูนย์เป็นส่วนใหญ่ดังนั้นเมื่อบันทึกไว้ส่วนใหญ่ -23.02 ช่วงของช่วงตัวแปรของฉันคือ 1.33-8819.21 และความถี่ของเลขศูนย์ก็แตกต่างกันเช่นกัน ดังนั้นตัวเลือกส่วนตัวของฉัน "ปริมาณน้อย" จึงมีผลต่อตัวแปรต่างกันมาก เป็นที่ชัดเจนแล้วว่า 10 ^ -10 เป็นตัวเลือกที่ไม่สามารถยอมรับได้อย่างสมบูรณ์เนื่องจากความแปรปรวนส่วนใหญ่ในตัวแปรทั้งหมดนั้นมาจาก "ปริมาณเล็กน้อย" โดยพลการ ฉันสงสัยว่าอะไรจะเป็นวิธีที่ถูกต้องมากขึ้นในการทำเช่นนี้ อาจจะดีกว่าถ้าเราหาปริมาณจากตัวแปรแต่ละตัวจากการกระจายตัว มีแนวทางใดบ้างเกี่ยวกับ "ปริมาณเล็กน้อย" ที่ควรได้รับ การวิเคราะห์ของฉันส่วนใหญ่เป็นรูปแบบค็อกซ์ที่เรียบง่ายกับตัวแปรและอายุ / เพศเป็น IV ตัวแปรคือความเข้มข้นของไขมันในเลือดต่าง ๆ ซึ่งมักมีค่าสัมประสิทธิ์การเปลี่ยนแปลงค่อนข้างมาก แก้ไข : การเพิ่มค่าที่ไม่เป็นศูนย์ที่เล็กที่สุดของตัวแปรดูเหมือนจะเป็นประโยชน์สำหรับข้อมูลของฉัน แต่อาจจะมีวิธีแก้ปัญหาทั่วไปใช่ไหม แก้ไข 2 : เนื่องจากศูนย์เพียงระบุความเข้มข้นต่ำกว่าขีด จำกัด การตรวจจับอาจตั้งค่าให้เป็น …

57 data-transformation chemometrics

8

มันสมเหตุสมผลไหมที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง?

ในการตอบคำถามนี้เกี่ยวกับข้อมูลที่ไม่ต่อเนื่องและต่อเนื่องฉันยืนยันอย่างชัดเจนว่ามันไม่ค่อยมีเหตุผลที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง บนใบหน้าของมันที่ดูเหมือนชัดเจนในตัวเอง แต่ปรีชามักจะเป็นแนวทางที่ดีสำหรับสถิติหรืออย่างน้อยก็เป็นของฉัน ดังนั้นตอนนี้ฉันสงสัยว่า: จริงหรือ หรือมีการวิเคราะห์ที่สร้างขึ้นสำหรับการแปลงจากข้อมูลที่เป็นหมวดหมู่ไปเป็นบางส่วนที่มีประโยชน์จริง ๆ ? มันจะสร้างความแตกต่างได้ไหมถ้าข้อมูลนั้นเป็นอันดับ?

57 categorical-data data-transformation ordinal-data continuous-data

3

เครื่องชั่งน้ำหนักของเครื่องชั่งเหมาะสมเมื่อใด

ฉันได้อ่านว่าการใช้เครื่องชั่งบันทึกเมื่อการสร้างแผนภูมิ / กราฟเหมาะสมในบางสถานการณ์เช่นแกน y ในแผนภูมิอนุกรมเวลา อย่างไรก็ตามฉันไม่สามารถหาคำอธิบายที่ชัดเจนว่าทำไมถึงเป็นเช่นนั้นหรือเมื่อใดจะเหมาะสม โปรดจำไว้ว่าฉันไม่ใช่นักสถิติดังนั้นฉันอาจพลาดประเด็นไปโดยสิ้นเชิงและหากเป็นเช่นนั้นฉันขอขอบคุณทิศทางการแก้ไขทรัพยากร

57 data-visualization data-transformation

3

Box-Cox ชอบการแปลงสำหรับตัวแปรอิสระหรือไม่?

Box-Cox มีการแปลงสำหรับตัวแปรอิสระหรือไม่? นั่นคือการแปลงที่ปรับตัวแปรให้เหมาะสมที่สุดเพื่อให้เหมาะสมกับแบบจำลองเชิงเส้นมากขึ้นหรือไม่xxxy~f(x) ถ้าเป็นเช่นนั้นมีฟังก์ชั่นในการทำสิ่งนี้ด้วยRหรือไม่?

53 r regression data-transformation normality-assumption

1

การเข้ารหัสดัมมี่เทียบกับหนึ่งใน Scikit เรียนรู้

มีวิธีการเข้ารหัสตัวแปรเด็ดขาดสองวิธี กล่าวว่าหนึ่งตัวแปรเด็ดขาดมีค่าn การเข้ารหัสแบบ one-hotจะแปลงเป็นตัวแปรnในขณะที่การเข้ารหัสแบบจำลองจะแปลงเป็นตัวแปรn-1 ถ้าเรามีตัวแปรเด็ดขาดkแต่ละตัวมีค่าn การเข้ารหัสฮอตหนึ่งจบลงด้วยตัวแปรknในขณะที่การเข้ารหัสดัมมี่ลงท้ายด้วยตัวแปรkn-k ฉันได้ยินมาว่าสำหรับการเข้ารหัสที่ร้อนแรงเพียงครั้งเดียวการสกัดกั้นอาจนำไปสู่ปัญหา collinearity ซึ่งทำให้ตัวแบบไม่ดัง บางคนเรียกมันว่า " กับดักตัวแปรจำลอง " คำถามของฉัน: โมเดลการถดถอยเชิงเส้นของ Scikit-Learn ช่วยให้ผู้ใช้ปิดใช้งานการสกัดกั้น ดังนั้นสำหรับการเข้ารหัสที่ร้อนแรงฉันควรตั้งค่า fit_intercept = False เสมอหรือไม่ สำหรับการเข้ารหัสแบบสุ่มควรตั้งค่า fit_intercept เป็น True หรือไม่ ฉันไม่เห็น "คำเตือน" บนเว็บไซต์ เนื่องจากการเข้ารหัสแบบร้อนแรงสร้างตัวแปรมากขึ้นมันมีระดับความอิสระมากกว่าการเข้ารหัสแบบจำลองหรือไม่?

50 regression categorical-data data-transformation scikit-learn data-preprocessing

1

วิธีการใช้มาตรฐาน / การทำให้เป็นมาตรฐานในการฝึกอบรมและชุดทดสอบหากการทำนายเป็นเป้าหมาย?

ฉันจะแปลงข้อมูลทั้งหมดหรือเท่าของฉัน (ถ้าใช้ CV) ในเวลาเดียวกันได้หรือไม่? เช่น (allData - mean(allData)) / sd(allData) ฉันจะแปลงชุดรถไฟและชุดทดสอบแยกกันได้หรือไม่? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) หรือว่าฉันจะแปลงชุดรถไฟและใช้การคำนวณกับชุดทดสอบ? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) ฉันเชื่อว่า 3 เป็นวิธีที่ถูกต้อง ถ้า 3 ถูกต้องฉันต้องกังวลเกี่ยวกับค่าเฉลี่ยไม่ใช่ 0 หรือช่วงที่ไม่อยู่ระหว่าง [0; 1] หรือ [-1; 1] (การทำให้เป็นมาตรฐาน) ของชุดทดสอบหรือไม่

47 r cross-validation data-transformation normalization standardization

3

การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง

ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

4

การทำให้เป็นมาตรฐานและการปรับขนาด

อะไรคือความแตกต่างระหว่างข้อมูล 'การทำให้เป็นมาตรฐาน' และ 'มาตราส่วน' ของข้อมูล? จนถึงตอนนี้ฉันคิดว่าทั้งสองคำอ้างถึงกระบวนการเดียวกัน แต่ตอนนี้ฉันรู้แล้วว่ามีบางอย่างที่ฉันไม่รู้ / เข้าใจ นอกจากนี้หากมีความแตกต่างระหว่างการปรับสภาพและการปรับขนาดเมื่อใดที่เราควรใช้การปรับสภาพ แต่ไม่ปรับขนาดและในทางกลับกัน โปรดอธิบายอย่างละเอียดด้วยตัวอย่าง

45 data-transformation scales normality-assumption normalization

1

การถดถอย: การแปลงตัวแปร

เมื่อเปลี่ยนตัวแปรคุณต้องใช้การแปลงแบบเดียวกันทั้งหมดหรือไม่? ตัวอย่างเช่นฉันสามารถเลือกและเลือกตัวแปรที่แปลงต่างกันเช่นใน: อนุญาต,เป็นอายุ, ระยะเวลาการจ้างงาน, ระยะเวลาพำนักและรายได้x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) หรือคุณจะต้องสอดคล้องกับการแปลงร่างของคุณและใช้สิ่งเดียวกันทั้งหมดหรือไม่? ในขณะที่: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) ความเข้าใจของฉันคือเป้าหมายของการเปลี่ยนแปลงคือการแก้ไขปัญหาของภาวะปกติ เมื่อดูกราฟฮิสโตแกรมของตัวแปรแต่ละตัวเราจะเห็นว่าพวกมันมีการแจกแจงที่แตกต่างกันมากซึ่งจะทำให้ฉันเชื่อว่าการแปลงที่ต้องการนั้นแตกต่างกันไปในแต่ละตัวแปรโดยพื้นฐานของตัวแปร ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) ท้ายสุดมันมีความถูกต้องในการแปลงตัวแปรโดยใช้โดยที่มีค่าอย่างไร ไม่แปลงนี้จำเป็นที่จะต้องสอดคล้องกันระหว่างตัวแปรทั้งหมดหรือมันคือใช้เฉพาะกิจแม้สำหรับตัวแปรเหล่านั้นซึ่งไม่รวมถึง 's?log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

41 r regression logistic data-transformation

1

ทางเลือกแทน ANOVA ทางเดียวสำหรับข้อมูล heteroskedastic

ฉันมีข้อมูลจากชีวมวลสาหร่าย 3 กลุ่ม ( , , ) ซึ่งมีขนาดตัวอย่างไม่เท่ากัน ( , , ) และฉันต้องการเปรียบเทียบว่ากลุ่มเหล่านี้มาจากประชากรเดียวกันหรือไม่B C n A = 15 n B = 13 n C = 12AAABBBCCCnA= 15nA=15n_A=15nB= 13nB=13n_B=13nC= 12nC=12n_C=12 การวิเคราะห์ความแปรปรวนแบบทางเดียวจะเป็นวิธีที่แน่นอนอย่างไรก็ตามเมื่อทำการทดสอบความเป็นไปได้ในข้อมูลของฉัน heteroskedascity ดูเหมือนจะเป็นประเด็นหลัก ข้อมูลดิบของฉันโดยไม่มีการแปลงทำให้อัตราส่วนของความแปรปรวน ( ) ซึ่งสูงกว่าค่าวิกฤติมาก ( F _ {\ rm crit} = 4.16 ) ดังนั้นฉันจึงไม่สามารถทำการวิเคราะห์ความแปรปรวนแบบทางเดียวได้ .Fสูงสุด= 19.1Fmax=19.1F_{\max} = 19.1Fc …

36 r anova data-transformation heteroscedasticity

คำถามติดแท็ก data-transformation