คำถามติดแท็ก data-transformation

การแสดงออกทางคณิตศาสตร์บ่อยครั้งไม่เชิงเส้นของค่าข้อมูล ข้อมูลมักถูกแปลงเพื่อให้เป็นไปตามสมมติฐานของแบบจำลองทางสถิติหรือเพื่อให้ผลลัพธ์ของการวิเคราะห์สามารถตีความได้มากขึ้น

5
จะเปลี่ยนข้อมูลระหว่างรูปแบบแบบกว้างและแบบยาวใน R ได้อย่างไร [ปิด]
คุณสามารถมีข้อมูลในรูปแบบกว้างหรือในรูปแบบยาว นี่เป็นสิ่งสำคัญเนื่องจากวิธีการใช้งานที่แตกต่างกันขึ้นอยู่กับรูปแบบ ฉันรู้ว่าคุณต้องทำงานกับmelt()และcast()จากแพคเกจการก่อร่างใหม่ แต่ดูเหมือนว่าบางสิ่งที่ฉันไม่ได้รับ มีคนให้ภาพรวมสั้น ๆ กับฉันว่าคุณทำสิ่งนี้ได้อย่างไร

4
การวิเคราะห์ด้วยข้อมูลที่ซับซ้อนมีอะไรที่แตกต่างกันอย่างไร
พูดเช่นคุณกำลังทำโมเดลเชิงเส้น แต่ข้อมูลนั้นซับซ้อนYyy Y= x β+ ϵy=xβ+ϵ y = x \beta + \epsilon ชุดข้อมูลของฉันมีความซับซ้อนในขณะที่ตัวเลขทั้งหมดในที่มีรูปแบบBI) มีขั้นตอนใดบ้างที่แตกต่างเมื่อทำงานกับข้อมูลดังกล่าว?Yyy( a + b i )(a+bi)(a + bi) ฉันถามเพราะคุณจะได้รับการฝึกอบรมความแปรปรวนร่วมที่ซับซ้อนและสถิติการทดสอบที่มีมูลค่าซับซ้อน .. คุณจำเป็นต้องใช้การผันแบบคอนจูเกตแทนการแปลงสัญญาณเมื่อทำกำลังสองน้อยที่สุดหรือไม่? ค่าความแปรปรวนร่วมที่ซับซ้อนมีความหมายอะไร?

2
สมมติฐานของการถดถอยแบบทวินามเชิงลบคืออะไร?
ฉันทำงานกับชุดข้อมูลขนาดใหญ่ (เป็นความลับดังนั้นฉันจึงไม่สามารถแบ่งปันได้มากเกินไป) และมาถึงข้อสรุปการถดถอยเชิงลบแบบทวินามก็เป็นสิ่งที่จำเป็น ฉันไม่เคยทำการถดถอยแบบ glm มาก่อนและฉันไม่สามารถหาข้อมูลที่ชัดเจนเกี่ยวกับสมมติฐานได้ พวกเขาเหมือนกันสำหรับ MLR หรือไม่ ฉันสามารถแปลงตัวแปรในลักษณะเดียวกันได้หรือไม่ (ฉันได้ค้นพบแล้วว่าการเปลี่ยนตัวแปรตามคือการโทรที่ไม่ดีเนื่องจากต้องเป็นจำนวนธรรมชาติ) ฉันได้พิจารณาแล้วว่าการแจกแจงทวินามลบจะช่วยในการกระจายตัวมากเกินไปในข้อมูลของฉัน (ความแปรปรวนอยู่ที่ประมาณ 2000 ค่าเฉลี่ยคือ 48) ขอบคุณสำหรับความช่วยเหลือ !!

3
การฟอกสีฟันนั้นดีอยู่เสมอหรือไม่?
ขั้นตอนก่อนการประมวลผลทั่วไปสำหรับอัลกอริทึมการเรียนรู้ของเครื่องคือการทำให้ข้อมูลขาวขึ้น ดูเหมือนว่าการฟอกสีฟันเป็นสิ่งที่ดีอยู่เสมอเนื่องจากมันไม่สัมพันธ์กับข้อมูลทำให้ง่ายต่อการสร้างแบบจำลอง ไวท์เทนนิ่งไม่แนะนำเมื่อไหร่? หมายเหตุ: ฉันหมายถึงการไม่มีความสัมพันธ์ของข้อมูล

2
การแปลงตัวแปรสำหรับการถดถอยหลายครั้งใน R
ฉันพยายามทำการถดถอยหลายRครั้ง อย่างไรก็ตามตัวแปรตามของฉันมีพล็อตต่อไปนี้: นี่คือเมทริกซ์ scatterplot พร้อมตัวแปรทั้งหมดของฉัน ( WARเป็นตัวแปรตาม): ฉันรู้ว่าฉันต้องทำการเปลี่ยนแปลงในตัวแปรนี้ (และอาจเป็นตัวแปรอิสระหรือไม่?) แต่ฉันไม่แน่ใจว่าจำเป็นต้องมีการแปลงที่แน่นอนหรือไม่ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ฉันยินดีที่จะให้ข้อมูลเพิ่มเติมเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม กราฟิกการวินิจฉัยจากการถดถอยของฉันมีลักษณะดังนี้: แก้ไข หลังจากเปลี่ยนตัวแปรตามและอิสระโดยใช้การแปลง Yeo-Johnson แผนการวินิจฉัยมีลักษณะดังนี้: ถ้าฉันใช้ GLM กับลิงค์ล็อกกราฟิกวินิจฉัยคือ:

4
เมื่อใดที่จะเข้าสู่การแปลงอนุกรมเวลาก่อนที่จะติดตั้งแบบจำลอง ARIMA
ก่อนหน้านี้ฉันเคยใช้โปรแกรมพยากรณ์อากาศเพื่อคาดการณ์อนุกรมเวลาที่ไม่เปลี่ยนแปลง แต่ฉันเปลี่ยนเวิร์กโฟลว์ของฉันไปเป็น R แพ็คเกจพยากรณ์สำหรับ R มีฟังก์ชั่นที่มีประโยชน์มากมาย แต่สิ่งหนึ่งที่มันไม่ได้ทำคือการแปลงข้อมูลชนิดใด ๆ .arima () ในบางกรณีการคาดการณ์โปรตัดสินใจที่จะเข้าสู่ระบบการแปลงข้อมูลก่อนที่จะทำการคาดการณ์ แต่ฉันยังไม่ได้หาสาเหตุ ดังนั้นคำถามของฉันคือ: เมื่อใดที่ฉันควรเปลี่ยนชุดเวลาของฉันก่อนที่จะลองใช้วิธี ARIMA กับมัน / แก้ไข: หลังจากอ่านคำตอบของคุณฉันจะใช้สิ่งนี้โดยที่ x คืออนุกรมเวลาของฉัน: library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } มันสมเหตุสมผลหรือไม่

3
วิธีการจำลองการกระจายตัวที่มีรูปร่างแปลก ๆ นี้ (เกือบจะเป็น reverse-J)
ตัวแปรตามของฉันที่แสดงด้านล่างไม่ตรงกับการกระจายหุ้นใด ๆ ที่ฉันรู้ การถดถอยเชิงเส้นทำให้เกิดการตกค้างที่ไม่ปกติและเอียงไปทางขวาซึ่งสัมพันธ์กับการทำนาย Y ในวิธีที่แปลก (พล็อตที่ 2) คำแนะนำสำหรับการเปลี่ยนแปลงหรือวิธีอื่น ๆ เพื่อให้ได้ผลลัพธ์ที่ถูกต้องที่สุดและแม่นยำที่สุดในการคาดการณ์? หากเป็นไปได้ฉันต้องการหลีกเลี่ยงการจัดหมวดหมู่ที่เงอะงะพูดว่า 5 ค่า (เช่น 0, lo%, med%, hi%, 1)

7
เหตุใดจึงมีการเข้ารหัสรหัสเพศ 0/1 แทนที่จะเป็น 1/2
ฉันเข้าใจตรรกะของการเข้ารหัสสำหรับการวิเคราะห์ข้อมูล คำถามของฉันด้านล่างเป็นการใช้รหัสเฉพาะ มีเหตุผลใดที่รหัสเพศมักจะเป็น 0 สำหรับผู้หญิงและ 1 สำหรับผู้ชาย? ทำไมการเข้ารหัสนี้จึงถือเป็น 'มาตรฐาน' เปรียบเทียบสิ่งนี้กับหญิง = 1 และชาย = 2 มีปัญหากับการเข้ารหัสนี้หรือไม่?

3
การปรับเมทริกซ์คอลัมน์แบบชาญฉลาดใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ฉันต้องการดำเนินการ normalization คอลัมน์ที่ชาญฉลาดของเมทริกซ์ในอาร์รับเมทริกซ์mฉันต้องการที่จะทำให้ปกติคอลัมน์แต่ละคอลัมน์โดยการหารแต่ละองค์ประกอบด้วยผลรวมของคอลัมน์ วิธีหนึ่ง (แฮ็ค) ที่ทำเช่นนี้มีดังนี้ m / t(replicate(nrow(m), colSums(m))) มีวิธีสังเขป / ฉลาด / มีประสิทธิภาพมากขึ้นในการบรรลุภารกิจเดียวกันหรือไม่?

3
ทำไมการแปลงพลังงานหรือบันทึกจึงไม่ได้สอนในเรื่องการเรียนรู้ของเครื่อง
การเรียนรู้ของเครื่อง (ML) ใช้เทคนิคการถดถอยเชิงเส้นและโลจิสติกอย่างหนัก นอกจากนี้ยังต้องอาศัยเทคนิคคุณลักษณะวิศวกรรม ( feature transform, kernelฯลฯ ) ทำไมจึงไม่มีอะไรที่เกี่ยวกับvariable transformation(เช่นpower transformation) กล่าวถึงใน ML? (ตัวอย่างเช่นฉันไม่เคยได้ยินเกี่ยวกับการรูทหรือบันทึกไปยังฟีเจอร์พวกเขามักใช้พหุนามหรือ RBFs) เช่นเดียวกันทำไมผู้เชี่ยวชาญ ML ไม่สนใจการเปลี่ยนคุณสมบัติสำหรับตัวแปรตาม (ตัวอย่างเช่นฉันไม่เคยได้ยินเกี่ยวกับการเปลี่ยนแปลงการบันทึกของ y พวกเขาเพียงแค่ไม่แปลง y) การแก้ไข: อาจเป็นคำถามที่ไม่แน่นอนคำถามของฉันคือ "การแปลงพลังงานเป็นตัวแปรที่ไม่สำคัญใน ML หรือไม่"

6
ตัวอย่างการสร้างแบบจำลองการถดถอยขั้นสูง
ฉันกำลังมองหากรณีศึกษาการถดถอยเชิงเส้นขั้นสูงซึ่งแสดงขั้นตอนที่จำเป็นสำหรับการสร้างแบบจำลองที่ซับซ้อนความสัมพันธ์ที่ไม่ใช่เชิงเส้นหลาย ๆ แบบโดยใช้ GLM หรือ OLS มันเป็นเรื่องยากที่จะหาแหล่งข้อมูลที่นอกเหนือไปจากโรงเรียนตัวอย่าง: หนังสือส่วนใหญ่ที่ฉันอ่านจะไม่ไปไกลกว่าการแปลงบันทึกการตอบสนองควบคู่ไปกับ BoxCox ของผู้ทำนายหนึ่งคนหรือแนวความคิดตามธรรมชาติในกรณีที่ดีที่สุด นอกจากนี้ตัวอย่างทั้งหมดที่ฉันเห็นมาถึงปัญหาการแปลงข้อมูลในรูปแบบที่แยกต่างหากมักจะอยู่ในรูปแบบการทำนายเดียว ฉันรู้ว่าการแปลง BoxCox หรือ YeoJohnson คืออะไร สิ่งที่ฉันกำลังมองหาคือกรณีศึกษาในชีวิตจริงที่มีรายละเอียดซึ่งการตอบสนอง / ความสัมพันธ์ไม่ชัดเจน ตัวอย่างเช่นการตอบสนองไม่ได้เป็นเชิงบวกอย่างเคร่งครัด (ดังนั้นคุณจึงไม่สามารถใช้ log หรือ BoxCox) ผู้ทำนายมีความสัมพันธ์แบบไม่เป็นเส้นตรงระหว่างตัวเองและต่อการตอบสนองและการแปลงข้อมูลความน่าจะเป็นสูงสุดไม่ได้บ่งบอกถึงมาตรฐาน 0.33 หรือ 0.5 เลขยกกำลัง นอกจากนี้ความแปรปรวนที่เหลือพบว่าไม่คงที่ (ไม่เคยเป็น) ดังนั้นการตอบสนองจะต้องมีการเปลี่ยนแปลงเช่นกันและตัวเลือกจะต้องทำระหว่างการถดถอยครอบครัว GLM ที่ไม่ได้มาตรฐานหรือการเปลี่ยนแปลงการตอบสนอง นักวิจัยมีแนวโน้มที่จะตัดสินใจเลือกที่จะหลีกเลี่ยงการเก็บข้อมูลมากเกินไป แก้ไข จนถึงตอนนี้ฉันรวบรวมทรัพยากรต่อไปนี้: กลยุทธ์การสร้างแบบจำลองการถดถอย, F. Harrell อนุกรมเวลาเศรษฐมิติประยุกต์ว. วชิรเอนเดอร์ โมเดลเชิงเส้นไดนามิกพร้อม R, G. Petris การวิเคราะห์การถดถอยประยุกต์, D. Kleinbaum บทนำสู่การเรียนรู้เชิงสถิติ, …

4
การเปลี่ยนรูปเพื่อเพิ่มความโด่งและความเบ้ของค่าปกติ
ฉันกำลังทำงานกับอัลกอริทึมที่อาศัยข้อเท็จจริงที่ว่าการสังเกตของนั้นได้รับการแจกแจงตามปกติและฉันต้องการที่จะทดสอบความทนทานของอัลกอริทึมกับสมมติฐานนี้โดยประจักษ์YYY การทำเช่นนี้ผมกำลังมองหาลำดับของการเปลี่ยนแปลงที่จะมีความก้าวหน้าทำลายปกติของYตัวอย่างเช่นถ้าเป็นเรื่องปกติพวกเขาจะมีความเบ้และ kurtosisและมันจะเป็นการดีที่จะหาลำดับของการเปลี่ยนแปลงที่เพิ่มขึ้นอย่างต่อเนื่องY Y = 0 = 3T1( ) , … , Tn( )T1(),…,Tn()T_1(), \dots, T_n()YYYYYY= 0=0= 0= 3=3= 3 ความคิดของฉันคือการจำลองข้อมูลที่กระจายโดยประมาณประมาณและทดสอบอัลกอริทึมในนั้น กว่าอัลกอริธึมการทดสอบในชุดข้อมูลที่ถูกแปลงแต่ละชุดเพื่อดูว่าเอาต์พุตมีการเปลี่ยนแปลงมากน้อยเพียงใดYYYT1( Y) , … , Tn( y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y) โปรดสังเกตว่าฉันไม่ได้ควบคุมการกระจายตัวของจำลองดังนั้นฉันไม่สามารถจำลองพวกมันโดยใช้การแจกแจงที่วางตัวแบบปกติ (เช่นการกระจายข้อผิดพลาดทั่วไปแบบเบ้)YYY

3
วิธีการตีความสัมประสิทธิ์การถดถอยเมื่อการตอบสนองถูกแปลงโดยรากที่ 4?
ฉันกำลังใช้การรูทที่สี่ ( 1/4) การแปลงพลังงานกับตัวแปรตอบกลับของฉันซึ่งเป็นผลมาจากความต่างระดับ แต่ตอนนี้ฉันไม่แน่ใจว่าจะตีความสัมประสิทธิ์การถดถอยของฉันได้อย่างไร ฉันคิดว่าฉันจะต้องใช้สัมประสิทธิ์เป็นกำลังสี่เมื่อฉันแปลงกลับ (ดูด้านล่างผลลัพธ์การถดถอย) ตัวแปรทั้งหมดอยู่ในหน่วยดอลลาร์เป็นล้าน แต่ฉันอยากรู้ว่าการเปลี่ยนแปลงของเงินดอลลาร์เป็นพันล้าน ในขณะที่มีค่าคงที่ตัวแปรอิสระอื่น ๆ การเปลี่ยนแปลงค่าธรรมเนียมโดยพันล้านดอลลาร์โดยเฉลี่ยนำไปสู่การเปลี่ยนแปลง32(หรือ 32,000 ดอลลาร์) ในการรวบรวม ฉันใช้เวลา(ที่จะได้รับพันล้าน)0.000075223 * 1000 ^ 4 = 0.000032ตอนนี้ฉันจะคูณจำนวนนี้ด้วย 1 ล้านหรือ 1 พันล้าน (หน่วยดั้งเดิมของตัวแปรตามคือล้าน) lm(formula = (Collections^(1/4)) ~ Fees + DIR) Estimate Std. Error t value Pr(>|t|) (Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151 Fees **0.000075223 **0.000008411 8.943 0.0000000131878713 …

6
การเปลี่ยนสเกลของตัวแปรเป็น 0-100
ฉันสร้างดัชนีทุนทางสังคมโดยใช้เทคนิค PCA ดัชนีนี้ประกอบด้วยค่าทั้งบวกและลบ ฉันต้องการแปลง / แปลงดัชนีนี้เป็นมาตราส่วน 0-100 เพื่อให้ตีความได้ง่าย โปรดแนะนำวิธีที่ง่ายที่สุดให้ฉัน

2
การแปลงข้อมูลสัดส่วน: เมื่อ arcsin สแควร์รูทไม่เพียงพอ
มีทางเลือก (ที่แข็งแกร่งกว่า) ในการแปลงอาร์ซินสแควร์รูทสำหรับข้อมูลเปอร์เซ็นต์ / สัดส่วนหรือไม่ ในชุดข้อมูลที่ฉันกำลังทำงานอยู่ในขณะนี้การทำเครื่องหมายเฮเทอโรเซซิติกยังคงอยู่หลังจากฉันใช้การแปลงนี้นั่นคือพล็อตของค่าคงค้างเทียบกับค่าติดตั้งยังคงเป็นรูปสี่เหลี่ยมด้านขนานมาก แก้ไขเพื่อตอบกลับความคิดเห็น: ข้อมูลเป็นการตัดสินใจลงทุนโดยผู้เข้าร่วมทดลองซึ่งอาจลงทุน 0-100% ของเงินบริจาคในทวีคูณ 10% ฉันได้ดูข้อมูลเหล่านี้โดยใช้การถดถอยแบบลอจิสติกอันดับแล้ว แต่ต้องการดูว่า GLM ที่ถูกต้องจะผลิตอะไร ฉันเห็นคำตอบว่ามีประโยชน์สำหรับการทำงานในอนาคตเนื่องจากอาร์ซินสแควร์รูทดูเหมือนจะถูกใช้เป็นโซลูชั่นขนาดเดียวที่เหมาะกับทุกสาขาของฉันและฉันไม่ได้เจอทางเลือกอื่นใด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.