คำถามติดแท็ก data-transformation

การแสดงออกทางคณิตศาสตร์บ่อยครั้งไม่เชิงเส้นของค่าข้อมูล ข้อมูลมักถูกแปลงเพื่อให้เป็นไปตามสมมติฐานของแบบจำลองทางสถิติหรือเพื่อให้ผลลัพธ์ของการวิเคราะห์สามารถตีความได้มากขึ้น

4
จะสรุปข้อมูลหมวดหมู่ได้อย่างไร
ฉันได้รับการดิ้นรนกับปัญหาต่อไปนี้ด้วยความหวังเป็นเรื่องง่ายสำหรับนักสถิติ (ฉันเป็นโปรแกรมเมอร์ที่มีการสัมผัสกับสถิติบางอย่าง) ฉันต้องสรุปคำตอบของแบบสำรวจ (สำหรับการจัดการ) แบบสำรวจมีคำถามมากกว่า 100 ข้อจัดกลุ่มในพื้นที่ต่าง ๆ (มีประมาณ 5 ถึง 10 คำถามต่อพื้นที่) คำตอบทั้งหมดเป็นหมวดหมู่ (ในระดับปกติพวกเขาเป็นเหมือน "ไม่เลย", "ไม่ค่อย" ... "รายวันหรือบ่อยกว่า") ฝ่ายบริหารต้องการที่จะได้รับการสรุปสำหรับแต่ละพื้นที่และนี่คือปัญหาของฉัน: วิธีการรวมคำตอบที่เป็นหมวดหมู่ภายในคำถามที่เกี่ยวข้อง? . คำถามมีมากเกินกว่าที่จะสร้างกราฟหรือแม้แต่พล็อตขัดแตะสำหรับแต่ละพื้นที่ ฉันชอบวิธีการใช้ภาพหากเป็นไปได้เปรียบเทียบกับพูดด้วยตารางที่มีตัวเลข (อนิจจาพวกเขาจะไม่อ่าน) สิ่งเดียวที่ฉันสามารถทำได้คือการนับจำนวนคำตอบในแต่ละพื้นที่จากนั้นพล็อตกราฟ มีอะไรอีกบ้างที่ใช้ได้สำหรับข้อมูลที่เป็นหมวดหมู่? ฉันใช้ R แต่ไม่แน่ใจว่าเกี่ยวข้องหรือไม่ฉันรู้สึกว่านี่เป็นคำถามทั่วไปเกี่ยวกับสถิติมากกว่า

3
แสดงคำตอบในแง่ของหน่วยดั้งเดิมในกล่องแปลงข้อมูล Box-Cox
สำหรับการวัดบางส่วนผลของการวิเคราะห์จะถูกนำเสนออย่างเหมาะสมในสเกลที่ถูกแปลง อย่างไรก็ตามในกรณีส่วนใหญ่เป็นที่พึงพอใจที่จะนำเสนอผลการวัดในระดับเดิม (มิฉะนั้นงานของคุณจะไร้ค่ามากกว่าหรือน้อยกว่า) ตัวอย่างเช่นในกรณีของข้อมูลที่บันทึกการแปลงปัญหาที่เกิดขึ้นกับการตีความในระดับเดิมเกิดขึ้นเพราะค่าเฉลี่ยของค่าบันทึกไม่ได้เป็นบันทึกของค่าเฉลี่ย การใช้ antilogarithm ของการประมาณค่าเฉลี่ยบนมาตราส่วนบันทึกไม่ได้ให้ค่าประมาณของค่าเฉลี่ยในระดับเดิม อย่างไรก็ตามหากข้อมูลที่แปลงเป็นบันทึกมีการแจกแจงแบบสมมาตรความสัมพันธ์ต่อไปนี้จะถูกเก็บไว้ (เนื่องจากบันทึกจะรักษาลำดับไว้): หมายถึง[ บันทึก( Y) ] = ค่ามัธยฐาน[ บันทึก( Y) ] = บันทึก[ ค่ามัธยฐาน( Y) ]Mean[log⁡(Y)]=Median[log⁡(Y)]=log⁡[Median(Y)]\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)] (antilogarithm ของค่าเฉลี่ยของค่าบันทึกเป็นค่ามัธยฐานในระดับเดิมของการวัด) ดังนั้นฉันสามารถทำการอนุมานเกี่ยวกับความแตกต่าง (หรืออัตราส่วน) ของค่ามัธยฐานในระดับการวัดดั้งเดิม t-test สองตัวอย่างและช่วงความเชื่อมั่นมีความน่าเชื่อถือมากที่สุดถ้าประชากรอยู่ในเกณฑ์ปกติโดยมีค่าเบี่ยงเบนมาตรฐานประมาณดังนั้นเราอาจถูกล่อลวงให้ใช้การBox-Coxแปลงสำหรับสมมติฐานปกติที่จะถือ (ฉันยังคิดว่ามันเป็นความแปรปรวน ) อย่างไรก็ตามหากเราใช้เครื่องมือ t-to กับการBox-Coxแปลงข้อมูลเราจะได้รับการอนุมานเกี่ยวกับความแตกต่างของการแปลงข้อมูล เราจะตีความสิ่งเหล่านั้นในระดับการวัดดั้งเดิมได้อย่างไร (ค่าเฉลี่ยของค่าที่แปลงไม่ใช่ค่าเฉลี่ยที่แปลงแล้ว) กล่าวอีกนัยหนึ่งคือการใช้การแปลงผกผันของการประมาณค่าเฉลี่ยบนมาตราส่วนที่แปลงแล้วไม่ได้ให้ค่าประมาณของค่าเฉลี่ยบนมาตราส่วนดั้งเดิม ฉันสามารถทำการอนุมานเกี่ยวกับค่ามัธยฐานในกรณีนี้ได้หรือไม่? มีการเปลี่ยนแปลงที่จะอนุญาตให้ฉันกลับไปที่ค่าเฉลี่ย (ในระดับเดิม) หรือไม่? คำถามนี้ถูกโพสต์ครั้งแรกเป็นความคิดเห็นที่นี่

5
การลดขนาด SVD สำหรับอนุกรมเวลาที่มีความยาวต่างกัน
ฉันกำลังใช้การลดค่าเอกพจน์เป็นเทคนิคการลดขนาด ให้Nเวกเตอร์ของมิติDความคิดคือการแสดงคุณสมบัติในพื้นที่แปลงของมิติ uncorrelated ซึ่งรวมส่วนใหญ่ของข้อมูลของข้อมูลใน eigenvector ของพื้นที่นี้ในลำดับความสำคัญลดลง ตอนนี้ฉันกำลังพยายามใช้ขั้นตอนนี้กับข้อมูลอนุกรมเวลา ปัญหาคือว่าบางส่วนไม่ได้มีความยาวเท่ากันดังนั้นฉันจึงไม่สามารถสร้างnum-by-dimเมทริกซ์และใช้ SVD ได้ ความคิดแรกของฉันคือการวางเมทริกซ์ด้วยเลขศูนย์ด้วยการสร้างnum-by-maxDimเมทริกซ์และเติมช่องว่างด้วยศูนย์ แต่ฉันไม่แน่ใจว่านั่นเป็นวิธีที่ถูกต้องหรือไม่ คำถามของฉันคือคุณจะใช้วิธี SVD ในการลดมิติข้อมูลเป็นอนุกรมเวลาที่มีความยาวต่างกันได้อย่างไร หรือมีวิธีการอื่นที่คล้ายคลึงกันของการเป็นตัวแทน eigenspace มักจะใช้กับอนุกรมเวลา? ด้านล่างเป็นส่วนหนึ่งของรหัส MATLAB เพื่อแสดงแนวคิด: X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % …

4
โมเดลการถดถอยที่มีตัวแปรตอบกลับคือวันของปีที่มีเหตุการณ์รายปี (ปกติ) เกิดขึ้น
ในกรณีนี้ฉันหมายถึงวันที่ทะเลสาบค้าง วันที่ "ice-on" นี้เกิดขึ้นปีละครั้ง แต่บางครั้งก็ไม่เกิดขึ้นเลย (หากฤดูหนาวอบอุ่น) ดังนั้นในหนึ่งปีทะเลสาบอาจหยุดในวันที่ 20 (มกราคม 20) และอีกปีหนึ่งก็อาจไม่หยุดเลย เป้าหมายคือการหาไดรเวอร์ของวันที่น้ำแข็ง ตัวทำนายจะเป็นสิ่งต่าง ๆ เช่นอุณหภูมิอากาศฤดูใบไม้ร่วง / ฤดูหนาวในแต่ละปี ปีอาจเป็นเครื่องทำนายแนวโน้มเชิงเส้นในระยะยาว 1) จำนวนเต็ม "วันของปี" เป็นตัวแปรตอบกลับที่สมเหตุสมผล (ถ้าไม่ใช่คืออะไร) 2) เราควรจัดการกับปีที่ทะเลสาบไม่เคยแข็งตัวอย่างไร? แก้ไข: ฉันไม่รู้ว่ามารยาทคืออะไรที่นี่ แต่ฉันคิดว่าฉันโพสต์ผลลัพธ์ของคำแนะนำที่ฉันได้รับ นี่คือกระดาษที่เปิดการเข้าถึง ฉันได้รับผลตอบรับที่ดีเกี่ยวกับวิธีการใช้ขอบคุณ @pedrofigueira และ @cboettig แน่นอนข้อผิดพลาดเป็นของฉันเอง

2
การสร้างภาพเหตุผลเพียงพอสำหรับการแปลงข้อมูลหรือไม่
ปัญหา ฉันต้องการพล็อตความแปรปรวนที่อธิบายโดยพารามิเตอร์ 30 ตัวแต่ละตัวเช่น barplot ที่มีแถบที่แตกต่างกันสำหรับแต่ละพารามิเตอร์และความแปรปรวนบนแกน y: อย่างไรก็ตามความแปรปรวนจะเบ้อย่างมากต่อค่าเล็กรวมถึง 0 ซึ่งสามารถเห็นได้ในฮิสโตแกรมด้านล่าง: ถ้าฉันแปลงมันด้วยมันจะง่ายขึ้นที่จะเห็นความแตกต่างระหว่างค่าเล็ก ๆ (ฮิสโตแกรมและบาร์พล็อตด้านล่าง):log(x+1)log⁡(x+1)\log(x+1) คำถาม การพล็อตในระดับบันทึกเป็นเรื่องปกติ แต่การวางแผนสมเหตุสมผลหรือไม่?log(x+1)log⁡(x+1)\log(x+1)

1
เป็นแปลงราก -th แนะนำ?
เพื่อนร่วมงานของฉันต้องการวิเคราะห์ข้อมูลบางอย่างหลังจากเปลี่ยนตัวแปรการตอบสนองด้วยการเพิ่มเป็น (นั่นคือ )1818\frac18y0.125y0.125y^{0.125} ฉันรู้สึกไม่สบายใจกับสิ่งนี้ แต่การดิ้นรนเพื่ออธิบายว่าทำไม ฉันไม่สามารถนึกถึงเหตุผลเชิงกลไกใด ๆ สำหรับการเปลี่ยนแปลงนี้ ฉันไม่เคยเห็นมาก่อนและฉันกังวลว่าบางทีมันอาจทำให้อัตราความผิดพลาดของ Type I หรือบางอย่างเพิ่มขึ้น - แต่ฉันไม่มีอะไรจะสนับสนุนข้อกังวลเหล่านี้! นอกจากนี้เพื่อนร่วมงานของฉันพบว่าโมเดลที่แปลงเหล่านี้มีประสิทธิภาพสูงกว่าโมเดลที่ไม่ได้รับการแปลงในการเปรียบเทียบ AIC ในตัวมันเองปรับการใช้งานให้เหมาะสมหรือไม่?

1
วิธีที่เหมาะสมที่สุดในการแปลงสัดส่วนเมื่อเป็นตัวแปรอิสระคืออะไร
ฉันคิดว่าฉันเข้าใจปัญหานี้ แต่ตอนนี้ฉันไม่แน่ใจและฉันต้องการตรวจสอบกับผู้อื่นก่อนที่ฉันจะดำเนินการต่อ ฉันมีสองตัวแปรXและY. Yเป็นอัตราส่วนและไม่ได้ล้อมรอบด้วย 0 และ 1 และโดยทั่วไปแล้วจะกระจาย Xเป็นสัดส่วนและมันถูกล้อมรอบด้วย 0 และ 1 (มันวิ่งจาก 0.0 ถึง 0.6) เมื่อฉันเรียกใช้การถดถอยเชิงเส้นของY ~ Xและฉันพบว่าXและYมีความสัมพันธ์เชิงเส้นอย่างมีนัยสำคัญ จนถึงตอนนี้ดีมาก แต่แล้วผมตรวจสอบต่อไปและผมก็เริ่มคิดว่าบางทีXและY'ความสัมพันธ์อาจจะโค้งมากกว่าเชิงเส้น ให้ฉันดูเหมือนความสัมพันธ์ของXและYอาจจะใกล้ชิดกับY ~ log(X), Y ~ sqrt(X)หรือY ~ X + X^2, หรือสิ่งที่ต้องการ ฉันมีเหตุผลเชิงประจักษ์ที่จะถือว่าความสัมพันธ์นั้นอาจเป็นเส้นโค้ง แต่ไม่ใช่เหตุผลที่จะถือว่าความสัมพันธ์ที่ไม่ใช่เชิงเส้นใด ๆ อาจดีกว่าความสัมพันธ์อื่น ฉันมีคำถามที่เกี่ยวข้องสองสามข้อจากที่นี่ ก่อนอื่นXตัวแปรของฉันรับค่าสี่ค่า: 0, 0.2, 0.4 และ 0.6 เมื่อฉันล็อก - หรือสแควร์รูท - แปลงข้อมูลเหล่านี้ระยะห่างระหว่างค่าเหล่านี้จะผิดเพี้ยนเพื่อให้ค่า 0 อยู่ห่างจากค่าอื่นทั้งหมดมาก …

4
เบาะแสว่าปัญหาเหมาะสมอย่างยิ่งสำหรับการถดถอยเชิงเส้น
ฉันเรียนรู้การถดถอยเชิงเส้นโดยใช้รู้เบื้องต้นเกี่ยวกับการวิเคราะห์การถดถอยเชิงเส้นโดยอจิกและ Vining ฉันต้องการเลือกโครงการวิเคราะห์ข้อมูล ฉันมีความคิดที่ไร้เดียงสาว่าการถดถอยเชิงเส้นนั้นเหมาะสมเมื่อผู้ต้องสงสัยคนหนึ่งเท่านั้นที่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง แต่มีแอพพลิเคชั่นในโลกแห่งความจริงไม่มากนักที่ดูเหมือนจะตรงตามเกณฑ์นี้ แต่การถดถอยเชิงเส้นค่อนข้างแพร่หลาย แง่มุมของโครงการที่นักสถิติที่มีประสบการณ์กำลังคิดอยู่ว่าพวกเขาอยู่ในรองเท้าของฉันหรือไม่โดยมองหาคำถาม + ข้อมูลที่เหมาะสมกับการถดถอยเชิงเส้น

2
การกระจายแบบปกติ X และ Y มีแนวโน้มที่จะส่งผลให้เกิดการตกค้างแบบกระจายตามปกติหรือไม่
ที่นี่การตีความที่ผิดของสมมติฐานของภาวะปกติในการถดถอยเชิงเส้นถูกกล่าวถึง (ที่ 'ปกติ' หมายถึง X และ / หรือ Y มากกว่าที่เหลือ) และโปสเตอร์ถามว่ามันเป็นไปได้ที่จะมีการกระจาย X และ Y ไม่ปกติ และยังคงมีการกระจายสารตกค้างตามปกติ คำถามของฉันคือ: โดยทั่วไปมีการกระจาย X และ Y มีแนวโน้มที่จะส่งผลให้ส่วนที่เหลือกระจายตามปกติ? มีการโพสต์ที่เกี่ยวข้องมากมาย แต่ฉันไม่เชื่อว่ามีใครถามคำถามนี้โดยเฉพาะ ฉันรู้ว่านี่อาจเป็นจุดที่น่าสนใจหากมีเพียงการถดถอยเพียงครั้งเดียวที่ต้องทำ แต่ก็น้อยลงหากมีการทดสอบหลายครั้ง สมมติว่าฉันมีตัวแปร 100 X ซึ่งทั้งหมดมีความเบ้เหมือนกันและฉันต้องการทดสอบพวกเขาทั้งหมด ถ้าฉันเปลี่ยนพวกมันทั้งหมดเป็นการกระจายตัวแบบปกติมันจะเป็นไปได้ไหมที่ฉันจะมีตัวแปร X น้อยกว่าที่ต้องการการตรวจสอบอีกครั้ง (โดยไม่มีการแปลงที่ต่างกัน / ไม่มีการเปลี่ยนแปลง) เนื่องจากเศษซากที่ไม่กระจายตามปกติ

3
วิธีเปลี่ยนการกระจายเลปโตคอตติกไปสู่ภาวะปกติ?
สมมติว่าฉันมีตัวแปร leptokurtic ที่ฉันต้องการเปลี่ยนเป็นค่าปกติ การเปลี่ยนแปลงอะไรที่ทำให้งานนี้สำเร็จ ฉันตระหนักดีว่าการแปลงข้อมูลอาจไม่เป็นที่ต้องการเสมอไป แต่เป็นการศึกษาเชิงวิชาการสมมติว่าฉันต้องการที่จะ "ตอก" ข้อมูลลงในแบบปกติ นอกจากนี้ดังที่คุณสามารถบอกได้จากพล็อตค่าทั้งหมดเป็นค่าบวกอย่างเคร่งครัด ฉันได้ลองใช้การเปลี่ยนแปลงที่หลากหลาย (สิ่งที่ฉันเคยเห็นมาก่อนรวมถึง, ฯลฯ ) แต่ไม่มีใครทำงานได้ดีเป็นพิเศษ มีการเปลี่ยนแปลงที่รู้จักกันดีในการทำให้การกระจายตัวของเลปโตไคโตริกเป็นปกติมากขึ้นหรือไม่?1X, X--√, Asinh ( X)1X,X,asinh(X)\frac 1 X,\sqrt X,\text{asinh}(X) ดูตัวอย่างพล็อต QQ ปกติด้านล่าง:

1
เกณฑ์สำหรับการเลือกโมเดล“ ดีที่สุด” ในโมเดลมาร์คอฟที่ซ่อนอยู่
ฉันมีชุดข้อมูลอนุกรมเวลาที่ฉันพยายามจัดวางแบบซ่อนมาร์คอฟ (HMM) เพื่อประเมินจำนวนสถานะแฝงในข้อมูล รหัสหลอกของฉันสำหรับทำสิ่งนี้มีดังต่อไปนี้: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } ตอนนี้ในรูปแบบการถดถอยปกติ BIC มีแนวโน้มที่จะชอบรูปแบบที่น่าสังเวชมากที่สุด แต่ในกรณีของ HMM ฉันไม่แน่ใจว่ามันคือสิ่งที่ทำ มีใครบ้างที่ทราบว่าเกณฑ์ BIC ของ HMM ประเภทใดมีแนวโน้มเป็นจริง? ฉันยังสามารถได้รับ AIC และค่าความน่าจะเป็นเช่นกัน เนื่องจากฉันพยายามที่จะอนุมานจำนวนจริงของรัฐเป็นหนึ่งในเกณฑ์เหล่านี้ "ดีกว่า" เพื่ออื่น ๆ สำหรับวัตถุประสงค์นี้หรือไม่


1
เหตุใดจึงต้องใช้ตัวแปรที่บันทึกไว้
อาจเป็นคำถามพื้นฐานมาก แต่ฉันดูเหมือนจะไม่สามารถหาคำตอบที่ชัดเจนสำหรับมัน ฉันหวังว่าที่นี่ฉันสามารถ ตอนนี้ฉันกำลังอ่านเอกสารเพื่อเตรียมสำหรับวิทยานิพนธ์ปริญญาโทของฉันเอง ขณะนี้ฉันกำลังอ่านกระดาษที่ค้นคว้าความสัมพันธ์ระหว่างทวีตและคุณลักษณะของตลาดหุ้น หนึ่งในสมมติฐานของพวกเขาพวกเขาเสนอว่า "ปริมาณทวีตที่เพิ่มขึ้นนั้นเกี่ยวข้องกับปริมาณการซื้อขายที่เพิ่มขึ้น" ผมจะคาดหวังให้พวกเขาในความสัมพันธ์คู่ที่จะมีความสัมพันธ์tweetVolumeกับtradingVolume, แต่พวกเขารายงานโดยใช้รุ่นเข้าสู่ระบบ: และLN(tweetVolume)LN(tradingVolume) สำหรับวิทยานิพนธ์ของฉันฉันได้ทำซ้ำเอกสารนี้ ฉันรวบรวมทวีตประมาณ 100 บริษัท มานานกว่า 6 เดือน ( tweetVolume) และปริมาณการซื้อขายหุ้นในช่วงเวลาเดียวกัน ถ้าฉันมีความสัมพันธ์ตัวแปรแน่นอนผมพบr=.282, p.000แต่เมื่อผมใช้ verions r=.488, p=.000ทะเบียนผมพบ ฉันไม่เข้าใจว่าทำไมนักวิจัยบางครั้งใช้ตัวแปรที่บันทึกไว้และทำไมความสัมพันธ์จึงดูสูงขึ้นมากถ้าคุณทำเช่นนั้น อะไรคือเหตุผลที่นี่และทำไมจึงใช้ตัวแปรที่บันทึกไว้ ความช่วยเหลือของคุณได้รับการชื่นชมอย่างมาก :-)

2
จะทำอย่างไรเมื่อบางเวลามีการตอบสนองที่เบ้อย่างหนักและบางคนไม่ได้ทำการศึกษาซ้ำหลายครั้ง?
โดยทั่วไปเมื่อมีการวัดผลอย่างต่อเนื่อง แต่เบ้ในการออกแบบระยะยาว (พูดด้วยผลระหว่างวิชาหนึ่ง) วิธีการทั่วไปคือการเปลี่ยนผลลัพธ์ให้เป็นปกติ หากสถานการณ์นั้นรุนแรงเช่นด้วยการสังเกตที่ถูกตัดทอนอย่างใดอย่างหนึ่งอาจจะมีจินตนาการและใช้โมเดลการเติบโตของ Tobit หรือบางอย่าง แต่ฉันกำลังสูญเสียเมื่อฉันเห็นผลลัพธ์ที่กระจายตามปกติในบางช่วงเวลาและจากนั้นก็เบ้อย่างหนักที่คนอื่น ๆ ; การแปลงอาจเสียบการรั่วไหลหนึ่ง แต่ฤดูใบไม้ผลิอื่น คุณจะแนะนำอะไรในกรณีเช่นนี้? มีโมเดลมิกซ์เอฟเฟ็กต์รุ่นที่ไม่ใช่พารามิเตอร์ที่ฉันไม่ทราบหรือไม่ หมายเหตุ: ตัวอย่างที่ใช้จะเป็นคะแนนการทดสอบความรู้ก่อน / โพสต์ชุดของการแทรกแซงการศึกษา คะแนนเริ่มต้นตามปกติ แต่จากนั้นจัดกลุ่มที่ระดับสูงสุดของระดับต่อไป

2
รุ่นอนุกรมเวลาของความแตกต่างของบันทึกดีกว่าอัตราการเติบโตหรือไม่
บ่อยครั้งที่ฉันเห็นผู้เขียนประเมินโมเดล "ความแตกต่างของบันทึก" เช่น log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t ฉันเห็นนี้มีความเหมาะสมที่จะเกี่ยวข้องกับไปสู่การเปลี่ยนแปลงในอัตราร้อยละขณะที่คือ(1)y t log ( y t ) I ( 1 )xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) แต่ความแตกต่างของบันทึกคือการประมาณและดูเหมือนว่าเราสามารถประมาณโมเดลได้โดยไม่ต้องมีการแปลงบันทึกเช่น yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - y_{t-1}) / y_{t-1}=\alpha+\beta x_t ยิ่งไปกว่านั้นอัตราการเติบโตจะอธิบายการเปลี่ยนแปลงเปอร์เซ็นต์อย่างแม่นยำในขณะที่ความแตกต่างของบันทึกจะประมาณการเปลี่ยนแปลงเปอร์เซ็นต์เท่านั้น อย่างไรก็ตามฉันพบว่าวิธีการบันทึกความแตกต่างถูกใช้บ่อยกว่ามาก ในความเป็นจริงแล้วการใช้อัตราการเติบโตดูเหมือนว่าเหมาะสมที่จะจัดการกับความคงที่ของความแตกต่างแรก ในความเป็นจริงฉันได้พบว่าการคาดการณ์กลายเป็นแบบเอนเอียง (บางครั้งเรียกว่าปัญหาการส่งข้อมูลย้อนกลับในวรรณกรรม) เมื่อเปลี่ยนตัวแปรบันทึกกลับไปเป็นข้อมูลระดับyt/yt−1yt/yt−1y_t/y_{t-1} ประโยชน์ของการใช้ความแตกต่างของบันทึกเปรียบเทียบกับอัตราการเติบโตคืออะไร มีปัญหาใด ๆ กับการเปลี่ยนแปลงอัตราการเติบโตหรือไม่? ฉันเดาว่าฉันขาดอะไรไปไม่งั้นก็ดูเหมือนว่าจะใช้วิธีนี้บ่อยขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.