สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ฉันสามารถใช้อัลกอริทึม glm เพื่อทำการถดถอยโลจิสติกพหุนาม
ฉันใช้สปอตไฟร์ (S ++) สำหรับการวิเคราะห์ทางสถิติในโครงการของฉันและฉันต้องเรียกใช้การถดถอยโลจิสติกหลายมิติสำหรับชุดข้อมูลขนาดใหญ่ ฉันรู้ว่าอัลกอริทึมที่ดีที่สุดจะเป็น mlogit แต่น่าเสียดายที่มันไม่สามารถใช้ได้ใน s ++ อย่างไรก็ตามฉันมีตัวเลือกในการใช้อัลกอริทึม glm สำหรับการถดถอยนี้ ฉันต้องการชี้แจงสองสิ่งที่นี่: 1. ความเข้าใจของฉันถูกต้องหรือไม่ที่ glm สามารถใช้ในการรัน Multinomial Logistic Regression ได้? หากตอบคำถามก่อนหน้านี้คือใช่แล้วพารามิเตอร์ใดที่ควรใช้ใน glm algo ขอบคุณ

5
การตีความความแตกต่างระหว่าง R และ SPSS ด้วยการวิเคราะห์ปัจจัยเชิงสำรวจ
ฉันเป็นนักศึกษาระดับบัณฑิตศึกษาสาขาวิทยาศาสตร์คอมพิวเตอร์ ฉันทำการวิเคราะห์ปัจจัยเชิงสำรวจสำหรับโครงการวิจัย เพื่อนร่วมงานของฉัน (ที่เป็นผู้นำโครงการ) ใช้ SPSS ในขณะที่ฉันต้องการใช้ R สิ่งนี้ไม่สำคัญจนกว่าเราจะค้นพบความแตกต่างที่สำคัญระหว่างสองแพ็คเกจทางสถิติ เราใช้แกนแฟคตอริ่งระหว่างการแยก (โปรดทราบว่าฉันตระหนักดีถึงความแตกต่างระหว่าง PCA และการวิเคราะห์ปัจจัยและเราไม่ได้ใช้ PCAอย่างน้อยก็ไม่ได้ตั้งใจ) จากสิ่งที่ฉันได้อ่านสิ่งนี้ควรสอดคล้องกับวิธี "แกนหลัก" ใน R และ "แกนตัวประกอบแฟคตอริ่งหลัก" หรือ "สแควร์สแควร์น้อยที่สุด" ใน SPSSตามเอกสาร R เราจะใช้วิธีการเอียงหมุน (เฉพาะPromax ) เพราะเราคาดว่าปัจจัยที่มีความสัมพันธ์และมีการตีความเมทริกซ์รูปแบบ การรันสองโพรซีเดอร์ใน R และ SPSS มีความแตกต่างที่สำคัญ เมทริกซ์รูปแบบให้การโหลดที่แตกต่างกัน แม้ว่าสิ่งนี้จะให้ปัจจัยเดียวกันกับความสัมพันธ์ของตัวแปรมากขึ้นหรือน้อยลง แต่ก็มีความแตกต่างระหว่างการโหลดที่สอดคล้องกันถึง 0.15 ซึ่งดูเหมือนจะมากกว่าที่คาดไว้โดยการใช้วิธีการสกัดและการหมุนแบบโปรแม็กซ์ที่แตกต่างกัน อย่างไรก็ตามนั่นไม่ใช่ความแตกต่างที่น่าตกใจที่สุด ความแปรปรวนสะสมที่อธิบายโดยปัจจัยอยู่ที่ประมาณ 40% ในผลลัพธ์ SPSS และ 31% ในผลลัพธ์ R นี่เป็นความแตกต่างอย่างมากและทำให้เพื่อนร่วมงานของฉันต้องการใช้ SPSS …

3
ระบบผู้แนะนำแบบไดนามิก
Recommender ระบบจะวัดความสัมพันธ์ระหว่างการจัดอันดับของผู้ใช้งานที่แตกต่างกันและข้อเสนอแนะที่อัตราผลตอบแทนสำหรับผู้ใช้ที่ได้รับเกี่ยวกับรายการที่อาจเป็นที่สนใจของเขา อย่างไรก็ตามรสนิยมเปลี่ยนไปตามกาลเวลาดังนั้นการให้คะแนนแบบเก่าอาจไม่สะท้อนการตั้งค่าปัจจุบันและในทางกลับกัน คุณอาจใส่ "ยอดเยี่ยม" ลงในหนังสือคุณจะให้คะแนนว่า "ไม่น่าขยะแขยงเกินไป" และอื่น ๆ นอกจากนี้ผลประโยชน์ของตัวเองก็เปลี่ยนแปลงเช่นกัน ระบบผู้แนะนำควรทำงานในสภาพแวดล้อมที่เปลี่ยนแปลงอย่างไร ทางเลือกหนึ่งคือการตัดคะแนน "เก่า" ซึ่งอาจใช้งานได้ดีสมมติว่าคุณกำหนด "เก่า" ไว้อย่างถูกต้อง (คุณสามารถพูดได้ว่าคะแนนไม่หมดอายุและแสร้งทำเป็นว่าไม่มีปัญหา) แต่มันไม่ใช่ตัวเลือกที่ดีที่สุด: แน่นอนว่ารสชาติมีวิวัฒนาการเป็นกระแสชีวิตปกติและไม่มีเหตุผลว่าทำไมเราไม่สามารถใช้ความรู้พิเศษในการจัดอันดับที่ถูกต้องในครั้งเดียว ตัวเลือกอื่นคือเพื่อรองรับความรู้พิเศษนี้ ดังนั้นเราจึงไม่เพียงแค่ค้นหา "การจับคู่แบบทันที" สำหรับความสนใจปัจจุบันของคุณ แต่แนะนำสิ่งที่คุณอาจชอบต่อไป (ตรงข้ามกับสิ่งที่คุณอาจชอบตอนนี้ ) ฉันไม่แน่ใจว่าฉันจะอธิบายเรื่องนี้ดีพอ โดยทั่วไปฉันชอบแนวทางที่สองและกำลังพูดถึงระบบผู้แนะนำซึ่งจะวัดความสัมพันธ์ของวิถีการรับรสและคำแนะนำเกี่ยวกับผลผลิตที่จะตอบสนอง .. ดีเราเรียกมันว่าการเติบโตส่วนบุคคล - เพราะพวกเขาจะมาจากคนที่ "วิถีรสนิยม" (และไม่ใช่แค่ "รสนิยมภาพรวม") จะคล้ายกับของคุณ ตอนนี้คำถาม:ฉันสงสัยว่ามีบางสิ่งที่คล้ายกับ "ตัวเลือก 2" อยู่แล้วและถ้าเป็นเช่นนั้นฉันสงสัยว่ามันทำงานอย่างไร และหากไม่มีอยู่คุณสามารถพูดคุยเกี่ยวกับวิธีการใช้งานได้! :)

2
การจัดการกับชุดข้อมูลที่มีคุณสมบัติจำนวนตัวแปร
มีวิธีการอะไรบ้างในการจำแนกข้อมูลด้วยจำนวนตัวแปรที่มีคุณสมบัติ? ยกตัวอย่างเช่นพิจารณาปัญหาที่แต่ละจุดข้อมูลเป็นเวกเตอร์ของจุด x และ y และเราไม่มีจุดเท่ากันสำหรับแต่ละอินสแตนซ์ เราสามารถใช้คะแนน x และ y แต่ละคู่เป็นคุณสมบัติได้หรือไม่? หรือเราควรสรุปประเด็นเพื่อให้จุดข้อมูลแต่ละจุดมีคุณสมบัติคงที่?

2
คำถามเกี่ยวกับการถดถอยโลจิสติก
ฉันต้องการรันการถดถอยโลจิสติกแบบไบนารีเพื่อสร้างแบบจำลองการมีหรือไม่มีความขัดแย้ง (ตัวแปรตาม) จากชุดของตัวแปรอิสระในช่วง 10 ปี (1997-2006) โดยแต่ละปีมีการสังเกต 107 ครั้ง ที่ปรึกษาของฉันคือ: การเสื่อมสภาพของดิน (แบ่งเป็น 2 ประเภทคือการย่อยสลาย); จำนวนประชากรเพิ่มขึ้น (0- no; 1-yes); ประเภทการดำรงชีวิต (0 - ประเภทหนึ่ง; 1 - ประเภทสอง); ความหนาแน่นของประชากร (ความหนาแน่นสามระดับ); NDVIอย่างต่อเนื่อง (ผลผลิตสูงสุด veg); NDVI t - 1 (ลดลง veg จากปีก่อน - 0 - no; 1 -yes) และt - 1เสื้อ-1_{t-1} และ NDVI (การลดลงของ veg …

3
เราสามารถบอกเด็กเกี่ยวกับสถิติและการเรียนรู้ของเครื่องได้อย่างไร
สัปดาห์หน้าเรามีการฝึกงานจากโรงเรียนท้องถิ่นในบ้าน แนวคิดที่อยู่เบื้องหลังการฝึกงานระยะสั้นของเขาคือการได้รับแนวคิดว่าโลกแห่งความจริงทำงานอย่างไรและงานบางอย่างเกี่ยวข้องกับงานลักษณะอย่างไรในชีวิตประจำวันเป็นต้น ตอนนี้ฉันสงสัยว่าสิ่งใดที่สามารถบอก / แสดง / สาธิตเด็กเล็กเกี่ยวกับสถิติและการเรียนรู้ของเครื่องจักรเพื่อให้เขา / เธอ ได้รับแนวคิดพื้นฐานของเรื่องนี้ ได้รับความกระตือรือร้น (สมมติว่าก่อนหน้านี้เด็กไม่หนักเกินไปในความโปรดปรานของผลประโยชน์อื่น ๆ ) จะไม่ลืมมันในวันถัดไป ฉันกำลังมองหาภาพติดตัวอย่างสำหรับการสาธิตและอื่น ๆ เป็นหลัก พื้นหลังของเด็ก: อายุ 15-16 ปี แนวคิดพื้นฐานเกี่ยวกับคณิตศาสตร์เป็นที่รู้จัก (สิ่งที่เป็นกราฟกฎสามข้อตัวแปรคืออะไร (ทางคณิตศาสตร์ไม่ใช่การพูดเชิงสถิติ)) เนื่องจากส่วนที่ยากของคำถามนี้คือการอธิบายพื้นที่ของคุณให้เป็นหนึ่งเดียวโดยไม่มีความรู้พื้นฐานคำถามนี้อาจใช้เป็นข้อมูลอ้างอิงสำหรับการสนทนากับญาติและเพื่อน Sidenote:ฉันข้ามคำอธิบายของงานของฉันโดยเจตนาเพื่อให้คำถามนี้ไม่เจาะจงเกินไปคำถามนี้เกี่ยวกับหัวข้อของเว็บไซต์นี้โดยทั่วไป

1
ทำไมเราควรพูดถึงพฤติกรรมการลู่เข้าของตัวประมาณที่แตกต่างกันในทอพอโลยีที่แตกต่างกัน?
ในบทแรกของหนังสือเกี่ยวกับเรขาคณิตเชิงพีชคณิตและทฤษฎีการเรียนรู้ทางสถิติซึ่งพูดถึงการลู่เข้าของการประมาณค่าในพื้นที่การทำงานที่แตกต่างกันมันกล่าวว่าการประมาณแบบเบย์สอดคล้องกับโทโพโลยีการกระจายแบบชวาร์ตษ์ (ในหน้า 7): ตัวอย่างเช่น sup-norm, no, ทอพอโลยีแบบอ่อนของ Hilbert space , โทโพโลยีการกระจายแบบชวาร์ตษ์และอื่น ๆ มันขึ้นอยู่กับโทโพโลยีของพื้นที่ฟังก์ชั่นอย่างมากว่าการลู่เข้าถือหรือไม่ การประมาณค่า Bayes สอดคล้องกับโทโพโลยีการแจกแจงแบบชวาร์ตษ์ในขณะที่ความเป็นไปได้สูงสุดหรือวิธีการทางด้านหลังสอดคล้องกับ sup-norm ความแตกต่างนี้มีผลอย่างมากต่อผลการเรียนรู้ในรูปแบบเอกพจน์L 2 K n ( w ) → K ( w )LพีLพีL^pL2L2L^2Kn( w ) → K( w )Kn(W)→K(W)K_n(w)\to K(w) โดยที่และเป็นลำดับเชิงประจักษ์ KL-divergence (ผลรวมของการสังเกต) และ KL-divergence จริง (integral wrt การกระจายข้อมูล) ระหว่างโมเดลจริงและโมเดลพารามิเตอร์ (พร้อมพารามิเตอร์w )K ( w …

2
การเข้ารหัสคุณสมบัติเด็ดขาดเป็นตัวเลขสำหรับการเรียนรู้ของเครื่อง
อัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากเช่นเครือข่ายประสาทคาดหวังว่าจะจัดการกับตัวเลข ดังนั้นเมื่อคุณมีข้อมูลที่เป็นหมวดหมู่คุณจะต้องแปลงเป็น ตามหมวดหมู่ฉันหมายถึงตัวอย่างเช่น: แบรนด์รถยนต์: Audi, BMW, Chevrolet ... รหัสผู้ใช้: 1, 25, 26, 28 ... แม้ว่ารหัสผู้ใช้จะเป็นตัวเลข แต่เป็นเพียงป้ายกำกับและไม่ได้หมายถึงความต่อเนื่องเช่นอายุหรือจำนวนเงิน ดังนั้นวิธีการพื้นฐานดูเหมือนว่าจะใช้เวกเตอร์ไบนารีเพื่อเข้ารหัสหมวดหมู่: ออดี้: 1, 0, 0 ... BMW: 0, 1, 0 ... เชฟโรเลต: 0, 0, 1 ... ไม่เป็นไรเมื่อมีหมวดหมู่น้อย แต่นอกเหนือจากนั้นก็ดูไม่มีประสิทธิภาพ ตัวอย่างเช่นเมื่อคุณมีรหัสผู้ใช้ 10,000 รหัสการเข้ารหัสมันคือ 10,000 คุณสมบัติ คำถามคือจะมีวิธีที่ดีกว่า บางทีอาจเกี่ยวข้องกับความน่าจะเป็นหรือไม่

1
ฟังก์ชั่นสร้างโมเมนต์
คำถามนี้เกิดขึ้นจากคำถามที่ถามเกี่ยวกับหน้าที่สร้างช่วงเวลา (MGF) สมมติว่าXXXเป็นตัวแปรสุ่มที่ไม่มีขอบเขตหมายถึงการรับค่าใน [−σ,σ][−σ,σ][-\sigma, \sigma]และให้G(t)=E[etX]G(t)=E[etX]G(t) = E[e^{tX}]เป็น MGF จากที่ถูกผูกไว้ใช้ในการพิสูจน์ของความไม่เท่าเทียมกันของ Hoeffdingเรามีที่ G(t)=E[etX]≤eσ2t2/2G(t)=E[etX]≤eσ2t2/2G(t) = E[e^{tX}] \leq e^{\sigma^2t^2/2} ที่ด้านขวาเป็นที่จดจำได้เป็น MGF ของตัวแปรสุ่มศูนย์เฉลี่ยปกติที่มีค่าเบี่ยงเบนมาตรฐานσσσ\sigmaตอนนี้ส่วนเบี่ยงเบนมาตรฐานของXXXจะไม่ใหญ่กว่าσσ\sigmaด้วยค่าสูงสุดที่เกิดขึ้นเมื่อXXXเป็นตัวแปรสุ่มแบบแยกโดยสิ้นเชิงเช่น P{X=σ}=P{X=−σ}=12P{X=σ}=P{X=−σ}=12P\{X = \sigma\} = P\{X = -\sigma\} = \frac{1}{2} . ดังนั้นขอบเขตที่อ้างถึงสามารถถูกคิดว่าเป็นการกล่าวว่า MGF ของตัวแปรสุ่มที่มีค่าศูนย์ซึ่งหมายถึงขอบเขตXXXถูกล้อมรอบด้วย MGF ของตัวแปรสุ่มค่าเฉลี่ยศูนย์ที่มีค่าเบี่ยงเบนมาตรฐานเท่ากับค่าเบี่ยงเบนมาตรฐานที่เป็นไปได้สูงสุดที่XXXสามารถ มี. คำถามของฉันคือ: นี่เป็นผลที่รู้จักกันดีของผลประโยชน์อิสระที่ใช้ในสถานที่อื่นนอกเหนือจากการพิสูจน์ความไม่เท่าเทียมของ Hoeffding และถ้าเป็นเช่นนั้นเป็นที่ทราบกันหรือไม่ว่าจะขยายไปถึงตัวแปรสุ่มด้วยค่าที่ไม่ใช่ศูนย์ ผลที่แจ้งคำถามนี้จะช่วยให้ช่วงไม่สมมาตร[a,b][a,b][a,b]สำหรับXXXกับ< 0 < Bแต่ไม่ยืนยันในE [ X ] = 0 ผูกพันเป็น G ( …

3
ใครช่วยอธิบายการแปรปรวนเวลาแบบไดนามิกเพื่อพิจารณาความคล้ายคลึงของอนุกรมเวลาได้หรือไม่?
ฉันพยายามเข้าใจการวัดเวลาแปรปรวนแบบไดนามิกสำหรับการเปรียบเทียบอนุกรมเวลาเข้าด้วยกัน ฉันมีชุดข้อมูลสามชุดดังนี้: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, 0.00029057097196, 0.000353232073472, 0.000394710874285, 0.000207555002076, 0.000402738622634, 0, 0.000309693403531, 0.000506521463847, 0.000226988991034, 0.000414164423276, 9.6590360282e-05, 0.000476689865573, 0.000377572210685, 0.000378967314069, 9.25240562546e-05, 0.000172309813044, …

5
วิธีปรับให้พอดีกับการแจกแจงแบบ Weibull กับข้อมูลอินพุตที่มีเลขศูนย์
ฉันกำลังพยายามสร้างอัลกอริทึมการทำนายที่มีอยู่โดยนักวิจัยที่เกษียณแล้ว ขั้นตอนแรกคือเพื่อให้พอดีกับข้อมูลที่สังเกตได้บางอย่างกับการแจกแจงแบบ Weibull เพื่อให้ได้รูปร่างและมาตราส่วนซึ่งจะใช้ในการทำนายค่าในอนาคต ฉันใช้ R เพื่อทำสิ่งนี้ นี่คือตัวอย่างของรหัสของฉัน: x<-c(23,19,37,38,40,36,172,48,113,90,54,104,90,54,157,51,77,78,144,34,29,45,16,15,37,218,170,44,121) f<-fitdistr(x, 'weibull') สิ่งนี้ทำงานได้ดียกเว้นว่ามีเลขศูนย์ใด ๆ ในอาร์เรย์อินพุตซึ่งทำให้มันล้มเหลวอย่างสมบูรณ์ สิ่งเดียวกันเกิดขึ้นใน SAS ดังที่ฉันเข้าใจแล้วนี่เป็นเพราะหนึ่งในขั้นตอนในการคำนวณการแจกแจงแบบ Weibull คือการบันทึกตามธรรมชาติซึ่งไม่ได้กำหนดไว้สำหรับ 0 มีวิธีที่เหมาะสมในการแก้ไขปัญหานี้หรือไม่? สิ่งที่ดีที่สุดที่ฉันเคยพบคือการเพิ่ม 1 ให้กับค่าอินพุตทั้งหมดของฉันให้พอดีกับเส้นโค้งแล้วลบหนึ่งค่าจากค่าที่คาดการณ์ไว้ของฉัน ("เลื่อน" เส้นโค้งขึ้นแล้วกลับลง 1) ซึ่งตรงกับข้อมูลที่คาดการณ์ไว้ก่อนหน้านี้ค่อนข้างดี แต่ดูเหมือนว่ามันจะต้องเป็นวิธีที่ผิดในการทำเช่นนั้น แก้ไข: ค่าในอาร์เรย์อินพุตจะถูกตรวจสอบข้อมูลในโลกแห่งความเป็นจริง (จำนวนการเกิดขึ้นของบางสิ่งบางอย่าง) เป็นระยะเวลาหลายปี ดังนั้นในบางปีจำนวนการเกิดขึ้นจึงเป็นศูนย์ ไม่ว่าจะเป็นวิธีที่ดีที่สุดหรือไม่ (ฉันยอมรับว่าอาจไม่ใช่) ผู้เขียนอัลกอริทึมดั้งเดิมอ้างว่าใช้การกระจาย Weibull และฉันต้องพยายามทำซ้ำกระบวนการของพวกเขา

1
ห้องสมุดการเพิ่มประสิทธิภาพของข้อ จำกัด สำหรับข้อ จำกัด ความเท่าเทียมกันและความไม่เท่าเทียมกัน
คำแนะนำใด ๆ สำหรับการเลือกไลบรารีการเพิ่มประสิทธิภาพที่ จำกัด เหมาะสำหรับฟังก์ชั่นการเพิ่มประสิทธิภาพของฉัน ฉันกำลังลดขนาด ai) ฟังก์ชันที่ไม่ใช่เชิงเส้นด้วยข้อ จำกัด เชิงเส้นตรงและความไม่เท่าเทียมกันและ ii) มีการไล่ระดับสีและ hessian ของฟังก์ชัน ถ้ามันจะช่วยให้การทำงานของผมที่ลดเป็นความแตกต่าง Kullback-Liebler constrOptim เกี่ยวข้องเฉพาะกับข้อ จำกัด ที่ไม่เท่าเทียมกัน Quadprogจัดการ quadratics ความน่าเชื่อถือไม่สนับสนุนข้อ จำกัด ดังนั้นความแตกต่างของ KL จึงไม่สอดคล้องกับโซลูชันเหล่านี้ มีวิธีแก้ปัญหาค่อนข้างน้อยในหน้าR Cran Task สำหรับการปรับให้เหมาะสม เอี่ยมสามารถทำการปรับให้เหมาะสมใน MATLAB โดยใช้ฟังก์ชั่นfmincon () ซึ่งดูเหมือนว่าจะใช้การตกแต่งภายในหรือจุดสะท้อนแสงที่น่าเชื่อถือ เป็นการดีที่มีห้องสมุดที่เหมาะสมกับปัญหาที่กำหนดไว้

4
“ การกลั่นกรอง” กับ“ การมีปฏิสัมพันธ์”?
ฉันเจอคำศัพท์สองคำนี้ที่ใช้แทนกันได้ในหลายบริบท โดยทั่วไป moderator (M) เป็นปัจจัยที่ส่งผลกระทบต่อความสัมพันธ์ระหว่าง X และ Y การวิเคราะห์การกลั่นกรองมักจะทำโดยใช้แบบจำลองการถดถอย ตัวอย่างเช่นเพศ (M) สามารถส่งผลกระทบต่อความสัมพันธ์ระหว่าง "การวิจัยผลิตภัณฑ์" (X) และ "การซื้อผลิตภัณฑ์" (Y) ในการโต้ตอบ X1 และ X2 จะมีอิทธิพลต่อ Y ตัวอย่างเช่นเดียวกันนี้คือ "การวิจัยผลิตภัณฑ์" (X1) ได้รับผลกระทบจาก "เพศ" (X2) และพวกเขามีผลต่อ "การซื้อผลิตภัณฑ์" (Y) ฉันจะเห็นว่าในการดูแล M มีผลต่อความสัมพันธ์ XY แต่ในการโต้ตอบ M (ซึ่งเป็นเพศในกรณีนี้) มีผลต่อ IV อื่น ๆ คำถาม : หากเป้าหมายของโครงการคือดูว่าเพศมีผลต่อความสัมพันธ์ระหว่าง X และ Y อย่างไรฉันควรใช้การควบคุมหรือการโต้ตอบ …

2
ARMA / ARIMA เกี่ยวข้องกับการสร้างแบบจำลองเอฟเฟกต์ผสมอย่างไร?
ในการวิเคราะห์ข้อมูลแบบพาเนลฉันใช้โมเดลหลายระดับพร้อมเอฟเฟ็กต์แบบสุ่ม / ผสมเพื่อจัดการกับปัญหาความสัมพันธ์อัตโนมัติ (เช่นการสังเกตมีการรวมกลุ่มภายในบุคคลเมื่อเวลาผ่านไป) ด้วยพารามิเตอร์อื่น ๆ ที่เพิ่มเข้ามาเพื่อปรับตามเวลาและแรงกระแทก . ดูเหมือน ARMA / ARIMA ออกแบบมาเพื่อแก้ไขปัญหาที่คล้ายกัน ทรัพยากรที่ฉันพบออนไลน์สนทนาทั้งชุด (ARMA / ARIMA) หรือโมเดลเอฟเฟกต์แบบผสม แต่นอกเหนือจากการสร้างความถดถอยฉันไม่เข้าใจความสัมพันธ์ระหว่างทั้งสอง มีใครต้องการใช้ ARMA / ARIMA จากภายในรุ่นหลายระดับหรือไม่ มีความรู้สึกในสิ่งที่ทั้งสองจะเทียบเท่าหรือซ้ำซ้อน? คำตอบหรือตัวชี้ไปยังแหล่งข้อมูลที่กล่าวถึงเรื่องนี้จะดีมาก

3
การกระจายที่ถูกตัดทอนหมายความว่าอย่างไร
ในบทความวิจัยเกี่ยวกับการวิเคราะห์ความอ่อนไหวของตัวแบบสมการเชิงอนุพันธ์สามัญของระบบไดนามิกผู้เขียนให้การแจกแจงของพารามิเตอร์แบบจำลองเป็นการแจกแจงแบบปกติ (Mean = 1e-4, std = 3e-5) ถูกตัดให้อยู่ในช่วง [0.5e -4 1.5e-4] จากนั้นเขาใช้ตัวอย่างจากการแจกแจงแบบตัดปลายนี้เพื่อจำลองสถานการณ์ของแบบจำลอง การกระจายแบบตัดปลายและตัวอย่างจากการกระจายแบบตัดปลายหมายความว่าอย่างไร ฉันสามารถสร้างวิธีนี้ได้สองวิธี: ตัวอย่างจากการแจกแจงแบบปกติ แต่ไม่ต้องสนใจค่าสุ่มทั้งหมดที่อยู่นอกช่วงที่ระบุก่อนการจำลอง ได้รับการกระจาย "ปกติที่ถูกตัดทอน" เป็นพิเศษและรับตัวอย่างจากมัน แนวทางที่ถูกต้องและเท่าเทียมกันเหล่านี้หรือไม่ ผมเชื่อว่าในกรณีแรกหากมีการพล็อตทดลอง CDF / pdf ของกลุ่มตัวอย่างก็จะดูไม่เหมือนการกระจายปกติเพราะโค้งไม่ขยายไปถึง± ∞±∞\pm\infty ∞

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.