คำถามติดแท็ก modeling

แท็กนี้อธิบายกระบวนการสร้างแบบจำลองการเรียนรู้ทางสถิติหรือเครื่อง เพิ่มแท็กเฉพาะเสมอ

2
แนวทางปฏิบัติมาตรฐานในการสร้างชุดข้อมูลสังเคราะห์คืออะไร?
ตามบริบท: เมื่อทำงานกับชุดข้อมูลที่มีขนาดใหญ่มากบางครั้งฉันถูกถามว่าเราสามารถสร้างชุดข้อมูลสังเคราะห์ที่เรา "รู้จัก" ความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตอบสนองหรือความสัมพันธ์ระหว่างตัวทำนาย ในช่วงหลายปีที่ผ่านมาฉันดูเหมือนจะพบชุดข้อมูลสังเคราะห์แบบครั้งเดียวซึ่งดูเหมือนว่าพวกมันถูกปรุงในลักษณะเฉพาะกิจหรือชุดข้อมูลที่มีโครงสร้างมากขึ้นซึ่งดูดีเป็นพิเศษสำหรับวิธีการสร้างแบบจำลองของนักวิจัย ฉันเชื่อว่าฉันกำลังมองหาวิธีมาตรฐานในการสร้างชุดข้อมูลสังเคราะห์ แม้ว่า bootstrap resampling เป็นวิธีการทั่วไปหนึ่งในการสร้างชุดข้อมูลสังเคราะห์ แต่ก็ไม่เป็นไปตามเงื่อนไขที่เรารู้ว่าโครงสร้าง เป็นสำคัญ ยิ่งกว่านั้นการแลกเปลี่ยนตัวอย่าง bootstrap กับผู้อื่นจำเป็นต้องมีการแลกเปลี่ยนข้อมูลมากกว่าวิธีการสร้างข้อมูล ถ้าเราสามารถกระจายพาราเมทริกให้กับข้อมูลหรือหาโมเดลพาราเมทริกที่ใกล้พอแล้วนี่เป็นตัวอย่างหนึ่งที่เราสามารถสร้างชุดข้อมูลสังเคราะห์ มีวิธีอื่นใดอีกบ้าง? ฉันสนใจข้อมูลมิติสูงข้อมูลที่กระจัดกระจายและข้อมูลอนุกรมเวลา สำหรับข้อมูลมิติสูงฉันจะมองหาวิธีที่สามารถสร้างโครงสร้าง (เช่นโครงสร้างความแปรปรวนร่วมแบบจำลองเชิงเส้นต้นไม้เป็นต้น) ที่น่าสนใจ สำหรับข้อมูลอนุกรมเวลาจากการแจกแจงผ่าน FFTs รุ่น AR หรือตัวกรองอื่น ๆ หรือตัวแบบการพยากรณ์อื่น ๆ ดูเหมือนจะเป็นการเริ่มต้น สำหรับข้อมูลที่กระจัดกระจายการสร้างรูปแบบการกระจัดกระจายนั้นมีประโยชน์ ฉันเชื่อว่าสิ่งเหล่านี้เป็นเพียงแค่รอยขีดข่วนบนพื้นผิว - สิ่งเหล่านี้เป็นแบบเรียนรู้ได้ไม่ใช่แบบทางการ มีการอ้างอิงหรือแหล่งข้อมูลสำหรับการสร้างข้อมูลสังเคราะห์ที่ผู้ปฏิบัติงานควรรู้หรือไม่? หมายเหตุ 1: ฉันรู้ว่าคำถามนี้เน้นที่วรรณกรรมว่าจะสร้างข้อมูลได้อย่างไรเช่นตัวแบบอนุกรมเวลา ความแตกต่างที่นี่คือการปฏิบัติโดยเฉพาะอย่างยิ่งเพื่อระบุโครงสร้างที่รู้จัก (คำถามของฉัน) เมื่อเทียบกับความคล้ายคลึงกัน / ความจงรักภักดีต่อชุดข้อมูลที่มีอยู่ ในกรณีของฉันไม่จำเป็นต้องมีความคล้ายคลึงกันมากเท่ากับโครงสร้างที่รู้จักแม้ว่าความคล้ายคลึงกันจะเป็นที่นิยมอย่างมากต่อความแตกต่างกัน ชุดข้อมูลสังเคราะห์ที่แปลกใหม่ซึ่งแบบจำลองแสดงสัญญาเป็นที่ต้องการน้อยกว่าการจำลองที่เหมือนจริง หมายเหตุ 2: รายการ Wikipedia สำหรับข้อมูลสังเคราะห์ชี้ให้เห็นว่าผู้ทรงคุณวุฒิเช่น …

5
การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร
ในการถดถอยเชิงเส้นแต่ละค่าที่ทำนายไว้จะถูกเลือกจากการแจกแจงปกติของค่าที่เป็นไปได้ ดูด้านล่าง แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?

2
โมเดลเชิงเส้นทั่วไปเทียบกับโมเดลเชิงเส้นทั่วไป (พร้อมฟังก์ชันลิงก์เอกลักษณ์)
นี่เป็นโพสต์แรกของฉันดังนั้นโปรดช่วยฉันถ้าฉันไม่ปฏิบัติตามมาตรฐาน! ฉันค้นหาคำถามและไม่มีอะไรเกิดขึ้น คำถามของฉันเกี่ยวข้องกับความแตกต่างในทางปฏิบัติระหว่างการสร้างแบบจำลองเชิงเส้นทั่วไป (GLM) และการสร้างแบบจำลองเชิงเส้นทั่วไป (GZLM) ในกรณีของฉันมันจะเป็นตัวแปรต่อเนื่องไม่กี่อย่างในรูปของโควาเรียตและอีกสองสามปัจจัยใน ANCOVA เทียบกับ GZLM ฉันต้องการตรวจสอบผลกระทบหลักของตัวแปรแต่ละตัวรวมถึงการโต้ตอบสามทางเดียวที่ฉันจะร่างในแบบจำลอง ฉันสามารถเห็นสมมติฐานนี้กำลังทดสอบใน ANCOVA หรือใช้ GZLM ในระดับหนึ่งฉันเข้าใจกระบวนการทางคณิตศาสตร์และการให้เหตุผลเบื้องหลังการใช้โมเดลเชิงเส้นทั่วไปเช่น ANCOVA และฉันค่อนข้างเข้าใจว่า GZLMs อนุญาตให้ฟังก์ชันลิงก์เชื่อมต่อโมเดลเชิงเส้นและตัวแปรตาม (ตกลงฉันโกหกบางทีฉันอาจไม่ เข้าใจคณิตศาสตร์จริงๆ) สิ่งที่ฉันไม่ชอบจริงๆ ไม่เข้าใจว่ามีความแตกต่างในทางปฏิบัติหรือเหตุผลในการดำเนินการวิเคราะห์หนึ่งและไม่ใช่อีกอย่างเมื่อการแจกแจงความน่าจะเป็นที่ใช้ใน GZLM เป็นปกติ (เช่นฟังก์ชั่นลิงค์ตัวตน?) ฉันได้ผลลัพธ์ที่แตกต่างกันมากเมื่อฉันวิ่งไปอีกอันหนึ่ง ฉันจะวิ่งได้ไหม ข้อมูลของฉันค่อนข้างไม่ปกติ แต่ทำงานได้ในระดับหนึ่งทั้งใน ANCOVA และ GZLM ในทั้งสองกรณีสมมติฐานของฉันได้รับการสนับสนุน แต่ใน GZLM ค่า p คือ "ดีกว่า" ความคิดของฉันคือ ANCOVA เป็นโมเดลเชิงเส้นที่มีตัวแปรตามการกระจายตามปกติโดยใช้ฟังก์ชั่นลิงค์ตัวตนซึ่งเป็นสิ่งที่ฉันสามารถป้อนใน GZLM ได้ แต่สิ่งเหล่านี้ยังคงแตกต่างกัน โปรดอธิบายคำถามเหล่านี้ให้ฉันฟังหน่อยถ้าคุณทำได้! จากคำตอบแรกฉันมีคำถามเพิ่มเติม: หากพวกเขาเหมือนกันยกเว้นการทดสอบนัยสำคัญที่ใช้ …

4
คุณมีวิสัยทัศน์ระดับโลกเกี่ยวกับเทคนิคการวิเคราะห์เหล่านั้นหรือไม่?
ขณะนี้ฉันอยู่ในโครงการที่ฉันต้องการโดยทั่วไปเหมือนกับที่เราทุกคนเข้าใจว่าเอาต์พุตเกี่ยวข้องกับอินพุตอย่างไร พิลึกนี่คือข้อมูลที่จะได้รับการฉันหนึ่งชิ้นในเวลาดังนั้นฉันต้องการที่จะปรับปรุงการวิเคราะห์ของฉันทุกครั้งที่ผมได้รับใหม่x) ฉันเชื่อว่าสิ่งนี้เรียกว่าการประมวลผลแบบ "ออนไลน์" ซึ่งตรงข้ามกับการประมวลผลแบบ "แบทช์" ซึ่งคุณมีข้อมูลทั้งหมดที่จำเป็นและทำการคำนวณโดยใช้ข้อมูลทั้งหมดในเวลาเดียวกันyyyxxx(y,x)(y,x)(y,x)(y,x)(y,x)(y,x) ดังนั้นฉันจึงมองหาแนวคิดและท้ายที่สุดฉันก็สรุปว่าโลกแบ่งออกเป็นสาม: ส่วนแรกคือดินแดนแห่งสถิติและเศรษฐมิติ คนที่นั่นมี OLS, GLS, ตัวแปรเครื่องดนตรี, ARIMA, การทดสอบ, ความแตกต่างของความแตกต่าง, PCA และ whatnot ดินแดนนี้ส่วนใหญ่ถูกครอบงำด้วยความเป็นเส้นตรงและใช้การประมวลผลแบบ "แบทช์" เท่านั้น ส่วนที่สองคือเกาะแห่งการเรียนรู้ของเครื่องและคำอื่น ๆ เช่นปัญญาประดิษฐ์การเรียนรู้แบบมีผู้สอนและไม่มีผู้ดูแลเครือข่ายประสาทและ SVM การประมวลผล "แบทช์" และ "ออนไลน์" เสร็จสิ้นแล้วที่นี่ ส่วนที่สามเป็นทั้งทวีปที่ฉันเพิ่งค้นพบซึ่งส่วนใหญ่มีประชากรโดยวิศวกรไฟฟ้าจึงดูเหมือนว่า มีคนมักจะเพิ่มคำว่า "กรอง" เพื่อเป็นเครื่องมือของพวกเขาและพวกเขาคิดค้นวัตถุดิบที่ดีเยี่ยมเช่นอัลกอริทึม Widrow-ฮอฟฟ์ซ้ำสองน้อยที่สุดที่ตัวกรอง Wienerการกรองคาลมาและอาจจะสิ่งอื่น ๆ ที่ฉันไม่ได้ค้นพบเลย เห็นได้ชัดว่าพวกเขาส่วนใหญ่ทำการ "ออนไลน์" การประมวลผลตามที่เหมาะกับความต้องการของพวกเขา ดังนั้นคำถามของฉันคือคุณมีวิสัยทัศน์ระดับโลกในเรื่องทั้งหมดนี้หรือไม่? ฉันอยู่ภายใต้ความประทับใจที่ทั้งสามส่วนของโลกไม่ได้พูดคุยกันมากเกินไป ฉันผิดหรือเปล่า? มีทฤษฎีการเข้าใจที่ครบวงจรที่ยิ่งใหญ่ว่ากับอย่างไร? คุณรู้หรือไม่ว่ามีแหล่งข้อมูลใดบ้างที่ฐานของทฤษฎีนั้นอาจถูกวางลง?YYYXXX ฉันไม่แน่ใจว่าคำถามนี้สมเหตุสมผลหรือไม่ แต่ฉันหลงทางเล็กน้อยระหว่างทฤษฎีเหล่านั้นทั้งหมด ฉันจินตนาการคำตอบของคำถามที่ว่า …

6
การสร้างแบบจำลองสมการโครงสร้างเบื้องต้น
ฉันถูกเพื่อนร่วมงานขอความช่วยเหลือในเรื่องนี้ซึ่งฉันไม่รู้จริงๆ พวกเขาตั้งสมมติฐานเกี่ยวกับบทบาทของตัวแปรแฝงในการศึกษาหนึ่งครั้งและผู้ตัดสินขอให้พวกเขาทำเป็นระเบียบใน SEM เนื่องจากสิ่งที่พวกเขาต้องการดูเหมือนไม่ยากเกินไปฉันคิดว่าฉันจะให้ช็อตเด็ด ... สำหรับตอนนี้ฉันแค่มองหาการแนะนำที่ดีเกี่ยวกับเรื่องนี้! Google ไม่ใช่เพื่อนของฉันในเรื่องนี้ ขอบคุณมากล่วงหน้า ... PS: ฉันอ่านการสร้างแบบจำลองสมการโครงสร้างด้วยแพคเกจ sem ใน Rโดย John Fox และข้อความนี้โดยผู้เขียนคนเดียวกัน ฉันคิดว่านี่น่าจะเพียงพอสำหรับวัตถุประสงค์ของฉัน

10
คุณมีคำแนะนำสำหรับหนังสือเกี่ยวกับสถิติประยุกต์ที่สอนด้วยตนเองในระดับบัณฑิตศึกษาหรือไม่?
ฉันเรียนวิชาสถิติหลายหลักสูตรในวิทยาลัย แต่ฉันพบว่าการศึกษาของฉันเป็นไปตามทฤษฎีมาก ฉันสงสัยว่ามีผู้ใดที่มีข้อความในสถิติประยุกต์ (ระดับบัณฑิตศึกษา) ที่คุณแนะนำหรือเคยมีประสบการณ์ที่ดีมาก่อนหรือไม่

2
โมเดลเชิงพื้นที่เชิงสถิติ: CAR เทียบกับ SAR
เมื่อใดที่ผู้คนต้องการใช้แบบจำลองเงื่อนไขแบบอัตโนมัติเชิงเงื่อนไขมากกว่าแบบจำลองแบบจำลองอัตโนมัติพร้อมกันเมื่อสร้างแบบจำลองข้อมูลทางอากาศอ้างอิงทางภูมิศาสตร์โดยอัตโนมัติ?
23 modeling  spatial 

4
การแจกแจงก่อนหน้าอย่างไม่ทราบข้อมูลสำหรับพารามิเตอร์มาตราส่วน
ฉันใช้การแจกแจงแบบปกติของล็อกเป็นการแจกแจงก่อนหน้าสำหรับพารามิเตอร์สเกล (สำหรับการแจกแจงแบบปกติ, การแจกแจงแบบอื่น ๆ ) เมื่อฉันมีความคิดคร่าวๆเกี่ยวกับสิ่งที่สเกลควรจะเป็น แต่ต้องการทำผิดด้าน มากเกี่ยวกับมัน ฉันใช้เพราะการใช้นั้นทำให้ฉันเข้าใจได้ง่าย แต่ฉันไม่ได้เห็นคนอื่นใช้ มีอันตรายซ่อนอยู่หรือไม่?

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
วิธีการรวมช่วงความมั่นใจสำหรับองค์ประกอบความแปรปรวนของแบบผสมผลกระทบเมื่อใช้การใส่หลายครั้ง
ตรรกะของการใส่หลายครั้ง (MI) คือการกำหนดค่าที่หายไปไม่ใช่ครั้งเดียว แต่หลายครั้ง (โดยทั่วไปคือ M = 5) ส่งผลให้ชุดข้อมูล M สมบูรณ์ ชุดข้อมูลที่เสร็จสมบูรณ์แล้ว M จะถูกวิเคราะห์ด้วยวิธีการข้อมูลที่สมบูรณ์ซึ่งการประเมิน M และข้อผิดพลาดมาตรฐานถูกรวมเข้าด้วยกันโดยใช้สูตรรูบินเพื่อรับการประเมินโดยรวมและข้อผิดพลาดมาตรฐาน เยี่ยมมาก แต่ฉันไม่แน่ใจว่าจะใช้สูตรนี้อย่างไรเมื่อส่วนประกอบต่าง ๆ ของแบบผสมเอฟเฟกต์เกี่ยวข้องกัน การกระจายตัวตัวอย่างขององค์ประกอบความแปรปรวนเป็นแบบอสมมาตรดังนั้นจึงไม่สามารถกำหนดช่วงความเชื่อมั่นที่สอดคล้องกันในรูปแบบ "การประมาณ± 1.96 * se (ประมาณ)" โดยทั่วไป ด้วยเหตุนี้แพ็คเกจ R lme4 และ nlme จึงไม่ได้จัดเตรียมข้อผิดพลาดมาตรฐานของส่วนประกอบความแปรปรวน แต่ให้ช่วงความมั่นใจเท่านั้น ดังนั้นเราสามารถดำเนินการ MI บนชุดข้อมูลจากนั้นรับช่วงความเชื่อมั่น M ต่อองค์ประกอบความแปรปรวนหลังจากปรับโมเดลเอฟเฟกต์แบบเดียวกันบนชุดข้อมูลที่เสร็จสมบูรณ์แล้ว M คำถามคือทำอย่างไรจึงจะรวมช่วง M เหล่านี้เข้ากับช่วงความมั่นใจโดยรวม ฉันเดาว่าน่าจะเป็นไปได้ - ผู้เขียนบทความ (yucel & demirtas (2010) …

2
การระบุรูปแบบความแตกต่างของความแตกต่างที่มีช่วงเวลาหลายช่วงเวลา
เมื่อฉันประมาณความแตกต่างของแบบจำลองความแตกต่างกับสองช่วงเวลารูปแบบการถดถอยที่เท่าเทียมกันจะเป็น Yฉันเป็นคนที= α + γs* Tr e a t m e n t + λ dเสื้อ+ δ* ( Tr e a t m e n t ∗ dเสื้อ) + ϵฉันเป็นคนทีYผมsเสื้อ=α+γs* * * *TRอีaเสื้อม.อีnเสื้อ+λdเสื้อ+δ* * * *(TRอีaเสื้อม.อีnเสื้อ* * * *dเสื้อ)+εผมsเสื้อY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} ที่ไหน Tr …

2
วิธีการพยากรณ์ VAR
ฉันกำลังสร้างแบบจำลอง VAR เพื่อคาดการณ์ราคาของสินทรัพย์และต้องการทราบว่าวิธีการของฉันดีขึ้นหรือไม่ไม่ว่าการทดสอบที่ฉันได้รวมไว้นั้นมีความเกี่ยวข้องหรือไม่และจำเป็นต้องมีอีกหรือไม่ ด้านล่างนี้เป็นกระบวนการปัจจุบันของฉันเพื่อตรวจสอบหาสาเหตุของเกรนเจอร์และคาดการณ์รูปแบบ VAR ที่เลือก require("forecast") require("vars") #Read Data da=read.table("VARdata.txt", header=T) dac <- c(2,3) # Select variables x=da[,dac] plot.ts(x) summary(x) #Run Augmented Dickey-Fuller tests to determine stationarity and differences to achieve stationarity. ndiffs(x[, "VAR1"], alpha = 0.05, test = c("adf")) ndiffs(x[, "VAR2"], alpha = 0.05, test = c("adf")) #Difference …
19 r  forecasting  modeling  var 

2
จะคาดการณ์ได้อย่างไรว่าเหตุการณ์ต่อไปจะเกิดขึ้นตามเวลาของเหตุการณ์ก่อนหน้า?
ฉันเป็นนักเรียนมัธยมปลายและฉันกำลังทำงานในโครงการการเขียนโปรแกรมคอมพิวเตอร์ แต่ฉันไม่มีประสบการณ์ในด้านสถิติและการสร้างแบบจำลองข้อมูลนอกเหนือจากหลักสูตรสถิติของโรงเรียนมัธยมดังนั้นฉันจึงสับสน โดยพื้นฐานแล้วฉันมีรายการที่มีขนาดใหญ่พอสมควร (สมมติว่ามันใหญ่พอที่จะตรงตามข้อสันนิษฐานสำหรับการทดสอบทางสถิติหรือมาตรการต่าง ๆ ) จำนวนครั้งที่มีคนตัดสินใจพิมพ์เอกสาร จากรายการนี้ฉันต้องการสร้างแบบจำลองทางสถิติของการเรียงลำดับบางอย่างที่จะทำนายเวลาที่น่าจะเป็นไปได้มากที่สุดสำหรับงานพิมพ์ถัดไปที่ให้เวลาเหตุการณ์ก่อนหน้านี้ทั้งหมด ฉันได้อ่านสิ่งนี้แล้ว แต่คำตอบไม่ได้ช่วยในสิ่งที่ฉันมีในใจสำหรับโครงการของฉัน ฉันได้ทำการวิจัยเพิ่มเติมและพบว่าโมเดลของ Markov ที่ซ่อนอยู่นั้นน่าจะทำให้ฉันทำอย่างถูกต้อง แต่ฉันไม่สามารถหาลิงก์เกี่ยวกับวิธีสร้างโมเดลของ Markov ที่ซ่อนอยู่ได้โดยใช้เวลาเพียงไม่กี่ครั้ง ฉันยังพบว่าการใช้ตัวกรองคาลมานในรายการอาจมีประโยชน์ แต่โดยทั่วไปฉันต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับตัวกรองจากคนที่ใช้งานจริงและรู้ข้อ จำกัด และข้อกำหนดก่อนที่จะลองทำบางสิ่งและหวังว่ามันจะได้ผล ขอบคุณมัด!

1
ชุมชนใช้อะไรใน Quadrant ที่สี่?
Nassim Taleb ของBlack Swanชื่อเสียง (หรือความประพฤติไม่ดี) ได้เนื้อหาเกี่ยวกับแนวคิดและการพัฒนาสิ่งที่เขาเรียกว่า "แผนที่ขอบเขตของสถิติ" เหตุผลพื้นฐานของเขาคือมีปัญหาการตัดสินใจประเภทหนึ่งที่การใช้แบบจำลองทางสถิติใด ๆ เป็นอันตราย สิ่งเหล่านี้จะเป็นปัญหาในการตัดสินใจใด ๆ ที่ผลของการตัดสินใจผิดพลาดอาจสูงเกินไปและ PDF ต้นแบบนั้นยากที่จะรู้ ตัวอย่างหนึ่งจะย่อตัวเลือกหุ้น การดำเนินการเช่นนี้สามารถนำไปสู่การสูญเสียที่ไร้ขีด จำกัด (ในทางทฤษฎีอย่างน้อย); และความน่าจะเป็นของการสูญเสียเช่นนั้นไม่เป็นที่ทราบ ในความเป็นจริงหลายคนเป็นแบบจำลองความน่าจะเป็น แต่ Taleb แย้งว่าตลาดการเงินยังไม่แก่พอที่จะให้ใครมั่นใจในรูปแบบใด ๆ เพียงเพราะหงส์ทุกครั้งที่คุณเห็นเป็นสีขาวนั่นไม่ได้หมายความว่าหงส์ดำจะเป็นไปไม่ได้หรือไม่น่าเป็นไปได้ ดังนั้นนี่คือคำถาม: มีสิ่งที่เป็นฉันทามติในชุมชนสถิติเกี่ยวกับข้อโต้แย้งของนาย Taleb? บางทีนี่ควรเป็นวิกิชุมชน ฉันไม่รู้

4
ฉันสามารถลบตัวแปรทำนายหนึ่งในสองตัวที่มีความสัมพันธ์เชิงเส้นสูงได้หรือไม่?
ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันฉันมีตัวแปรหลายตัวที่มีความสัมพันธ์สูง ( และρ = 0.989สำหรับตัวแปร 2 คู่ที่อยู่ในแบบจำลองของฉัน)ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 เหตุผลบางส่วนของตัวแปรที่มีความสัมพันธ์อย่างมากเป็นเพราะหนึ่งในตัวแปรที่ใช้ในการคำนวณตัวแปรอื่น ตัวอย่าง: และ E = V ∗ DB=V/3000B=V/3000B = V / 3000E=V∗DE=V∗DE = V * D และ Eมี ρ = 0.989BBBEEEρ=0.989ρ=0.989\rho = 0.989 เป็นไปได้ไหมที่ฉันจะ "ทิ้ง" หนึ่งในตัวแปร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.