สถิติและข้อมูลขนาดใหญ่

4

ความแตกต่างระหว่างความแปรปรวน จำกัด และความแปรปรวนอนันต์คืออะไร

ความแตกต่างระหว่างผลต่างอันตะ จำกัด และความไม่สิ้นสุดคืออะไร? ความรู้สถิติของฉันค่อนข้างพื้นฐาน Wikipedia / Google ไม่ได้ช่วยอะไรมากที่นี่

33 variance intuition partial-moments

3

วิธีการพอดีกับรุ่น ARIMAX กับ R

ฉันมีการวัดรายชั่วโมงสี่แบบต่อเนื่อง การใช้ความร้อนภายในบ้าน อุณหภูมิภายนอกบ้าน รังสีดวงอาทิตย์ ความเร็วลม ฉันต้องการที่จะทำนายการใช้ความร้อนภายในบ้าน มีแนวโน้มตามฤดูกาลที่ชัดเจนทั้งรายปีและรายวัน เนื่องจากมีความสัมพันธ์ที่ชัดเจนระหว่างซีรีย์ที่แตกต่างกันฉันต้องการให้พอดีกับพวกเขาโดยใช้โมเดล ARIMAX สิ่งนี้สามารถทำได้ใน R โดยใช้ฟังก์ชั่น arimax จากแพ็คเกจ TSA ฉันพยายามอ่านเอกสารเกี่ยวกับฟังก์ชั่นนี้และอ่านฟังก์ชั่นการถ่ายโอน แต่จนถึงตอนนี้รหัสของฉัน: regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) ให้ฉัน: โดยที่เส้นสีดำคือข้อมูลจริงที่วัดได้และเส้นสีเขียวเป็นแบบจำลองที่ได้ทำการเปรียบเทียบของฉัน ไม่เพียง แต่เป็นแบบอย่างที่ดีเท่านั้น ฉันจะยอมรับว่าความรู้เกี่ยวกับโมเดล ARIMAX และฟังก์ชั่นการถ่ายโอนมี จำกัด ในฟังก์ชั่น arimax (), (เท่าที่ฉันเข้าใจ), xtransf เป็นอนุกรมเวลาภายนอกที่ฉันต้องการใช้ (โดยใช้ฟังก์ชั่นถ่ายโอน) เพื่อทำนายอนุกรมเวลาหลักของฉัน แต่อะไรคือความแตกต่างระหว่าง xreg และ xtransf …

33 time-series modeling arima

7

อะไรคือเหตุผลที่เราใช้ลอการิทึมธรรมชาติ (ln) แทนที่จะล็อกฐาน 10 ในการระบุฟังก์ชันในเศรษฐมิติ

33 econometrics

4

อะไรคือข้อโต้แย้ง fiducial และทำไมมันถึงไม่ได้รับการยอมรับ?

หนึ่งในช่วงปลายมีส่วนร่วมของชาวประมง RA เป็นช่วงเวลาที่แม่นยำและการขัดแย้งจริยธรรมแม่นยำ อย่างไรก็ตามวิธีการนี้ไม่ได้รับความนิยมเท่านักโต้เถียงหรือ Bayesian อะไรคือข้อโต้แย้ง fiducial และทำไมไม่ได้รับการยอมรับ?

33 inference philosophical fiducial

3

วิธีที่ถูกต้องที่สุดในการกำหนดสีของวัตถุคืออะไร?

ฉันเขียนโปรแกรมคอมพิวเตอร์ที่สามารถตรวจจับเหรียญในรูปภาพนิ่ง (.jpeg, .png ฯลฯ ) โดยใช้เทคนิคมาตรฐานสำหรับการมองเห็นคอมพิวเตอร์ (Gaussian Blur, thresholding, Hough-Transform เป็นต้น) ด้วยการใช้อัตราส่วนของเหรียญที่หยิบขึ้นมาจากภาพที่กำหนดฉันสามารถสร้างด้วยความมั่นใจที่ดีว่าเหรียญใด อย่างไรก็ตามฉันต้องการเพิ่มระดับความมั่นใจของฉันและกำหนดด้วยว่าเหรียญที่ฉันอนุมานว่าเป็นประเภท A (จากอัตราส่วนรัศมี) ก็เป็นของ colo ที่ถูกต้องเช่นกัน ปัญหาคือว่าสำหรับเหรียญอังกฤษและคณะ (ทองแดง, เงิน, ทองคำ) สีที่เกี่ยวข้อง (โดยเฉพาะทองแดงกับทอง) มีความคล้ายคลึงกันมาก ฉันมีงานประจำที่แยกสีค่าเฉลี่ยของเหรียญที่กำหนดในรูปของ 'color-space' RedGreenBlue (RGB) และรูทีนการแปลงสีนี้เป็น HueSaturationBrightness (HSB หรือ HSV) 'color-space' RGB ไม่ค่อยดีในการพยายามแยกแยะความแตกต่างระหว่างสีเหรียญสามสี (ดูตัวอย่าง [พื้นฐาน] ที่แนบมา) ฉันมีช่วงต่อไปนี้และค่าทั่วไปสำหรับสีของเหรียญประเภทต่างๆ: หมายเหตุ: ค่าทั่วไปที่นี่คือค่าที่เลือกโดยใช้ 'พิกเซลที่ชาญฉลาด' หมายถึงภาพจริง **Copper RGB/HSB:** typicalRGB = (153, …

33 image-processing

2

มีตัวแปรแบบกล่องสำหรับข้อมูลแบบกระจายของปัวซองหรือไม่

ฉันต้องการที่จะรู้ว่ามีตัวแปร boxplot ปรับให้เข้ากับข้อมูลการกระจายปัวซอง (หรือการกระจายอื่น ๆ ) ด้วยการแจกแจงแบบเกาส์หนวดที่ L = Q1 - 1.5 IQR และ U = Q3 + 1.5 IQR บ็อกซ์ล็อตมีคุณสมบัติที่จะมีค่าผิดปกติต่ำมาก (คะแนนต่ำกว่า L) เนื่องจากมีค่าผิดปกติสูง ) หากข้อมูลที่มีการกระจาย Poisson แต่นี้ไม่ได้ถืออีกต่อไปเพราะของเบ้เชิงบวกที่เราได้รับPr (X <L) <Pr (X> U) มีวิธีอื่นในการวางเคราเช่นนี้เพื่อให้พอดีกับการแจกแจงปัวซองหรือไม่?

33 data-visualization poisson-distribution boxplot

4

ข้อผิดพลาดมาตรฐานการจัดกลุ่มใน R (ทั้งด้วยตนเองหรือใน PLM)

ฉันพยายามที่จะเข้าใจข้อผิดพลาดมาตรฐาน "การจัดกลุ่ม" และวิธีการดำเนินการใน R (มันเป็นเรื่องเล็กน้อยใน Stata) ใน RI ไม่ประสบความสำเร็จในการใช้งานplmหรือเขียนฟังก์ชั่นของตัวเอง ฉันจะใช้diamondsข้อมูลจากggplot2แพ็คเกจ ฉันสามารถแก้ไขเอฟเฟกต์ด้วยตัวแปรจำลองได้ > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t …

33 r panel-data standard-error fixed-effects-model clustered-standard-errors

6

วิธีการประเมินความคล้ายคลึงกันของสองฮิสโทแกรมหรือไม่

ให้สองฮิสโตแกรมเราจะประเมินได้อย่างไรว่าพวกมันคล้ายกันหรือไม่ มันเพียงพอแล้วหรือไม่ที่จะดูสองฮิสโทแกรม การแมปแบบหนึ่งต่อหนึ่งอย่างง่ายมีปัญหาว่าหากฮิสโตแกรมแตกต่างกันเล็กน้อยและเปลี่ยนไปเล็กน้อยจากนั้นเราจะไม่ได้ผลลัพธ์ที่ต้องการ ข้อเสนอแนะใด ๆ

33 histogram image-processing

5

เหตุใดการถดถอยของปัวซองจึงใช้สำหรับนับข้อมูล

ฉันเข้าใจว่าสำหรับชุดข้อมูลบางอย่างเช่นการลงคะแนนจะทำงานได้ดีขึ้น เหตุใดการถดถอยของปัวซองจึงใช้กับการถดถอยเชิงเส้นปกติหรือการถดถอยโลจิสติก แรงจูงใจทางคณิตศาสตร์สำหรับมันคืออะไร?

33 count-data poisson-regression

14

การอ้างอิงสำหรับการวิเคราะห์การอยู่รอด

ฉันกำลังมองหาหนังสือ / บทช่วยสอนที่ดีเพื่อเรียนรู้เกี่ยวกับการวิเคราะห์ความอยู่รอด ฉันยังสนใจในการอ้างอิงในการทำการวิเคราะห์การอยู่รอดในอาร์

33 r survival references

10

จะสอนนักเรียนที่กลัวสถิติได้อย่างไร

ฉันกำลังจะช่วยสอนสถิติแก่นักศึกษาแพทย์ในภาคการศึกษานี้ ฉันได้ยินเรื่องราวสยองขวัญมากมายเกี่ยวกับความกลัวของนักเรียนเหล่านี้จากการเรียนรู้สถิติ ใครสามารถแนะนำสิ่งที่จะทำอย่างไรกับความกลัวนี้ (ลิงก์ไปยังบุคคลที่กำลังพูดถึงเรื่องนี้หรือเสนอคำแนะนำจากประสบการณ์ของคุณเอง)

33 teaching

2

ความแปรปรวนของฟังก์ชันหนึ่งตัวแปรสุ่ม

ให้บอกว่าเรามีตัวแปรสุ่มมีความแปรปรวนและค่าเฉลี่ยที่รู้จัก คำถามคืออะไรความแปรปรวนของสำหรับบางฟังก์ชั่นที่กำหนด วิธีทั่วไปเท่านั้นที่ฉันรู้คือวิธีเดลต้า แต่ให้เพียงประมาณ ตอนนี้ฉันสนใจในแต่มันก็ดีที่จะรู้วิธีการทั่วไปบางอย่างXXXฉ( X)ฉ(X)f(X)ฉ( x ) = x--√ฉ(x)=xf(x)=\sqrt{x} แก้ไข 29.12.2010 ฉันได้ทำการคำนวณโดยใช้ซีรี่ส์ Taylor แต่ฉันไม่แน่ใจว่ามันถูกต้องหรือไม่ดังนั้นฉันจึงดีใจถ้ามีคนยืนยันได้ ก่อนอื่นเราต้องประมาณE[ f( X) ]E[ฉ(X)]E[f(X)] E[ f( X) ] ≈ E[ f( μ ) + f'( μ ) ( X- μ ) + 12⋅ f''( μ ) ( X- μ )2] = f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot …

33 variance random-variable delta-method

1

ความแตกต่างทางคณิตศาสตร์ระหว่าง GBM, XGBoost, LightGBM, CatBoost?

มีการปรับใช้หลายรุ่นตระกูล GBDT เช่น: GBM XGBoost LightGBM Catboost อะไรคือความแตกต่างทางคณิตศาสตร์ระหว่างการใช้งานที่แตกต่างกันเหล่านี้? Catboost ดูเหมือนว่าจะมีประสิทธิภาพสูงกว่าการใช้งานอื่น ๆ แม้จะใช้เพียงพารามิเตอร์เริ่มต้นตามเครื่องหมายมาตรฐานนี้ แต่ก็ยังช้ามาก ฉันเดาว่า catboost ไม่ได้ใช้ตัวแปร dummified ดังนั้นน้ำหนักที่กำหนดให้กับตัวแปร (หมวดหมู่) แต่ละตัวนั้นมีความสมดุลมากกว่าเมื่อเปรียบเทียบกับการใช้งานอื่น ๆ ดังนั้นตัวแปรที่มีความสำคัญสูงจึงไม่มีน้ำหนักมากกว่าตัวอื่น มันช่วยให้การจัดหมวดหมู่ที่อ่อนแอ (ที่มีความสำคัญน้อย) เข้าไปในต้นไม้บางต้นซึ่งมีประสิทธิภาพที่ดีกว่า นอกจากนั้นฉันไม่มีคำอธิบายเพิ่มเติม

33 boosting xgboost

1

การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ Lasso และการทำให้เป็นมาตรฐานของ L2 เหมือนกับการถดถอยแบบสันหรือไม่ และวิธีการเขียน“ Lasso”?

ฉันวิศวกรซอฟต์แวร์เครื่องเรียนรู้การเรียนรู้โดยเฉพาะอย่างยิ่งผ่านแอนดรูอึ้งของหลักสูตรการเรียนรู้เครื่อง ขณะศึกษาการถดถอยเชิงเส้นด้วยการทำให้เป็นระเบียบฉันพบคำศัพท์ที่สับสน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 หรือการทำให้เป็นมาตรฐาน L2 เชือก สันเขาถดถอย ดังนั้นคำถามของฉัน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ LASSO หรือไม่ การถดถอยด้วยการทำให้เป็นมาตรฐาน L2 เหมือนกับการถดถอยริดจ์หรือไม่ "LASSO" ใช้ในการเขียนอย่างไร? มันควรจะเป็น "การถดถอยแบบ LASSO" หรือไม่? ฉันเคยเห็นการใช้งานเช่น " เชือกที่เหมาะสมกว่า " หากคำตอบคือ "ใช่" สำหรับ 1 และ 2 ข้างต้นเหตุใดจึงมีชื่อแตกต่างกันสำหรับคำสองคำนี้ "L1" และ "L2" มาจากวิทยาการคอมพิวเตอร์ / คณิตศาสตร์และ "LASSO" และ "Ridge" จากสถิติหรือไม่ การใช้คำเหล่านี้สร้างความสับสนเมื่อฉันเห็นโพสต์ที่ชอบ: " ความแตกต่างระหว่างการทำให้เป็นมาตรฐาน L1 และ L2 …

33 regression terminology lasso regularization ridge-regression

1

ความสำคัญของตัวแปรเชิงสัมพันธ์สำหรับการส่งเสริม

ฉันกำลังมองหาคำอธิบายว่าวิธีคำนวณความสำคัญของตัวแปรแบบสัมพันธ์ในต้นไม้ที่เพิ่มขึ้นแบบไล่ระดับสีซึ่งไม่ธรรมดา / ง่ายเกินไป: มาตรการจะขึ้นอยู่กับจำนวนครั้งที่ตัวแปรถูกเลือกสำหรับการแยกถ่วงน้ำหนักด้วยการปรับปรุงยกกำลังสองกับรูปแบบเป็นผลของแต่ละแยกและเฉลี่ยมากกว่าต้นไม้ทั้งหมด [ Elith และคณะ 2008, คู่มือการทำงานเพื่อเพิ่มความแข็งแกร่งให้กับต้นไม้ถดถอย ] และนั่นก็เป็นนามธรรมน้อยกว่า: ผม2J^( T) = ∑t = 1J- 1ผม2เสื้อ^1 ( vเสื้อ= j )ผมJ2^(T)=Σเสื้อ=1J-1ผมเสื้อ2^1(โวลต์เสื้อ=J)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) โดยที่การรวมอยู่เหนือโหนดที่ไม่ใช่เทอร์มินัลของโหนดทรี ,คือตัวแปรการแยกที่เชื่อมโยงกับโหนดและเป็นการปรับปรุงเชิงประจักษ์ในข้อผิดพลาดกำลังสอง เป็นผลมาจากการแยกหมายถึงโดยที่คือการตอบสนองของลูกสาวด้านซ้ายและขวาตามลำดับและเป็นจำนวนเงินที่สอดคล้องกันของน้ำหนัก J T v t t ^ i 2 t i 2 ( R l , R r ) = w l w rเสื้อเสื้อtJJJTTTโวลต์เสื้อโวลต์เสื้อv_{t}เสื้อเสื้อtผม2เสื้อ^ผมเสื้อ2^\hat{i_{t}^2}ผม2( …

33 machine-learning data-mining predictive-models cart boosting