สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
ความแตกต่างระหว่างความแปรปรวน จำกัด และความแปรปรวนอนันต์คืออะไร
ความแตกต่างระหว่างผลต่างอันตะ จำกัด และความไม่สิ้นสุดคืออะไร? ความรู้สถิติของฉันค่อนข้างพื้นฐาน Wikipedia / Google ไม่ได้ช่วยอะไรมากที่นี่

3
วิธีการพอดีกับรุ่น ARIMAX กับ R
ฉันมีการวัดรายชั่วโมงสี่แบบต่อเนื่อง การใช้ความร้อนภายในบ้าน อุณหภูมิภายนอกบ้าน รังสีดวงอาทิตย์ ความเร็วลม ฉันต้องการที่จะทำนายการใช้ความร้อนภายในบ้าน มีแนวโน้มตามฤดูกาลที่ชัดเจนทั้งรายปีและรายวัน เนื่องจากมีความสัมพันธ์ที่ชัดเจนระหว่างซีรีย์ที่แตกต่างกันฉันต้องการให้พอดีกับพวกเขาโดยใช้โมเดล ARIMAX สิ่งนี้สามารถทำได้ใน R โดยใช้ฟังก์ชั่น arimax จากแพ็คเกจ TSA ฉันพยายามอ่านเอกสารเกี่ยวกับฟังก์ชั่นนี้และอ่านฟังก์ชั่นการถ่ายโอน แต่จนถึงตอนนี้รหัสของฉัน: regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) ให้ฉัน: โดยที่เส้นสีดำคือข้อมูลจริงที่วัดได้และเส้นสีเขียวเป็นแบบจำลองที่ได้ทำการเปรียบเทียบของฉัน ไม่เพียง แต่เป็นแบบอย่างที่ดีเท่านั้น ฉันจะยอมรับว่าความรู้เกี่ยวกับโมเดล ARIMAX และฟังก์ชั่นการถ่ายโอนมี จำกัด ในฟังก์ชั่น arimax (), (เท่าที่ฉันเข้าใจ), xtransf เป็นอนุกรมเวลาภายนอกที่ฉันต้องการใช้ (โดยใช้ฟังก์ชั่นถ่ายโอน) เพื่อทำนายอนุกรมเวลาหลักของฉัน แต่อะไรคือความแตกต่างระหว่าง xreg และ xtransf …

7
อะไรคือเหตุผลที่เราใช้ลอการิทึมธรรมชาติ (ln) แทนที่จะล็อกฐาน 10 ในการระบุฟังก์ชันในเศรษฐมิติ
อะไรคือเหตุผลที่เราใช้ลอการิทึมธรรมชาติ (ln) แทนที่จะล็อกฐาน 10 ในการระบุฟังก์ชันในเศรษฐมิติ

4
อะไรคือข้อโต้แย้ง fiducial และทำไมมันถึงไม่ได้รับการยอมรับ?
หนึ่งในช่วงปลายมีส่วนร่วมของชาวประมง RA เป็นช่วงเวลาที่แม่นยำและการขัดแย้งจริยธรรมแม่นยำ อย่างไรก็ตามวิธีการนี้ไม่ได้รับความนิยมเท่านักโต้เถียงหรือ Bayesian อะไรคือข้อโต้แย้ง fiducial และทำไมไม่ได้รับการยอมรับ?

3
วิธีที่ถูกต้องที่สุดในการกำหนดสีของวัตถุคืออะไร?
ฉันเขียนโปรแกรมคอมพิวเตอร์ที่สามารถตรวจจับเหรียญในรูปภาพนิ่ง (.jpeg, .png ฯลฯ ) โดยใช้เทคนิคมาตรฐานสำหรับการมองเห็นคอมพิวเตอร์ (Gaussian Blur, thresholding, Hough-Transform เป็นต้น) ด้วยการใช้อัตราส่วนของเหรียญที่หยิบขึ้นมาจากภาพที่กำหนดฉันสามารถสร้างด้วยความมั่นใจที่ดีว่าเหรียญใด อย่างไรก็ตามฉันต้องการเพิ่มระดับความมั่นใจของฉันและกำหนดด้วยว่าเหรียญที่ฉันอนุมานว่าเป็นประเภท A (จากอัตราส่วนรัศมี) ก็เป็นของ colo ที่ถูกต้องเช่นกัน ปัญหาคือว่าสำหรับเหรียญอังกฤษและคณะ (ทองแดง, เงิน, ทองคำ) สีที่เกี่ยวข้อง (โดยเฉพาะทองแดงกับทอง) มีความคล้ายคลึงกันมาก ฉันมีงานประจำที่แยกสีค่าเฉลี่ยของเหรียญที่กำหนดในรูปของ 'color-space' RedGreenBlue (RGB) และรูทีนการแปลงสีนี้เป็น HueSaturationBrightness (HSB หรือ HSV) 'color-space' RGB ไม่ค่อยดีในการพยายามแยกแยะความแตกต่างระหว่างสีเหรียญสามสี (ดูตัวอย่าง [พื้นฐาน] ที่แนบมา) ฉันมีช่วงต่อไปนี้และค่าทั่วไปสำหรับสีของเหรียญประเภทต่างๆ: หมายเหตุ: ค่าทั่วไปที่นี่คือค่าที่เลือกโดยใช้ 'พิกเซลที่ชาญฉลาด' หมายถึงภาพจริง **Copper RGB/HSB:** typicalRGB = (153, …

2
มีตัวแปรแบบกล่องสำหรับข้อมูลแบบกระจายของปัวซองหรือไม่
ฉันต้องการที่จะรู้ว่ามีตัวแปร boxplot ปรับให้เข้ากับข้อมูลการกระจายปัวซอง (หรือการกระจายอื่น ๆ ) ด้วยการแจกแจงแบบเกาส์หนวดที่ L = Q1 - 1.5 IQR และ U = Q3 + 1.5 IQR บ็อกซ์ล็อตมีคุณสมบัติที่จะมีค่าผิดปกติต่ำมาก (คะแนนต่ำกว่า L) เนื่องจากมีค่าผิดปกติสูง ) หากข้อมูลที่มีการกระจาย Poisson แต่นี้ไม่ได้ถืออีกต่อไปเพราะของเบ้เชิงบวกที่เราได้รับPr (X <L) <Pr (X> U) มีวิธีอื่นในการวางเคราเช่นนี้เพื่อให้พอดีกับการแจกแจงปัวซองหรือไม่?

4
ข้อผิดพลาดมาตรฐานการจัดกลุ่มใน R (ทั้งด้วยตนเองหรือใน PLM)
ฉันพยายามที่จะเข้าใจข้อผิดพลาดมาตรฐาน "การจัดกลุ่ม" และวิธีการดำเนินการใน R (มันเป็นเรื่องเล็กน้อยใน Stata) ใน RI ไม่ประสบความสำเร็จในการใช้งานplmหรือเขียนฟังก์ชั่นของตัวเอง ฉันจะใช้diamondsข้อมูลจากggplot2แพ็คเกจ ฉันสามารถแก้ไขเอฟเฟกต์ด้วยตัวแปรจำลองได้ > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t …

6
วิธีการประเมินความคล้ายคลึงกันของสองฮิสโทแกรมหรือไม่
ให้สองฮิสโตแกรมเราจะประเมินได้อย่างไรว่าพวกมันคล้ายกันหรือไม่ มันเพียงพอแล้วหรือไม่ที่จะดูสองฮิสโทแกรม การแมปแบบหนึ่งต่อหนึ่งอย่างง่ายมีปัญหาว่าหากฮิสโตแกรมแตกต่างกันเล็กน้อยและเปลี่ยนไปเล็กน้อยจากนั้นเราจะไม่ได้ผลลัพธ์ที่ต้องการ ข้อเสนอแนะใด ๆ

5
เหตุใดการถดถอยของปัวซองจึงใช้สำหรับนับข้อมูล
ฉันเข้าใจว่าสำหรับชุดข้อมูลบางอย่างเช่นการลงคะแนนจะทำงานได้ดีขึ้น เหตุใดการถดถอยของปัวซองจึงใช้กับการถดถอยเชิงเส้นปกติหรือการถดถอยโลจิสติก แรงจูงใจทางคณิตศาสตร์สำหรับมันคืออะไร?

14
การอ้างอิงสำหรับการวิเคราะห์การอยู่รอด
ฉันกำลังมองหาหนังสือ / บทช่วยสอนที่ดีเพื่อเรียนรู้เกี่ยวกับการวิเคราะห์ความอยู่รอด ฉันยังสนใจในการอ้างอิงในการทำการวิเคราะห์การอยู่รอดในอาร์
33 r  survival  references 

10
จะสอนนักเรียนที่กลัวสถิติได้อย่างไร
ฉันกำลังจะช่วยสอนสถิติแก่นักศึกษาแพทย์ในภาคการศึกษานี้ ฉันได้ยินเรื่องราวสยองขวัญมากมายเกี่ยวกับความกลัวของนักเรียนเหล่านี้จากการเรียนรู้สถิติ ใครสามารถแนะนำสิ่งที่จะทำอย่างไรกับความกลัวนี้ (ลิงก์ไปยังบุคคลที่กำลังพูดถึงเรื่องนี้หรือเสนอคำแนะนำจากประสบการณ์ของคุณเอง)
33 teaching 

2
ความแปรปรวนของฟังก์ชันหนึ่งตัวแปรสุ่ม
ให้บอกว่าเรามีตัวแปรสุ่มมีความแปรปรวนและค่าเฉลี่ยที่รู้จัก คำถามคืออะไรความแปรปรวนของสำหรับบางฟังก์ชั่นที่กำหนด วิธีทั่วไปเท่านั้นที่ฉันรู้คือวิธีเดลต้า แต่ให้เพียงประมาณ ตอนนี้ฉันสนใจในแต่มันก็ดีที่จะรู้วิธีการทั่วไปบางอย่างXXXฉ( X)ฉ(X)f(X)ฉ( x ) = x--√ฉ(x)=xf(x)=\sqrt{x} แก้ไข 29.12.2010 ฉันได้ทำการคำนวณโดยใช้ซีรี่ส์ Taylor แต่ฉันไม่แน่ใจว่ามันถูกต้องหรือไม่ดังนั้นฉันจึงดีใจถ้ามีคนยืนยันได้ ก่อนอื่นเราต้องประมาณE[ f( X) ]E[ฉ(X)]E[f(X)] E[ f( X) ] ≈ E[ f( μ ) + f'( μ ) ( X- μ ) + 12⋅ f''( μ ) ( X- μ )2] = f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot …

1
ความแตกต่างทางคณิตศาสตร์ระหว่าง GBM, XGBoost, LightGBM, CatBoost?
มีการปรับใช้หลายรุ่นตระกูล GBDT เช่น: GBM XGBoost LightGBM Catboost อะไรคือความแตกต่างทางคณิตศาสตร์ระหว่างการใช้งานที่แตกต่างกันเหล่านี้? Catboost ดูเหมือนว่าจะมีประสิทธิภาพสูงกว่าการใช้งานอื่น ๆ แม้จะใช้เพียงพารามิเตอร์เริ่มต้นตามเครื่องหมายมาตรฐานนี้ แต่ก็ยังช้ามาก ฉันเดาว่า catboost ไม่ได้ใช้ตัวแปร dummified ดังนั้นน้ำหนักที่กำหนดให้กับตัวแปร (หมวดหมู่) แต่ละตัวนั้นมีความสมดุลมากกว่าเมื่อเปรียบเทียบกับการใช้งานอื่น ๆ ดังนั้นตัวแปรที่มีความสำคัญสูงจึงไม่มีน้ำหนักมากกว่าตัวอื่น มันช่วยให้การจัดหมวดหมู่ที่อ่อนแอ (ที่มีความสำคัญน้อย) เข้าไปในต้นไม้บางต้นซึ่งมีประสิทธิภาพที่ดีกว่า นอกจากนั้นฉันไม่มีคำอธิบายเพิ่มเติม
33 boosting  xgboost 

1
การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ Lasso และการทำให้เป็นมาตรฐานของ L2 เหมือนกับการถดถอยแบบสันหรือไม่ และวิธีการเขียน“ Lasso”?
ฉันวิศวกรซอฟต์แวร์เครื่องเรียนรู้การเรียนรู้โดยเฉพาะอย่างยิ่งผ่านแอนดรูอึ้งของหลักสูตรการเรียนรู้เครื่อง ขณะศึกษาการถดถอยเชิงเส้นด้วยการทำให้เป็นระเบียบฉันพบคำศัพท์ที่สับสน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 หรือการทำให้เป็นมาตรฐาน L2 เชือก สันเขาถดถอย ดังนั้นคำถามของฉัน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ LASSO หรือไม่ การถดถอยด้วยการทำให้เป็นมาตรฐาน L2 เหมือนกับการถดถอยริดจ์หรือไม่ "LASSO" ใช้ในการเขียนอย่างไร? มันควรจะเป็น "การถดถอยแบบ LASSO" หรือไม่? ฉันเคยเห็นการใช้งานเช่น " เชือกที่เหมาะสมกว่า " หากคำตอบคือ "ใช่" สำหรับ 1 และ 2 ข้างต้นเหตุใดจึงมีชื่อแตกต่างกันสำหรับคำสองคำนี้ "L1" และ "L2" มาจากวิทยาการคอมพิวเตอร์ / คณิตศาสตร์และ "LASSO" และ "Ridge" จากสถิติหรือไม่ การใช้คำเหล่านี้สร้างความสับสนเมื่อฉันเห็นโพสต์ที่ชอบ: " ความแตกต่างระหว่างการทำให้เป็นมาตรฐาน L1 และ L2 …

1
ความสำคัญของตัวแปรเชิงสัมพันธ์สำหรับการส่งเสริม
ฉันกำลังมองหาคำอธิบายว่าวิธีคำนวณความสำคัญของตัวแปรแบบสัมพันธ์ในต้นไม้ที่เพิ่มขึ้นแบบไล่ระดับสีซึ่งไม่ธรรมดา / ง่ายเกินไป: มาตรการจะขึ้นอยู่กับจำนวนครั้งที่ตัวแปรถูกเลือกสำหรับการแยกถ่วงน้ำหนักด้วยการปรับปรุงยกกำลังสองกับรูปแบบเป็นผลของแต่ละแยกและเฉลี่ยมากกว่าต้นไม้ทั้งหมด [ Elith และคณะ 2008, คู่มือการทำงานเพื่อเพิ่มความแข็งแกร่งให้กับต้นไม้ถดถอย ] และนั่นก็เป็นนามธรรมน้อยกว่า: ผม2J^( T) = ∑t = 1J- 1ผม2เสื้อ^1 ( vเสื้อ= j )ผมJ2^(T)=Σเสื้อ=1J-1ผมเสื้อ2^1(โวลต์เสื้อ=J)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) โดยที่การรวมอยู่เหนือโหนดที่ไม่ใช่เทอร์มินัลของโหนดทรี ,คือตัวแปรการแยกที่เชื่อมโยงกับโหนดและเป็นการปรับปรุงเชิงประจักษ์ในข้อผิดพลาดกำลังสอง เป็นผลมาจากการแยกหมายถึงโดยที่คือการตอบสนองของลูกสาวด้านซ้ายและขวาตามลำดับและเป็นจำนวนเงินที่สอดคล้องกันของน้ำหนัก J T v t t ^ i 2 t i 2 ( R l , R r ) = w l w rเสื้อเสื้อtJJJTTTโวลต์เสื้อโวลต์เสื้อv_{t}เสื้อเสื้อtผม2เสื้อ^ผมเสื้อ2^\hat{i_{t}^2}ผม2( …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.