สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ความสัมพันธ์ระหว่างผลรวมของ Gaussian RVs และ Gaussian Mixture
ฉันรู้ว่าจำนวนของเกาส์คือเกาส์ ดังนั้นส่วนผสมของ Gaussians แตกต่างกันอย่างไร ฉันหมายถึงส่วนผสมของ Gaussians เป็นเพียงผลรวมของ Gaussians (ซึ่งแต่ละ Gaussian ถูกคูณด้วยสัมประสิทธิ์การผสมตามลำดับ) ใช่ไหม?

1
หมายความว่าอย่างไรถ้าค่ามัธยฐานหรือค่าเฉลี่ยของผลรวมมากกว่าผลรวมของผลรวม
ฉันกำลังวิเคราะห์การกระจายตัวของเวลาแฝงเครือข่าย เวลาอัปโหลดเฉลี่ย (U) คือ 0.5 วินาที เวลาเฉลี่ยในการดาวน์โหลด (D) คือ 2 วินาที อย่างไรก็ตามเวลาทั้งหมดเฉลี่ย (สำหรับแต่ละจุดข้อมูล T = U + D) คือ 4s ข้อสรุปอะไรที่สามารถดึงดูดได้โดยรู้ว่าค่ามัธยฐานของผลรวมนั้นยิ่งใหญ่กว่าผลรวมของค่ามัธยฐานของผลรวม จากความอยากรู้อยากเห็นเกี่ยวกับสถิติมันจะเกิดอะไรขึ้นถ้าคำถามนี้แทนที่ค่ามัธยฐานด้วยค่าเฉลี่ย

1
พารามิเตอร์เทียบกับตัวแปรแฝง
ฉันเคยถามเรื่องนี้มาก่อนและพยายามดิ้นรนกับการระบุสิ่งที่ทำให้พารามิเตอร์โมเดลและสิ่งที่ทำให้มันเป็นตัวแปรแฝง ดังนั้นเมื่อดูที่หัวข้อต่างๆในหัวข้อนี้ในเว็บไซต์นี้ความแตกต่างหลัก ๆ น่าจะเป็น: ตัวแปรแฝงไม่ได้ถูกสังเกต แต่มีการแจกแจงความน่าจะเป็นที่เกี่ยวข้องกับมันเนื่องจากมันเป็นตัวแปรและพารามิเตอร์ก็ไม่ได้ถูกสังเกตและไม่มีการแจกแจงที่เกี่ยวข้องกับพวกมันซึ่งฉันเข้าใจว่ามันเป็นค่าคงที่และมีค่าคงที่ หา. นอกจากนี้เราสามารถใส่ค่าพารามิเตอร์ให้กับตัวแทนเพื่อแสดงถึงความไม่แน่นอนของเราเกี่ยวกับพารามิเตอร์เหล่านี้แม้ว่าจะมีค่าจริงเพียงค่าเดียวที่เกี่ยวข้องกับพวกเขาหรืออย่างน้อยนั่นคือสิ่งที่เราคิด ฉันหวังว่าฉันถูกต้องจนถึงตอนนี้? ตอนนี้ฉันได้ดูตัวอย่างนี้สำหรับการถดถอยเชิงเส้นแบบเบย์แบบถ่วงน้ำหนักจากวารสารและพยายามดิ้นรนจริงๆที่จะเข้าใจว่าอะไรคือพารามิเตอร์และตัวแปรคืออะไร: yi=βTxi+ϵyiyi=βTxi+ϵyi y_i = \beta^T x_i + \epsilon_{y_i} ที่นี่และyถูกสังเกต แต่yเท่านั้นที่ถือว่าเป็นตัวแปรเช่นมีการกระจายที่เกี่ยวข้องกับมันxxxyyyyyy ตอนนี้สมมติฐานการสร้างแบบจำลองคือ: y∼N(βTxi,σ2/wi)y∼N(βTxi,σ2/wi) y \sim N(\beta^Tx_i, \sigma^2/w_i) ดังนั้นความแปรปรวนของจึงถูกถ่วงน้ำหนักyyy นอกจากนี้ยังมีการแจกแจงก่อนหน้าในและwซึ่งเป็นการแจกแจงแบบปกติและแกมมาตามลำดับ ββ\betawww ดังนั้นโอกาสในการบันทึกอย่างสมบูรณ์จะได้รับจาก: logp(y,w,β|x)=ΣlogP(yi|w,β,xi)+logP(β)+ΣlogP(wi)log⁡p(y,w,β|x)=Σlog⁡P(yi|w,β,xi)+log⁡P(β)+Σlog⁡P(wi) \log p(y, w, \beta |x) = \Sigma \log P(y_i|w, \beta, x_i) + \log P(\beta) + \Sigma \log P(w_i) ตอนนี้ฉันเข้าใจแล้วทั้งและwคือพารามิเตอร์ของแบบจำลอง อย่างไรก็ตามในเอกสารพวกเขาอ้างถึงพวกเขาเป็นตัวแปรแฝง …

1
ข้อผิดพลาดการบวกหรือข้อผิดพลาดการคูณ?
ฉันค่อนข้างใหม่กับสถิติและขอขอบคุณที่ช่วยให้เข้าใจสิ่งนี้ดีขึ้น ในสาขาของฉันมีรูปแบบที่ใช้กันทั่วไปของแบบฟอร์มคือ: Pt=Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha เมื่อคนทำโมเดลให้พอดีกับข้อมูลพวกเขามักทำตัวเป็นเส้นตรงและพอดีกับสิ่งต่อไปนี้ log(Pt)=log(Po)+αlog(Vt)+ϵlog⁡(Pt)=log⁡(Po)+αlog⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon ตกลงไหม ฉันอ่านบางที่เพราะสัญญาณรบกวนในรูปแบบที่แท้จริงควรจะเป็น Pt=Po(Vt)α+ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon และสิ่งนี้ไม่สามารถทำให้เป็นเชิงเส้นได้ตามที่กล่าวมา มันเป็นเรื่องจริงเหรอ? ถ้ามีใครรู้การอ้างอิงที่ฉันสามารถอ่านและเรียนรู้เพิ่มเติมเกี่ยวกับมันและอาจอ้างอิงในรายงาน?

3
ทำไมการติดตาม
ในโมเดลY= Xβ+ ϵy=Xβ+ϵ{y} = X \beta + \epsilonเราสามารถประมาณββ\betaโดยใช้สมการปกติ: β^= ( X'X)- 1X'Y,β^=(X′X)−1X′y,\hat{\beta} = (X'X)^{-1}X'y,และเราจะได้รับ Y =XβY^= Xβ^.y^=Xβ^.\hat{y} = X \hat{\beta}. เวกเตอร์ของส่วนที่เหลือประมาณโดย ε^= y- Xβ^= ( I- X( X'X)- 1X') y= Q y= Q ( Xβ+ ϵ ) = Q ϵ ,ϵ^=y−Xβ^=(I−X(X′X)−1X′)y=Qy=Q(Xβ+ϵ)=Qϵ,\hat{\epsilon} = y - X \hat{\beta} = (I - X …


2
ความแตกต่างระหว่างการเลือกคุณสมบัติและการลดขนาดคืออะไร?
ฉันรู้ว่าทั้งการเลือกคุณสมบัติและการลดมิติข้อมูลมุ่งไปที่การลดจำนวนคุณสมบัติในชุดคุณสมบัติดั้งเดิม อะไรคือความแตกต่างที่แน่นอนระหว่างสองสิ่งนี้หากเราทำสิ่งเดียวกันทั้งสองอย่าง

2
ขั้นตอนและวิธีวิเคราะห์ Timeseries โดยใช้ R
ฉันกำลังทำงานในโครงการขนาดเล็กที่เราพยายามคาดการณ์ราคาสินค้า (น้ำมันอลูมิเนียมดีบุก ฯลฯ ) ในอีก 6 เดือนข้างหน้า ฉันมีตัวแปรดังกล่าว 12 ตัวที่จะทำนายและฉันมีข้อมูลตั้งแต่ เม.ย. 2551 - พ.ค. 2556 ฉันจะทำนายอย่างไรดี? ฉันทำสิ่งต่อไปนี้แล้ว: นำเข้าข้อมูลเป็นชุดข้อมูล Timeseries ฤดูกาลทั้งหมดของตัวแปรมีแนวโน้มที่จะแปรผันตามเทรนด์ดังนั้นฉันจะเป็นแบบจำลองแบบคูณ ฉันนำ log ของตัวแปรมาแปลงเป็นสารเติมแต่ง สำหรับแต่ละตัวแปรที่ย่อยสลายข้อมูลโดยใช้ STL ฉันวางแผนที่จะใช้การทำให้เรียบแบบเลขชี้กำลังของโฮลท์วินเทอร์ ARIMA และโครงข่ายใยประสาทเทียมในการคาดการณ์ ฉันแบ่งข้อมูลเป็นการฝึกอบรมและทดสอบ (80, 20) วางแผนที่จะเลือกรุ่นที่มีแม่, MPE, MAPE และ MASE น้อยลง ฉันทำถูกไหม? อีกคำถามหนึ่งที่ฉันเคยมีก่อนที่จะส่งต่อไปยัง ARIMA หรือโครงข่ายประสาทฉันควรทำให้ข้อมูลราบรื่นหรือไม่? ถ้าใช่ใช้อะไร? ข้อมูลแสดงทั้งฤดูกาลและแนวโน้ม แก้ไข: การแนบพล็อตชุดข้อมูลและข้อมูล Year <- c(2008, 2008, 2008, …

1
ชุมชนการเรียนรู้ของเครื่องใช้กำลัง“ ละเมิดเงื่อนไข” และ“ ถูก จำกัด โดย” หรือไม่?
กล่าวว่าจะขึ้นอยู่กับα พูดอย่างจริงจังXXXαα\alpha ถ้าและαเป็นทั้งตัวแปรสุ่มเราสามารถเขียนp ( X ∣ α ) ;XXXαα\alphap ( X)∣ α )p(X∣α)p(X\mid\alpha) แต่ถ้าเป็นตัวแปรสุ่มและαเป็นพารามิเตอร์ที่เราต้องเขียนP ( X ; α )XXXαα\alphap ( X); α )p(X;α)p(X; \alpha) ฉันสังเกตเห็นหลายครั้งว่าชุมชนการเรียนรู้ของเครื่องดูเหมือนจะเพิกเฉยต่อความแตกต่างและใช้ข้อกำหนดในทางที่ผิด ตัวอย่างเช่นในโมเดล LDA ที่มีชื่อเสียงโดยที่คือพารามิเตอร์ Dirichlet แทนที่จะเป็นตัวแปรสุ่มαα\alpha ไม่ควรจะเป็น ? ฉันเห็นผู้คนจำนวนมากรวมทั้งเขียนต้นฉบับกระดาษ LDA ที่เขียนเป็นP ( θ | อัลฟ่า )p ( θ ; α )p(θ;α)p(\theta;\alpha)p ( θ ∣ α )p(θ∣α)p(\theta\mid\alpha)

3
โอกาสใดดีกว่าหรือโอกาสเกิดขึ้นเล็กน้อยและดีที่สุด
ขณะดำเนินการถดถอยหากเราดำเนินการตามคำจำกัดความจาก: ความแตกต่างระหว่างความน่าจะเป็นบางส่วน, ความน่าจะเป็นของโปรไฟล์และความเป็นไปได้ที่จะเกิดอะไรขึ้น นั่นคือการ ค้นหาความน่าจะเป็นสูงสุด βและθที่เพิ่ม L (β, θ | data) ให้สูงสุด ในขณะที่ความ เป็นไปได้ที่จะเกิดขึ้นเราได้รวมθจากสมการความน่าจะเป็นโดยการใช้ประโยชน์จากความจริงที่ว่าเราสามารถระบุการกระจายความน่าจะเป็นของθเงื่อนไขบน on วิธีใดที่ดีที่สุดในการเพิ่มประสิทธิภาพและเพราะเหตุใด

1
ทดสอบ cointegration ระหว่างอนุกรมเวลาสองชุดโดยใช้ Engle – Granger วิธีสองขั้นตอน
ฉันพยายามที่จะทดสอบ cointegration ระหว่างสองชุดเวลา ทั้งสองซีรี่ส์มีข้อมูลครอบคลุมทุกสัปดาห์ ~ 3 ปี ฉันกำลังพยายามทำวิธีสองขั้นตอนของ Engle-Granger คำสั่งของฉันของการดำเนินการดังต่อไปนี้ ทดสอบแต่ละชุดเวลาสำหรับรูทยูนิตผ่าน Augmented Dickey-Fuller สมมติว่าทั้งคู่มีรูทหน่วยจากนั้นหาการประมาณเชิงเส้นตรงของความสัมพันธ์ผ่าน OLS จากนั้นสร้างชุดของส่วนที่เหลือ ทดสอบส่วนที่เหลือสำหรับรูทยูนิตผ่าน Augmented Dickey-Fuller สรุป cointegration (หรือไม่) โดยผลของ 3 คำถาม: วิธีนี้ดูใช้ได้ไหม? (ฉันเป็นระดับปริญญาตรีและฉันกำลังมองหาการวิเคราะห์ข้อมูลของฉันในแบบที่ถูกต้องไม่จำเป็นต้องวิเคราะห์ข้อมูลด้วยวิธีการที่เข้มงวดที่สุด) หากชุดหนึ่งไม่สามารถปฏิเสธสมมติฐานว่างด้วย ADF (และดังนั้นจึงไม่มีหน่วยรูท) ในขั้นตอนที่ 1 มีเหตุผลหรือไม่ที่จะสรุปว่าทั้งสองชุดไม่ได้ถูกรวมเข้าด้วยกันเพราะชุดข้อมูลหนึ่งไม่ใช่ชุดข้อมูล? ฉันจะไม่คิดอย่างนั้น แต่ฉันต้องการให้แน่ใจ ชุดข้อมูลทั้งสองมีลักษณะ "สุ่ม" ดังนั้นฉันจึงสงสัยว่าเหมาะสมหรือไม่ที่จะใช้ OLS เพื่อวัดความสัมพันธ์เพื่อรับส่วนที่เหลือ

4
แนวปฏิบัติที่ดีสำหรับการวิเคราะห์ทางสถิติในสภาพแวดล้อมทางธุรกิจ
(ในขณะที่ฉันรู้ว่านี่ไม่ได้เกี่ยวกับสถิติอย่างเคร่งครัด แต่เป็นเรื่องเกี่ยวกับการเผยแพร่สถิติในสภาพแวดล้อมทางธุรกิจดังนั้นฉันจึงสันนิษฐานว่ามันยังอยู่ในช่วงหัวข้อของ CV) พื้นหลังเล็กน้อย: สภาพแวดล้อมทางธุรกิจของเรา (และฉันสงสัยว่าสภาพแวดล้อมอื่น ๆ ) มีฟังก์ชันสนับสนุนที่เชี่ยวชาญในการวิเคราะห์และวิจัยทางสถิติ เราทำงานอย่างใกล้ชิดกับระบบธุรกิจอัจฉริยะและได้รับมอบหมายจากหน่วยงานอื่น ๆ ในการผลิตชิ้นงาน ผลก็คือข้อมูลการวิเคราะห์และข้อสรุปไม่ได้เป็นของเรา: เรารวบรวมข้อมูลทำการวิเคราะห์และทำการสรุปเพื่อให้กรรมาธิการใช้ในงานของพวกเขา สิ่งที่ฉันต้องการจะทำ: ขณะนี้เราใช้วิธีการแบบไม่รู้จบ บุคคลจากฟังก์ชั่นการสนับสนุนจะได้รับมอบหมายเมื่องานได้รับมอบหมายข้อมูลจะถูกรวบรวม (หรือแยกออกหากมีอยู่โดย Business Intelligence) การวิเคราะห์และข้อสรุปสุดท้ายจะถูกส่งไปยังผู้บัญชาการ สิ่งนี้ได้รับการพิสูจน์อย่างอิสระบนพื้นฐานที่ว่ามันไม่ใช่หน้าที่ของผู้บัญชาการในการอ่านการวิเคราะห์ มันเป็นหน้าที่ของเราในฐานะฟังก์ชั่นการสนับสนุนเพื่อให้แน่ใจว่าเราได้ทำการวิเคราะห์ที่ถูกต้องสำหรับคำถาม / หัวข้อที่ผู้บัญชาการต้องการสำรวจ ฉันต้องการเรียกใช้โครงสร้างเพิ่มเติมเล็กน้อยเกี่ยวกับวิธีการที่จะทำให้ ก) การวิเคราะห์คุณภาพที่สูงขึ้นของเรา b) ให้การป้องกันเมื่อการวิเคราะห์ของเราอาจนำไปสู่การตัดสินใจที่ไม่ดี; และทำให้ c) การวิเคราะห์ของเราโปร่งใสยิ่งขึ้นดังนั้นเราจึงไม่ถูกมองว่าเป็น 'กล่องดำ' ที่ใช้ข้อมูลและแยกผลลัพธ์ออกมา ความคิดเริ่มต้นของฉันคือ: จัดทำเอกสารทางเทคนิคกับงานทุกชิ้นที่แสดงให้เห็นถึงแนวทางการดำเนินการข้อสันนิษฐานปัญหาที่พบความไม่แน่นอนที่มีอยู่เป็นต้นในขณะที่ทุกคนไม่จำเป็นต้องอ่านมันควรจะใช้เป็นเครื่องมือในการอธิบาย ผู้บัญชาการผลของการใช้ข้อสรุปที่ดึงออกมา นี่เป็นการถ่ายโอนความเสี่ยงบางส่วนไปยังที่ที่ควรรู้สึกว่าควรเป็น: กับผู้บัญชาการ จำกัด การวิเคราะห์ทั้งหมดไปยังแพคเกจเช่น Stata, SPSS หรือ R และจำเป็นต้องมีชุดโค้ดที่สมบูรณ์เพื่อสร้างพร้อมกับเอกสารทางเทคนิค เราทุกคนมีนิสัยการใช้ Microsoft Excel …

3
ทำไมประสิทธิภาพเชิงสัมพัทธ์ของซีมโทติคของการทดสอบ Wilcoxon
มันเป็นที่รู้จักกันดีว่าประสิทธิภาพญาติ asymptotic (เป็น) ของ Wilcoxon ลงนามในการทดสอบยศเป็นเมื่อเทียบกับนักศึกษาของT -test ถ้าข้อมูลจะถูกดึงออกมาจากประชากรกระจายตามปกติ สิ่งนี้เป็นจริงสำหรับทั้งการทดสอบหนึ่งตัวอย่างขั้นพื้นฐานและตัวแปรสำหรับสองตัวอย่างอิสระ (Wilcoxon-Mann-Whitney U) นอกจากนี้ยังเป็นส่วนของการทดสอบ Kruskal-Wallis เมื่อเทียบกับ ANOVA F -test สำหรับข้อมูลปกติ3π≈ 0.9553π≈0.955\frac{3}{\pi} \approx 0.955 สิ่งนี้น่าทึ่ง (สำหรับฉันซึ่งเป็นหนึ่งใน " ลักษณะที่ไม่คาดคิดที่สุดของππ\pi ") และผลลัพธ์ที่เรียบง่ายอย่างน่าทึ่งมีหลักฐานที่ลึกซึ้งน่าทึ่งหรือเรียบง่าย

2
Mann-Whitney U-test: ช่วงความมั่นใจสำหรับขนาดของเอฟเฟกต์
ตามที่ Fritz, Morris และ Richler (2011; ดูด้านล่าง) สามารถคำนวณเป็นขนาดเอฟเฟกต์สำหรับ Mann-Whitney U-test โดยใช้สูตร r = zrrr นี้จะสะดวกให้ฉันเป็นฉันรายงานRยังในโอกาสอื่น ๆ ฉันต้องการรายงานช่วงความมั่นใจสำหรับrเพิ่มเติมจากการวัดขนาดเอฟเฟกต์r=zN−−√r=zN r = \frac{z}{\sqrt N} rrrrrr นี่คือคำถามของฉัน: ฉันสามารถคำนวณช่วงความเชื่อมั่นของ r สำหรับเพียร์สันได้หรือไม่แม้ว่ามันจะใช้เป็นตัววัดขนาดของเอฟเฟกต์สำหรับการทดสอบแบบไม่พารามิเตอร์ ช่วงเวลาความเชื่อมั่นใดที่จะต้องมีการรายงานสำหรับการทดสอบแบบทางเดียวกับแบบสองด้าน แก้ไขเกี่ยวกับคำถามที่สอง: "ต้องมีการรายงานช่วงความมั่นใจสำหรับการทดสอบแบบหางเดียวและแบบสองด้าน" ฉันพบข้อมูลเพิ่มเติมที่ IMHO อาจตอบคำถามนี้ "ในขณะที่ขีดจำกัดความเชื่อมั่นแบบสองด้านก่อให้เกิดช่วงความมั่นใจคู่หูด้านเดียวของพวกเขาจะเรียกว่าขอบเขตความเชื่อมั่นที่ต่ำกว่าหรือสูงกว่า" ( http://en.wikipedia.org/wiki/Confidence_interval ) จากข้อมูลนี้ฉันสรุปได้ว่ามันไม่ใช่ประเด็นหลักว่าการทดสอบที่สำคัญ (เช่น -test) นั้นเป็นแบบหนึ่งหรือสองแบบ แต่ข้อมูลที่เราสนใจนั้นเกี่ยวกับ CI สำหรับขนาดผลกระทบ ข้อสรุปของฉัน (โปรดแก้ไขให้ฉันถ้าคุณไม่เห็นด้วย):ttt CI สองด้านสนใจในขอบเขตบนและล่าง (เป็นผลให้เป็นไปได้ว่า CI สองด้านสร้าง …

1
R: ทดสอบค่าปกติของส่วนที่เหลือของตัวแบบเชิงเส้น - ซึ่งส่วนที่เหลือที่จะใช้
ฉันต้องการทำการทดสอบ W ของ Shapiro Wilk และการทดสอบ Kolmogorov-Smirnov กับส่วนที่เหลือของแบบจำลองเชิงเส้นเพื่อตรวจสอบความเป็นไปได้ ฉันแค่สงสัยว่าสิ่งที่เหลือควรใช้สำหรับการนี้ - ส่วนที่เหลือดิบ, เพียร์สันที่เหลือ, นักเรียนที่เหลืออยู่หรือนักเรียนที่ได้มาตรฐาน? สำหรับการทดสอบ W ของ Shapiro-Wilk นั้นปรากฏว่าผลลัพธ์สำหรับส่วนที่เหลือและเพียร์สันดิบนั้นเหมือนกัน แต่ไม่ใช่สำหรับคนอื่น ๆ fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.