สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล


2
Normalizing ค่าคงที่ในทฤษฎีบท Bayes
Pr(data)Pr(data)\Pr(\textrm{data}) Pr(parameters∣data)=Pr(data∣parameters)Pr(parameters)Pr(data)Pr(parameters∣data)=Pr(data∣parameters)Pr(parameters)Pr(data)\Pr(\text{parameters} \mid \text{data}) = \frac{\Pr(\textrm{data} \mid \textrm{parameters}) \Pr(\text{parameters})}{\Pr(\text{data})} เรียกว่าคง normalizing มันคืออะไรกันแน่? จุดประสงค์ของมันคืออะไร? ทำไมมันมีลักษณะเหมือน ? ทำไมมันไม่ขึ้นกับพารามิเตอร์Pr(data)Pr(data)\Pr(data)

4
จะระบุสมมติฐานว่างในการทดสอบสมมติฐานได้อย่างไร
อะไรคือกฎที่ดีสำหรับการเลือกคำถามสำหรับสมมติฐานว่าง ตัวอย่างเช่นถ้าฉันต้องการตรวจสอบว่าสมมติฐาน B เป็นจริงฉันควรใช้ B เป็นโมฆะ, B เป็นสมมติฐานทางเลือกหรือไม่เป็น B เปล่า? ฉันหวังว่าคำถามจะชัดเจน ฉันรู้ว่ามันมีบางอย่างเกี่ยวกับข้อผิดพลาดที่ฉันต้องการย่อเล็กสุด (Type I?) แต่ฉันก็ลืมไปว่ามันไปอย่างไรเพราะฉันไม่มีสัญชาตญาณที่ชัดเจนสำหรับมัน ขอบคุณ

5
ความน่าจะเป็นมีมากกว่าเบย์เซียนนิยมหรือไม่
ในฐานะนักเรียนในสาขาฟิสิกส์ฉันเคยมีประสบการณ์การบรรยายเรื่อง "ทำไมฉันถึงเป็นชาวเบย์" บางทีครึ่งโหล มันเหมือนกันเสมอ - ผู้นำเสนออธิบายอย่างไม่ถูกต้องว่าการตีความแบบเบย์นั้นดีกว่าการตีความบ่อยครั้งที่ถูกกล่าวหาว่าใช้โดยมวลชนอย่างไร พวกเขาพูดถึงกฎของเบย์, ชายขอบ, นักบวชและผู้โพสต์ เรื่องจริงคืออะไร มีการบังคับใช้โดเมนที่ถูกต้องตามกฎหมายสำหรับสถิติผู้ใช้บ่อยหรือไม่? (แน่นอนในการสุ่มตัวอย่างหรือกลิ้งตายหลายครั้งต้องใช้?) มีปรัชญาความน่าจะเป็นที่มีประโยชน์นอกเหนือจาก "Bayesian" และ "บ่อยครั้ง" หรือไม่

4
การอัพเดตการถดถอยเชิงเส้นอย่างมีประสิทธิภาพเมื่อเพิ่มการสังเกตและ / หรือตัวทำนายใน R
ฉันสนใจที่จะหาวิธีใน R เพื่ออัปเดตโมเดลเชิงเส้นอย่างมีประสิทธิภาพเมื่อมีการเพิ่มการสังเกตหรือตัวทำนาย biglm มีความสามารถในการอัปเดตเมื่อเพิ่มการสังเกต แต่ข้อมูลของฉันมีขนาดเล็กพอที่จะอยู่ในหน่วยความจำ (แม้ว่าฉันจะมีอินสแตนซ์จำนวนมากที่ต้องอัปเดต) มีวิธีการทำเช่นนี้ด้วยมือเปล่าเช่นเพื่ออัปเดตการแยกตัวประกอบ QR (ดู "การอัปเดตการแยกตัวประกอบ QR และปัญหากำลังสองน้อยที่สุด" โดย Hammarling และ Lucas) แต่ฉันหวังว่าจะมีการใช้งานอยู่

4
การเลือกลงโทษที่เหมาะสมที่สุดสำหรับบ่วงบาศ
มีผลการวิเคราะห์หรือเอกสารทดลองใด ๆ เกี่ยวกับตัวเลือกที่ดีที่สุดของสัมประสิทธิ์ของระยะเวลาการลงโทษตามความเหมาะสมฉันหมายถึงพารามิเตอร์ที่เพิ่มความน่าจะเป็นในการเลือกแบบจำลองที่ดีที่สุดหรือลดความสูญเสียที่คาดหวังให้น้อยที่สุด ฉันถามเพราะบ่อยครั้งที่มันเป็นไปไม่ได้ที่จะเลือกพารามิเตอร์โดยการตรวจสอบข้ามหรือ bootstrap เพราะทั้งสองกรณีมีปัญหาเป็นจำนวนมากหรือเนื่องจากขนาดของปัญหาในมือ เพียงผลบวกฉันรู้คือ Candes และวางแผนการคัดเลือกตัวแบบใกล้เหมาะโดยℓ 1ลดℓ1ℓ1\ell_1ℓ1ℓ1\ell_1

2
ใช้การถดถอยโลจิสติกกับอัตราเหตุการณ์ต่ำ
ฉันมีชุดข้อมูลที่อัตรากิจกรรมต่ำมาก (40,000 จาก ) ฉันกำลังใช้การถดถอยโลจิสติกกับสิ่งนี้ ฉันได้มีการพูดคุยกับใครบางคนที่ปรากฏว่าการถดถอยโลจิสติกจะไม่ให้เมทริกซ์ความสับสนที่ดีกับข้อมูลอัตราการเกิดเหตุการณ์ต่ำ แต่เนื่องจากปัญหาทางธุรกิจและวิธีการที่กำหนดไว้ฉันไม่สามารถเพิ่มจำนวนกิจกรรมจาก 40,000 เป็นจำนวนที่มากกว่านี้ได้แม้ว่าฉันจะยอมรับว่าฉันสามารถลบจำนวนประชากรที่ไม่ใช่กิจกรรมได้12⋅10512⋅10512\cdot10^5 โปรดบอกมุมมองของคุณเกี่ยวกับเรื่องนี้โดยเฉพาะ: ความแม่นยำของการถดถอยโลจิสติกขึ้นอยู่กับอัตราเหตุการณ์หรือมีอัตราเหตุการณ์ขั้นต่ำที่แนะนำหรือไม่ มีเทคนิคพิเศษสำหรับข้อมูลอัตราการเกิดเหตุการณ์ต่ำหรือไม่? การลบประชากรที่ไม่ได้ใช้งานของฉันจะเป็นการดีสำหรับความแม่นยำของแบบจำลองของฉันหรือไม่ ฉันยังใหม่กับการสร้างแบบจำลองทางสถิติดังนั้นให้อภัยความไม่รู้ของฉันและโปรดแก้ไขปัญหาที่เกี่ยวข้องใด ๆ ที่ฉันคิดได้ ขอบคุณ
15 logistic 

2
วิธีการคำนวณความแปรปรวนของพาร์ติชันของตัวแปร
ฉันกำลังทำการทดลองที่ฉันรวบรวมตัวอย่าง (อิสระ) แบบขนานฉันคำนวณความแปรปรวนของกลุ่มตัวอย่างแต่ละกลุ่มและตอนนี้ฉันต้องการรวมแล้วทั้งหมดเพื่อค้นหาความแปรปรวนรวมของตัวอย่างทั้งหมด ฉันมีเวลายากที่จะหาที่มาของเรื่องนี้เพราะฉันไม่แน่ใจว่าคำศัพท์ ฉันคิดว่ามันเป็นพาร์ติชันของ RV หนึ่งอัน ดังนั้นฉันต้องการหาVar(X)Var(X)Var(X)จากVar(X1)Var(X1)Var(X_1) , Var(X2)Var(X2)Var(X_2) , ... , และVar(Xn)Var(Xn)Var(X_n)โดยที่XXX = [X1,X2,…,Xn][X1,X2,…,Xn][X_1, X_2, \dots, X_n] ] แก้ไข: พาร์ทิชันไม่ได้มีขนาด / cardinality เดียวกัน แต่ผลรวมของขนาดพาร์ทิชันเท่ากับจำนวนตัวอย่างในชุดตัวอย่างโดยรวม แก้ไข 2: มีสูตรสำหรับการคำนวณแบบขนานที่นี่แต่ครอบคลุมเฉพาะกรณีของพาร์ติชันเป็นสองชุดไม่ใช่ชุดnnn
15 variance 

3
จะลงจุดข้อมูลเอาต์พุตของการทำคลัสเตอร์ได้อย่างไร
ฉันพยายามจัดกลุ่มชุดข้อมูล (ชุดเครื่องหมาย) และมี 2 กลุ่ม ฉันต้องการที่จะเป็นตัวแทนกราฟิก บิตสับสนเกี่ยวกับการเป็นตัวแทนเนื่องจากฉันไม่มีพิกัด (x, y) กำลังมองหาฟังก์ชัน MATLAB / Python สำหรับการทำเช่นนั้น แก้ไข ฉันคิดว่าการโพสต์ข้อมูลทำให้คำถามชัดเจนขึ้น ฉันมีสองกลุ่มที่ฉันทำโดยใช้การจัดกลุ่ม kmeans ใน Python (ไม่ใช้ scipy) พวกเขาเป็น class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, …

3
CDF ยกกำลัง?
ถ้าFZFZF_Zเป็น CDF ดูเหมือนว่าFZ(z)αFZ(z)αF_Z(z)^\alpha ( α>0α>0\alpha \gt 0 ) เป็น CDF เช่นกัน ถาม: นี่เป็นผลลัพธ์มาตรฐานหรือไม่ Q: มีวิธีที่ดีที่จะหาฟังก์ชั่นgggกับX≡g(Z)X≡g(Z)X \equiv g(Z)เซนต์FX(x)=FZ(z)αFX(x)=FZ(z)αF_X(x) = F_Z(z)^\alphaที่x≡g(z)x≡g(z) x \equiv g(z) โดยทั่วไปฉันมี CDF อื่นในมือFZ(z)αFZ(z)αF_Z(z)^\alpha α ในความรู้สึกที่ลดลงบางอย่างฉันต้องการอธิบายลักษณะของตัวแปรสุ่มที่สร้าง CDF นั้น แก้ไข: ฉันจะมีความสุขถ้าฉันจะได้รับผลการวิเคราะห์กรณีพิเศษZ∼N(0,1)Z∼N(0,1)Z \sim N(0,1) ) หรืออย่างน้อยก็รู้ว่าผลลัพธ์ดังกล่าวเป็นเรื่องยาก

3
การแปลความหมายของตัวทำนายการเปลี่ยนแปลงของ log ในการถดถอยโลจิสติก
หนึ่งในตัวทำนายในโมเดลโลจิสติกของฉันได้รับการแปลงสภาพ คุณจะตีความค่าสัมประสิทธิ์โดยประมาณของตัวทำนายการแปลงที่บันทึกไว้ได้อย่างไรและคุณจะคำนวณผลกระทบของตัวทำนายนั้นในอัตราต่อรองได้อย่างไร
15 logistic 

2
ทำความเข้าใจกับความล่าช้าในการทดสอบเพิ่ม Dickey Fuller ของ R
ฉันเล่นรอบ ๆ ด้วยการทดสอบรูทยูนิตใน R และฉันไม่แน่ใจว่าจะทำอย่างไรกับพารามิเตอร์ k lag ฉันใช้การทดสอบเพิ่มDickey FullerและการทดสอบPhilipps Perronจากแพ็คเกจtseries เห็นได้ชัดว่าพารามิเตอร์เริ่มต้น(สำหรับ) ขึ้นอยู่กับความยาวของซีรีส์เท่านั้น ถ้าฉันเลือกk- ค่าต่างกันฉันจะได้ผลลัพธ์ที่แตกต่างกันมาก ปฏิเสธโมฆะ:kkkadf.testkkk Dickey-Fuller = -3.9828, Lag order = 4, p-value = 0.01272 alternative hypothesis: stationary # 103^(1/3)=k=4 Dickey-Fuller = -2.7776, Lag order = 0, p-value = 0.2543 alternative hypothesis: stationary # k=0 Dickey-Fuller = -2.5365, Lag order …
15 r  time-series  trend 

1
คำจำกัดความที่แม่นยำของ“ Heywood Case” คืออะไร?
ฉันใช้คำว่า "Heywood Case" ค่อนข้างไม่เป็นทางการเพื่ออ้างถึงสถานการณ์ที่ออนไลน์ 'การตอบสนองที่ จำกัด ' การประเมินความแปรปรวนซ้ำแล้วซ้ำเล่าได้กลายเป็นค่าลบเนื่องจากปัญหาความแม่นยำเชิงตัวเลข (ฉันใช้ตัวแปรของวิธีของ Welford เพื่อเพิ่มข้อมูลและลบข้อมูลเก่า) ฉันรู้สึกว่ามันใช้กับสถานการณ์ใด ๆ ที่การประมาณค่าความแปรปรวนกลายเป็นลบทั้งเนื่องจากข้อผิดพลาดเชิงตัวเลขหรือข้อผิดพลาดในการสร้างแบบจำลอง สับสนโดยการใช้คำของฉัน การค้นหา google ไม่ได้ผลมากนักนอกเหนือจากที่ใช้ในการวิเคราะห์ปัจจัยและดูเหมือนจะอ้างถึงผลที่ตามมาของการประเมินความแปรปรวนเชิงลบ คำจำกัดความที่แม่นยำคืออะไร แล้วเฮย์วู้ดดั้งเดิมคือใคร?

3
เหตุใดการแจกแจงเฉลี่ยและการเบี่ยงเบนมาตรฐาน 1 จึงใช้เสมอ
สถิติของฉันได้รับการสอนด้วยตนเอง แต่เนื้อหามากมายที่ฉันอ่านชี้ไปยังชุดข้อมูลที่มีค่าเฉลี่ย 0 และค่าเบี่ยงเบนมาตรฐานเท่ากับ 1 ถ้าเป็นเช่นนั้น: เหตุใดค่าเฉลี่ย 0 และ SD 1 จึงเป็นคุณสมบัติที่ดีที่จะมี ทำไมตัวแปรสุ่มที่ดึงมาจากตัวอย่างนี้เท่ากับ 0.5? โอกาสในการวาด 0.001 เท่ากับ 0.5 ดังนั้นนี่ควรเป็นการกระจายแบบเรียบ ... เมื่อมีคนพูดเกี่ยวกับคะแนน Z พวกเขาหมายถึงอะไรที่นี่จริง?

2
การสร้างแบบจำลองการกระจายปัวซองด้วยการกระจายเกินพิกัด
ฉันมีชุดข้อมูลที่ฉันคาดว่าจะติดตามการกระจายของปัวซอง แต่มันมีการกระจายตัวเกินประมาณ 3 เท่า ในปัจจุบันฉันกำลังสร้างแบบจำลองการกระจายเกินปกตินี้โดยใช้โค้ดต่อไปนี้ในอาร์ ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) สายตาสิ่งนี้ดูเหมือนจะสอดคล้องกับข้อมูลเชิงประจักษ์ของฉันได้เป็นอย่างดี ถ้าฉันมีความสุขกับแบบที่มีเหตุผลใด ๆ ที่ฉันควรจะทำบางสิ่งบางอย่างที่ซับซ้อนมากขึ้นเช่นการใช้การแจกแจงแบบทวินามลบตามที่อธิบายไว้ที่นี่ ? (ถ้าเป็นเช่นนั้นพอยน์เตอร์หรือลิงก์ในการทำเช่นนั้นจะได้รับการชื่นชมมาก) โอ้และฉันรู้ว่าสิ่งนี้สร้างการกระจายแบบขรุขระเล็กน้อย (เนื่องจากการคูณด้วยสาม) แต่นั่นไม่ควรสำคัญสำหรับแอปพลิเคชันของฉัน อัปเดต: เพื่อประโยชน์ของผู้อื่นที่ค้นหาและพบคำถามนี้ต่อไปนี้เป็นฟังก์ชั่น R ที่ใช้ง่ายในการสร้างแบบจำลองปัวซองที่ใช้โอเวอร์เซ็ตโดยใช้การแจกแจงแบบทวินามลบ ตั้งค่า d เป็นอัตราส่วนค่าเฉลี่ย / ความแปรปรวนที่ต้องการ: rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.