สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ทำความเข้าใจกับมหานครแห่งเฮสติ้งส์กับการกระจายข้อเสนอแบบอสมมาตร
ฉันพยายามที่จะเข้าใจอัลกอริทึม Metropolis-Hastings เพื่อที่จะเขียนโค้ดเพื่อประมาณค่าพารามิเตอร์ของแบบจำลอง (เช่น ) อ้างอิงจากบรรณานุกรมอัลกอริทึม Metropolis-Hastings มีขั้นตอนดังต่อไปนี้:f(x)=a∗xf(x)=a∗xf(x)=a*x สร้างYt∼q(y|xt)Yt∼q(y|xt)Y_t \sim q(y|x^t) Xt+1={Yt,xt,with probabilityρ(xt,Yt),with probability1−ρ(xt,Yt),Xt+1={Yt,with probabilityρ(xt,Yt),xt,with probability1−ρ(xt,Yt),X^{t+1}=\begin{cases} Y^t, & \text{with probability} \quad \rho(x^t,Y_t), \\ x^t, & \text{with probability} \quad 1-\rho(x^t,Y_t), \end{cases} ρ(x,y)=min(f(y)f(x)∗q(x|y)q(y|x),1)ρ(x,y)=min(f(y)f(x)∗q(x|y)q(y|x),1)\rho(x,y)=\min \left( \frac{f(y)}{f(x)}*\frac{q(x|y)}{q(y|x)},1 \right) ฉันต้องการถามคำถามสองสามข้อ: บรรณานุกรมระบุว่าหากเป็นการกระจายแบบสมมาตรอัตราส่วนจะกลายเป็น 1 และอัลกอริทึมนั้นเรียกว่า Metropolis ถูกต้องหรือไม่ ความแตกต่างเพียงอย่างเดียวระหว่าง Metropolis และ Metropolis-Hastings คือสิ่งแรกที่ใช้การกระจายแบบสมมาตร? แล้ว "Random Walk" Metropolis (-Hastings) …

1
ป่าสุ่มและการทำนาย
ฉันพยายามเข้าใจว่า Random Forest ทำงานอย่างไร ฉันมีความเข้าใจเกี่ยวกับวิธีการสร้างต้นไม้ แต่ไม่สามารถเข้าใจว่า Random Forest สร้างการคาดการณ์จากตัวอย่างถุงได้อย่างไร มีใครให้คำอธิบายง่ายๆกับฉันได้ไหม :)

3
ช่วงความเชื่อมั่นสำหรับความแตกต่างระหว่างสัดส่วน
ฉันสงสัยว่ามีคนแจ้งให้ฉันทราบหรือไม่ว่าฉันได้คำนวณช่วงความมั่นใจสำหรับความแตกต่างระหว่างสัดส่วนสองอย่างถูกต้องหรือไม่ ขนาดตัวอย่างคือ 34 ซึ่ง 19 เป็นเพศหญิงและ 15 เป็นเพศชาย ดังนั้นความแตกต่างของสัดส่วนคือ 0.1176471 ฉันคำนวณช่วงความมั่นใจ 95% สำหรับความแตกต่างระหว่าง -0.1183872 และ 0.3536814 เมื่อช่วงความมั่นใจผ่านศูนย์ความแตกต่างนั้นไม่มีนัยสำคัญทางสถิติ ด้านล่างเป็นผลงานของฉันใน R โดยมีผลลัพธ์เป็นความคิดเห็น f <- 19/34 # 0.5588235 m <- 15/34 # 0.4411765 n <- 34 # 34 difference <- f-m # 0.1176471 lower <- difference-1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # -0.1183872 upper <- difference+1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # 0.3536814

1
อัตราส่วนในการถดถอยหรือที่เรียกว่าคำถามเกี่ยวกับ Kronmal
เมื่อเร็ว ๆ นี้คำถามการสืบค้นแบบสุ่มทำให้เกิดความทรงจำเกี่ยวกับความเห็นนอกมือจากอาจารย์คนหนึ่งของฉันเมื่อสองสามปีก่อนเตือนเกี่ยวกับการใช้อัตราส่วนในแบบจำลองการถดถอย ดังนั้นฉันจึงเริ่มอ่านสิ่งนี้นำไปสู่ ​​Kronmal 1993 ในที่สุด ฉันต้องการตรวจสอบให้แน่ใจว่าฉันตีความคำแนะนำของเขาเกี่ยวกับวิธีการสร้างแบบจำลองเหล่านี้อย่างถูกต้อง สำหรับโมเดลที่มีอัตราส่วนซึ่งมีตัวหารเดียวกันทั้งในส่วนที่ขึ้นกับและอิสระ: Z- 1Y= Z- 11nβ0+ Z- 1XβX+ βZ+ Z- 1εZ-1Y=Z-11nβ0+Z-1XβX+βZ+Z-1ε Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon ถอยหลังอัตราส่วนที่พึ่งพาในตัวแปรตัวหาร (ผกผัน) นอกเหนือจากอัตราส่วนอื่น ๆ น้ำหนักโดยตัวแปรตัวหาร (ผกผัน) สำหรับโมเดลที่มีตัวแปรตามเป็นอัตราส่วน: Y= β0+ βXX+ Z1nα0+ ZXαX+ Z- 1εY=β0+βXX+Z1nα0+ZXαX+Z-1ε Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X …

1
Poisson Regression มีข้อผิดพลาดหรือไม่?
ฉันแค่สงสัยว่าปัวซงถดถอยนั้นมีข้อผิดพลาดหรือไม่? การถดถอยของปัวซองนั้นมีผลแบบสุ่มและมีข้อผิดพลาดหรือไม่? ฉันสับสนเกี่ยวกับประเด็นนี้ ในการถดถอยโลจิสติกไม่มีคำผิดพลาดเพราะตัวแปรผลลัพธ์ของคุณเป็นไบนารี นั่นเป็นรุ่น glm เดียวที่ไม่มีเทอมหรือเปล่า?

1
R-squared ในแบบจำลองเชิงเส้นข้อเบี่ยงเบนในแบบจำลองเชิงเส้นทั่วไป?
นี่คือบริบทของฉันสำหรับคำถามนี้: จากสิ่งที่ฉันสามารถบอกได้เราไม่สามารถเรียกใช้การถดถอยกำลังสองน้อยสุดธรรมดาใน R เมื่อใช้ข้อมูลที่มีน้ำหนักและsurveyแพคเกจ ที่นี่เราต้องใช้svyglm()ซึ่งใช้โมเดลเชิงเส้นทั่วไปแทน (ซึ่งอาจเป็นสิ่งเดียวกันหรือไม่ฉันคลุมเครือที่นี่ในแง่ของสิ่งที่แตกต่างกัน) ใน OLS และผ่านlm()ฟังก์ชั่นมันจะคำนวณค่า R-squared ซึ่งเป็นการตีความที่ฉันเข้าใจ อย่างไรก็ตามsvyglm()ดูเหมือนจะไม่สามารถคำนวณสิ่งนี้ได้และให้ค่าเบี่ยงเบนมาตรฐานแทนซึ่งการเดินทางสั้น ๆ รอบอินเทอร์เน็ตของฉันบอกฉันว่าเป็นการวัดความดีที่พอดีซึ่งตีความได้แตกต่างจาก R-squared ดังนั้นฉันเดาว่าฉันมีคำถามสองข้อที่ฉันหวังว่าจะได้รับทิศทาง: ทำไมเราไม่สามารถเรียกใช้ OLS ในsurveyแพ็คเกจได้ แต่ดูเหมือนว่าเป็นไปได้ที่จะทำกับข้อมูลที่มีน้ำหนักใน Stata อะไรคือความแตกต่างในการตีความระหว่างความเบี่ยงเบนของตัวแบบเส้นตรงทั่วไปกับค่า r-squared?

2
การโยนเหรียญกระบวนการตัดสินใจและคุณค่าของข้อมูล
ลองนึกภาพการตั้งค่าต่อไปนี้: คุณมี 2 เหรียญ, เหรียญ A ซึ่งรับประกันว่าจะยุติธรรมและเหรียญ B ซึ่งอาจหรืออาจไม่ยุติธรรม คุณจะถูกขอให้โยนเหรียญ 100 ครั้งและเป้าหมายของคุณคือเพิ่มจำนวนหัวให้มากที่สุด ข้อมูลก่อนหน้าของคุณเกี่ยวกับเหรียญ B คือพลิก 3 ครั้งและให้ 1 หัว หากกฎการตัดสินใจของคุณขึ้นอยู่กับการเปรียบเทียบความน่าจะเป็นที่คาดหวังของหัวของเหรียญ 2 เหรียญคุณจะพลิกเหรียญ 100 ครั้งและทำตามนั้น สิ่งนี้เป็นจริงแม้ว่าจะใช้การประมาณแบบเบย์ที่สมเหตุสมผล (ความหมายด้านหลัง) ของความน่าจะเป็นเนื่องจากคุณไม่มีเหตุผลที่จะเชื่อว่าเหรียญ B ให้ผลตอบแทนที่มากกว่า อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าเหรียญ B มีความเอนเอียงในความเป็นจริง แน่นอนว่า "หัวหน้าที่มีศักยภาพ" ที่คุณยอมแพ้โดยการโยนเหรียญ B สองครั้ง (และการได้รับข้อมูลเกี่ยวกับคุณสมบัติทางสถิติของมัน) จะมีค่าในบางแง่มุมดังนั้นจึงเป็นปัจจัยในการตัดสินใจของคุณ "คุณค่าของข้อมูล" นี้จะอธิบายทางคณิตศาสตร์ได้อย่างไร? คำถาม:คุณสร้างกฎการตัดสินใจที่ดีที่สุดทางคณิตศาสตร์ในสถานการณ์นี้ได้อย่างไร

3
PCA กับข้อมูลตัวอักษรมิติสูงก่อนการจำแนกป่าแบบสุ่ม?
มันเหมาะสมหรือไม่ที่จะทำ PCA ก่อนที่จะทำการจำแนกป่าแบบสุ่ม? ฉันกำลังจัดการกับข้อมูลข้อความมิติสูงและฉันต้องการลดฟีเจอร์เพื่อช่วยหลีกเลี่ยงการสาปแช่งของมิติ แต่ไม่ป่าสุ่มไปแล้วเพื่อลดขนาด

4
การจัดการกับความสัมพันธ์น้ำหนักและการลงคะแนนเสียงใน kNN
ฉันกำลังเขียนโปรแกรมอัลกอริทึม kNN และต้องการทราบต่อไปนี้: ผูกแบ่ง: จะเกิดอะไรขึ้นหากไม่มีผู้ชนะอย่างชัดเจนในการลงคะแนนเสียงข้างมาก เช่นเพื่อนบ้านที่ใกล้ที่สุดทั้งหมดมาจากคลาสที่ต่างกันหรือสำหรับ k = 4 มี 2 เพื่อนบ้านจากคลาส A และ 2 เพื่อนบ้านจากคลาส B ใช่หรือไม่ จะเกิดอะไรขึ้นหากไม่สามารถระบุเพื่อนบ้านที่ใกล้ที่สุดได้อย่างแน่นอนเพราะมีเพื่อนบ้านที่มีระยะทางเท่ากัน? เช่นสำหรับรายการของระยะทาง(x1;2), (x2;3.5), (x3;4.8), (x4;4.8), (x5;4.8), (x6;9.2)มันเป็นไปไม่ได้ที่จะกำหนด k = 3 หรือ k = 4 เพื่อนบ้านที่ใกล้ที่สุดเพราะเพื่อนบ้านที่ 3 ถึงที่ 5 มีระยะห่างเท่ากัน น้ำหนัก: ฉันอ่านว่าเป็นการดีที่จะยกน้ำหนักเพื่อนบ้านที่ใกล้ที่สุด k- ก่อนที่จะเลือกชั้นเรียนที่ชนะ มันทำงานอย่างไร คือน้ำหนักของเพื่อนบ้านเป็นอย่างไรและชั้นเรียนจะถูกกำหนดอย่างไร? ทางเลือกโหวตเสียงข้างมาก: มีกฎ / กลยุทธ์อื่น ๆ ในการพิจารณาระดับที่ชนะนอกเหนือจากการลงคะแนนเสียงข้างมากหรือไม่?

2
คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย
ใครช่วยอธิบายคณิตศาสตร์บางส่วนที่อยู่ในการจัดประเภทในรถเข็นได้บ้าง ฉันกำลังมองหาที่จะเข้าใจว่าสองขั้นตอนหลักเกิดขึ้นได้อย่างไร เช่นฉันฝึกตัวแยกประเภท CART บนชุดข้อมูลและใช้ชุดข้อมูลการทดสอบเพื่อทำเครื่องหมายประสิทธิภาพการทำนาย แต่: รากแรกของต้นไม้ถูกเลือกอย่างไร ทำไมแต่ละสาขาจึงเกิดขึ้น? ชุดข้อมูลของฉันเป็นระเบียน 400,000 รายการที่มี 15 คอลัมน์และ 23 คลาสที่ได้รับความถูกต้อง 100% จากเมทริกซ์ความสับสนฉันใช้การข้ามค่าช่วงเวลา 10 เท่าของชุดข้อมูล ฉันจะยิ่งใหญ่จริง ๆ ถ้าใครสามารถช่วยอธิบายขั้นตอนของการจัดประเภทรถเข็นได้

2
ข้อใดที่ใหญ่ที่สุดของตัวแปรสุ่มแบบกระจายทั่วไป
ฉันมีตัวแปรสุ่มx_0, มีการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวน1 RVs มีการกระจายตามปกติที่มีค่าเฉลี่ยและความแปรปรวน1ทุกอย่างเป็นอิสระร่วมกันX0,X1,…,XnX0,X1,…,XnX_0,X_1,\dots,X_nX0X0X_0μ>0μ>0\mu>0111X1,…,XnX1,…,XnX_1,\dots,X_n000111 Letหมายถึงกรณีที่เป็นที่ใหญ่ที่สุดของเหล่านี้คือX_n) ฉันต้องการที่จะคำนวณหรือประมาณการ\ Pr [E] ฉันกำลังมองหาการแสดงออกสำหรับ\ Pr [E]เป็นหน้าที่ของ\ หมู่, nหรือประมาณการที่เหมาะสมหรือประมาณสำหรับ\ Pr [E]EEEX0X0X_0X0>max(X1,…,Xn)X0>max(X1,…,Xn)X_0 > \max(X_1,\dots,X_n)Pr[E]Pr[E]\Pr[E]Pr[E]Pr[E]\Pr[E]μ,nμ,n\mu,nPr[E]Pr[E]\Pr[E] ในใบสมัครของฉันnnnได้รับการแก้ไข ( n=61n=61n=61 ) และฉันต้องการค้นหาค่าที่เล็กที่สุดสำหรับμμ\muที่ทำให้Pr[E]≥0.99Pr[E]≥0.99\Pr[E] \ge 0.99แต่ฉันอยากรู้เกี่ยวกับคำถามทั่วไปเช่นกัน

2
ตัวกรองคาลมานจะให้ผลที่ดีกว่าค่าเฉลี่ยเคลื่อนที่อย่างง่ายเมื่อใด
ฉันเพิ่งใช้ตัวกรองคาลมานกับตัวอย่างง่ายๆของการวัดตำแหน่งของอนุภาคด้วยความเร็วและความเร่งแบบสุ่ม ฉันพบว่าตัวกรองคาลมานทำงานได้ดี แต่ฉันถามตัวเองว่าอะไรคือความแตกต่างระหว่างสิ่งนี้กับค่าเฉลี่ยเคลื่อนที่? ฉันพบว่าถ้าฉันใช้หน้าต่างประมาณ 10 ตัวอย่างว่าค่าเฉลี่ยเคลื่อนที่มีประสิทธิภาพสูงกว่าตัวกรองคาลมานและฉันพยายามค้นหาตัวอย่างเมื่อใช้ตัวกรองคาลมานมีข้อได้เปรียบเพียงแค่ใช้ค่าเฉลี่ยเคลื่อนที่ ฉันรู้สึกว่าค่าเฉลี่ยเคลื่อนที่นั้นใช้งานง่ายกว่าตัวกรองคาลมานและคุณสามารถนำไปใช้กับสัญญาณโดยไม่ต้องกังวลเกี่ยวกับกลไกพื้นที่รัฐ ฉันรู้สึกเหมือนขาดอะไรบางอย่างพื้นฐานที่นี่และขอขอบคุณสำหรับความช่วยเหลือที่ผู้อื่นสามารถเสนอได้

2
การบังคับใช้การทดสอบไคสแควร์ถ้าเซลล์จำนวนมากมีความถี่น้อยกว่า 5
เพื่อค้นหาความสัมพันธ์ระหว่างการสนับสนุนของเพื่อน (ตัวแปรอิสระ) และความพึงพอใจในการทำงาน (ตัวแปรตาม) ฉันต้องการใช้การทดสอบไคสแควร์ การสนับสนุนของเพื่อนคือหมวดหมู่ในสี่กลุ่มตามขอบเขตของการสนับสนุน: 1 = ขอบเขตที่น้อยมาก 2 = บางส่วน 3 = ถึงมากและ 4 = ถึงระดับที่ดีมาก ความพึงพอใจในการทำงานคือหมวดหมู่เป็นสอง: 0 = ไม่พอใจและ 1 = พอใจ ผลลัพธ์ SPSS บอกว่าความถี่เซลล์ 37.5 เปอร์เซ็นต์น้อยกว่า 5 ขนาดตัวอย่างของฉันคือ 101 และฉันไม่ต้องการลดหมวดหมู่ในตัวแปรอิสระให้มีจำนวนน้อยลง ในสถานการณ์นี้มีการทดสอบอื่นใดที่สามารถนำไปใช้เพื่อทดสอบการเชื่อมโยงนี้ได้หรือไม่

6
ความแตกต่างระหว่างข้อมูลพาเนลและโมเดลผสม
ฉันต้องการทราบความแตกต่างระหว่างการวิเคราะห์ข้อมูลแบบพาเนลและการวิเคราะห์แบบผสม ตามความรู้ของฉันทั้งข้อมูลพาเนลและโมเดลผสมใช้เอฟเฟกต์แบบคงที่และสุ่ม ถ้าเป็นเช่นนั้นทำไมพวกเขาถึงมีชื่อต่างกัน? หรือพวกเขามีความหมายเหมือนกัน? ฉันได้อ่านโพสต์ต่อไปนี้ซึ่งอธิบายคำจำกัดความของเอฟเฟกต์คงที่สุ่มและผสม แต่ไม่ตอบคำถามของฉันอย่างแน่นอน: อะไรคือความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์แบบสุ่มและเอฟเฟกต์ผสม ฉันจะขอบคุณถ้าใครบางคนสามารถอ้างอิงฉันเพื่ออ้างอิงสั้น ๆ (ประมาณ 200 หน้า) ในการวิเคราะห์แบบผสม เพียงเพิ่มฉันต้องการอ้างอิงการสร้างแบบจำลองผสมโดยไม่คำนึงถึงการรักษาซอฟต์แวร์ คำอธิบายเชิงทฤษฎีส่วนใหญ่เกี่ยวกับการสร้างแบบจำลองผสม

3
ความคล้ายคลึงกันของสองฟูเรียร์ tranforms ต่อเนื่อง
ในการสร้างแบบจำลองสภาพภูมิอากาศคุณกำลังมองหาโมเดลที่สามารถถ่ายทอดสภาพภูมิอากาศของโลกได้อย่างเพียงพอ ซึ่งรวมถึงรูปแบบการแสดงที่มีลักษณะกึ่งวัฏจักร: สิ่งต่าง ๆ เช่น El Nino Southern Oscillation แต่โดยทั่วไปการตรวจสอบรูปแบบเกิดขึ้นในช่วงเวลาสั้น ๆ ซึ่งมีข้อมูลการสังเกตที่เหมาะสม (ในช่วง 150 ปีที่ผ่านมา) ซึ่งหมายความว่าแบบจำลองของคุณสามารถแสดงรูปแบบที่ถูกต้อง แต่อยู่นอกระยะเช่นการเปรียบเทียบเชิงเส้นเช่นความสัมพันธ์จะไม่เกิดขึ้นเมื่อแบบจำลองนั้นทำงานได้ดี .. การแปลงฟูริเยร์แบบไม่ต่อเนื่องมักใช้เพื่อวิเคราะห์ข้อมูลสภาพภูมิอากาศ ( นี่คือตัวอย่าง ) เพื่อรับรูปแบบวงจรดังกล่าว มีการวัดมาตรฐานของความคล้ายคลึงกันของ DFT สองตัวที่สามารถใช้เป็นเครื่องมือตรวจสอบ (เช่นการเปรียบเทียบระหว่าง DFT สำหรับแบบจำลองและแบบจำลองสำหรับการสังเกต) หรือไม่ มันจะสมเหตุสมผลไหมที่จะใช้อินทิกรัลของค่าต่ำสุดของ DFTs สองมาตรฐานที่กำหนดพื้นที่ (โดยใช้ค่าจริงที่แน่นอน) ฉันคิดว่าสิ่งนี้จะส่งผลให้คะแนนโดยที่x = 1x ∈ [ 0 , 1 ]x∈[0,1]x\in[0,1]x = 1⟹x=1⟹x=1\impliesรูปแบบเหมือนกันทุกประการและx = 0⟹x=0⟹x=0\impliesรูปแบบที่แตกต่างกันโดยสิ้นเชิง ข้อเสียของวิธีการดังกล่าวอาจเป็นอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.