สถิติและข้อมูลขนาดใหญ่

8

มันสมเหตุสมผลไหมที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง?

ในการตอบคำถามนี้เกี่ยวกับข้อมูลที่ไม่ต่อเนื่องและต่อเนื่องฉันยืนยันอย่างชัดเจนว่ามันไม่ค่อยมีเหตุผลที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง บนใบหน้าของมันที่ดูเหมือนชัดเจนในตัวเอง แต่ปรีชามักจะเป็นแนวทางที่ดีสำหรับสถิติหรืออย่างน้อยก็เป็นของฉัน ดังนั้นตอนนี้ฉันสงสัยว่า: จริงหรือ หรือมีการวิเคราะห์ที่สร้างขึ้นสำหรับการแปลงจากข้อมูลที่เป็นหมวดหมู่ไปเป็นบางส่วนที่มีประโยชน์จริง ๆ ? มันจะสร้างความแตกต่างได้ไหมถ้าข้อมูลนั้นเป็นอันดับ?

57 categorical-data data-transformation ordinal-data continuous-data

2

การถดถอยแบบเบย์: ทำอย่างไรเมื่อเปรียบเทียบกับการถดถอยแบบมาตรฐาน

ฉันมีคำถามบางอย่างเกี่ยวกับการถดถอยแบบเบย์: ได้รับการถดถอยมาตรฐานY= β0+ β1x + εY=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilon ε หากฉันต้องการเปลี่ยนสิ่งนี้เป็นการถดถอยแบบเบย์ฉันต้องมีการแจกแจงก่อนหน้าทั้งคู่สำหรับβ0β0\beta_0และβ1β1\beta_1 (หรือไม่ได้ทำงานด้วยวิธีนี้)? ในการถดถอยมาตรฐานหนึ่งจะพยายามที่จะลดเหลือที่จะได้รับค่าเดียวสำหรับβ0β0\beta_0และβ1β1\beta_1 1 สิ่งนี้จะเกิดขึ้นได้อย่างไรในการถดถอยแบบเบย์ ฉันดิ้นรนมากที่นี่: posterior = โอกาส× ก่อนหน้าด้านหลัง=ก่อน×ความเป็นไปได้ \text{posterior} = \text{prior} \times \text{likelihood} ความน่าจะเป็นมาจากชุดข้อมูลปัจจุบัน (ดังนั้นจึงเป็นพารามิเตอร์การถดถอยของฉัน แต่ไม่ได้เป็นค่าเดียว แต่เป็นการกระจายความเป็นไปได้ใช่มั้ย) ก่อนหน้ามาจากการวิจัยก่อนหน้า (สมมุติว่า) ดังนั้นฉันได้สมการนี้: Y= β1x + εY=β1x+ε y = \beta_1 x + \varepsilon ด้วยβ1β1\beta_1เป็นโอกาสหรือหลังของฉัน (หรือนี่เป็นเพียงความผิดทั้งหมด)? ฉันไม่เข้าใจว่าการถดถอยมาตรฐานเปลี่ยนเป็น Bayes …

57 regression bayesian

3

เครื่องชั่งน้ำหนักของเครื่องชั่งเหมาะสมเมื่อใด

ฉันได้อ่านว่าการใช้เครื่องชั่งบันทึกเมื่อการสร้างแผนภูมิ / กราฟเหมาะสมในบางสถานการณ์เช่นแกน y ในแผนภูมิอนุกรมเวลา อย่างไรก็ตามฉันไม่สามารถหาคำอธิบายที่ชัดเจนว่าทำไมถึงเป็นเช่นนั้นหรือเมื่อใดจะเหมาะสม โปรดจำไว้ว่าฉันไม่ใช่นักสถิติดังนั้นฉันอาจพลาดประเด็นไปโดยสิ้นเชิงและหากเป็นเช่นนั้นฉันขอขอบคุณทิศทางการแก้ไขทรัพยากร

57 data-visualization data-transformation

10

ข้อผิดพลาดในการตรวจสอบความถูกต้องน้อยกว่าข้อผิดพลาดการฝึกอบรม?

ฉันพบคำถามสองข้อที่นี่และที่นี่เกี่ยวกับปัญหานี้ แต่ยังไม่มีคำตอบหรือคำอธิบายที่ชัดเจนฉันบังคับใช้ปัญหาเดียวกันที่ข้อผิดพลาดในการตรวจสอบความถูกต้องน้อยกว่าข้อผิดพลาดการฝึกอบรมในเครือข่าย Convolution Neural นั่นหมายความว่าอย่างไร?

57 machine-learning mathematical-statistics neural-networks cross-validation

3

เป็นส่วนเบี่ยงเบนมาตรฐานตัวอย่างทำไมประมาณการลำเอียงของ

จากบทความของ Wikipedia เกี่ยวกับการประมาณค่าเบี่ยงเบนมาตรฐานตัวอย่าง SD s = 1n - 1Σi = 1n( xผม- x¯¯¯)2---------------√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} เป็นตัวประมาณอคติของ SD ของประชากร มันระบุว่า )E( s2--√) ≠ E( s2)-----√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB ตัวแปรสุ่มมีความเป็นอิสระและแต่ละxผม∼ N( μ , σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) คำถามของฉันคือสองเท่า: หลักฐานของความเอนเอียงคืออะไร? เราคำนวณความคาดหวังของค่าเบี่ยงเบนมาตรฐานตัวอย่างได้อย่างไร ความรู้ด้านคณิตศาสตร์ / สถิติของฉันอยู่ในระดับปานกลางเท่านั้น

57 estimation standard-deviation

7

อุตสาหกรรมเทียบกับความท้าทายของ Kaggle การรวบรวมการสังเกตเพิ่มเติมและการเข้าถึงตัวแปรเพิ่มเติมสำคัญกว่าการสร้างแบบจำลองแฟนซีหรือไม่

ฉันหวังว่าชื่อจะอธิบายได้ด้วยตนเอง ใน Kaggle ผู้ชนะส่วนใหญ่ใช้การสแต็คที่มีโมเดลพื้นฐานหลายร้อยครั้งเพื่อบีบ MSE เพิ่มอีกสองสาม% ความแม่นยำ ... โดยทั่วไปจากประสบการณ์ของคุณการสร้างแบบจำลองที่มีความสำคัญเช่นการวางซ้อน vs เพียงรวบรวมข้อมูลเพิ่มเติมและคุณสมบัติอื่น ๆ สำหรับข้อมูลหรือไม่

56 large-data stacking collecting-data kaggle

9

การใช้ถ้อยคำใหม่“ มี 1 ใน 80 คนเกิดจากอุบัติเหตุทางรถยนต์หรือไม่” เนื่องจาก“ 1 ใน 80 คนเสียชีวิตเนื่องจากอุบัติเหตุรถยนต์หรือไม่”

คำแถลง One (S1): "การเสียชีวิตหนึ่งใน 80 เกิดจากอุบัติเหตุทางรถยนต์" คำแถลงสอง (S2): "หนึ่งใน 80 คนเสียชีวิตเนื่องจากอุบัติเหตุรถยนต์" ตอนนี้ฉันเองไม่เห็นความแตกต่างอย่างมากเลยระหว่างแถลงการณ์ทั้งสองนี้ เมื่อเขียนฉันจะพิจารณาพวกมันแทนกันได้กับผู้ชมทั่วไป อย่างไรก็ตามตอนนี้ฉันถูกท้าทายโดยสองคนนี้และกำลังมองหามุมมองเพิ่มเติม การตีความค่าเริ่มต้นของ S2 คือ "จาก 80 คนที่สุ่มอย่างสม่ำเสมอจากประชากรมนุษย์เราคาดหวังว่าหนึ่งในนั้นจะตายเนื่องจากอุบัติเหตุทางรถยนต์" - และฉันถือว่าข้อความรับรองนี้เทียบเท่ากับ S1 คำถามของฉันมีดังนี้: Q1) การตีความค่าเริ่มต้นของฉันเทียบเท่ากับแถลงการณ์หนึ่งจริงหรือไม่ Q2) การตีความเริ่มต้นของฉันผิดปกติหรือไม่ประมาทหรือไม่ Q3) หากคุณคิดว่า S1 และ S2 แตกต่างกันดังนั้นหากกล่าวถึงวินาทีที่หนึ่งหมายถึงสิ่งที่ทำให้เข้าใจผิด / ไม่ถูกต้องคุณสามารถแก้ไข S2 ที่มีคุณสมบัติครบถ้วนซึ่งเทียบเท่าได้หรือไม่ ลองแยกการเล่นแร่แปรธาตุที่เห็นได้ชัดที่ S1 ไม่ได้อ้างถึงการตายของมนุษย์โดยเฉพาะและสมมติว่าเข้าใจในบริบท ให้เราอภิปรายกันถึงความเป็นจริงของข้อเรียกร้องด้วย: มันมีไว้เพื่อเป็นตัวอย่าง อย่างที่ฉันสามารถบอกได้ความขัดแย้งที่ฉันได้ยินมาดูเหมือนจะมุ่งเน้นไปที่การผิดนัดการตีความที่แตกต่างกันของคำสั่งที่หนึ่งและที่สอง สำหรับครั้งแรกผู้ท้าทายของฉันดูเหมือนจะตีความว่าเป็น 1/80 * num_deaths = จำนวนการเสียชีวิตที่เกิดจากอุบัติเหตุทางรถยนต์ …

56 interpretation risk

4

PCA และ autoencoder แตกต่างกันอย่างไร

ทั้ง PCA และ autoencoder สามารถลดการลดความแปรปรวนได้ดังนั้นอะไรคือความแตกต่างระหว่างพวกเขา ฉันควรใช้อีกตัวหนึ่งในสถานการณ์ใด

56 machine-learning pca neural-networks autoencoders

6

การทำให้เป็นมาตรฐาน L2 เทียบเท่ากับ Gaussian ก่อน

ฉันอ่านมันต่อไปและอย่างสังหรณ์ใจฉันสามารถเห็นสิ่งนี้ได้ แต่จะไปจากการทำให้เป็นมาตรฐาน L2 เพื่อบอกว่านี่คือการวิเคราะห์แบบเกาส์ก่อนหรือไม่ กันไปสำหรับการพูด L1 เทียบเท่ากับ Laplacean ก่อน การอ้างอิงใด ๆ เพิ่มเติมจะดีมาก

56 regression references regularization

1

การถดถอยโลจิสติกใน R ทำให้เกิดการแยกที่สมบูรณ์แบบ (ปรากฏการณ์ Hauck-Donner) ตอนนี้คืออะไร

ฉันพยายามที่จะทำนายผลเลขฐานสองโดยใช้ตัวแปรอธิบายอย่างต่อเนื่อง 50 ตัว (ช่วงของตัวแปรส่วนใหญ่คือถึง ) ชุดข้อมูลของฉันมีเกือบ 24,000 แถว เมื่อฉันทำงานใน R ฉันจะได้รับ:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred ฉันได้อ่านคำตอบอื่น ๆ ที่แนะนำว่าอาจมีการแยกอย่างสมบูรณ์แบบ แต่ฉันมั่นใจว่าไม่ใช่กรณีในข้อมูลของฉัน (แม้ว่าการแยกแบบกึ่งสมบูรณ์อาจเกิดขึ้นได้ฉันจะทดสอบเพื่อดูว่าเป็นอย่างนั้นได้อย่างไร) . หากฉันลบตัวแปรบางตัวข้อผิดพลาด "ไม่ได้บรรจบกัน" อาจหายไป แต่นั่นไม่ใช่สิ่งที่เกิดขึ้นเสมอไป ฉันพยายามใช้ตัวแปรเดียวกันในbayesglmฟังก์ชั่นและได้รับข้อผิดพลาดเดียวกัน ขั้นตอนใดที่คุณจะต้องทราบว่าเกิดอะไรขึ้นที่นี่ คุณคิดว่าตัวแปรใดเป็นสาเหตุของปัญหาได้อย่างไร

56 r regression logistic separation

8

ห้องสมุด R สำหรับการเรียนรู้ลึก

ฉันสงสัยว่ามีห้องสมุด R ที่ดีอยู่ที่นั่นสำหรับการเรียนรู้โครงข่ายประสาทเทียมหรือไม่? ฉันรู้ว่ามีของnnet, neuralnetและRSNNSแต่ไม่มีของเหล่านี้ดูเหมือนจะใช้วิธีการเรียนรู้ลึก ฉันสนใจโดยเฉพาะอย่างยิ่งในการหากินตามด้วยการเรียนรู้ภายใต้การดูแลและใช้การออกกลางคันเพื่อป้องกันไม่ให้ร่วมการปรับตัว / แก้ไข: หลังจากไม่กี่ปีที่ผ่านมาฉันได้พบแพ็คเกจการเรียนรู้ระดับลึก h20 ที่ออกแบบมาอย่างดีและติดตั้งง่าย ฉันชอบแพ็คเกจ mxnetซึ่งยากต่อการติดตั้ง แต่สนับสนุนสิ่งต่าง ๆ เช่น covnets ทำงานบน GPU และเร็วมาก

56 r neural-networks deep-learning rbm deep-belief-networks

4

ค่าทั้งหมดภายในช่วงความมั่นใจ 95% มีโอกาสเท่ากันหรือไม่

ฉันได้พบข้อมูลที่ไม่ลงรอยกันของคำถาม: " ถ้าใครสร้างช่วงความเชื่อมั่น 95% (CI) ของความแตกต่างในวิธีการหรือความแตกต่างของสัดส่วนค่าทั้งหมดภายใน CI มีแนวโน้มเท่ากันหรือไม่หรือเป็นจุดที่มีแนวโน้มมากที่สุด มีค่าใกล้กับ "ก้อย" ของ CI มีโอกาสน้อยกว่าค่าที่อยู่ตรงกลางของ CI หรือไม่ ตัวอย่างเช่นหากรายงานการทดลองทางคลินิกแบบสุ่มระบุว่าความเสี่ยงสัมพัทธ์ของการเสียชีวิตด้วยการรักษาแบบพิเศษคือ 1.06 (95% CI 0.96 ถึง 1.18) ความน่าจะเป็นที่ 0.96 เป็นค่าที่ถูกต้องเหมือนกับ 1.06 หรือไม่? ฉันพบการอ้างอิงจำนวนมากเกี่ยวกับแนวคิดนี้ทางออนไลน์ แต่ตัวอย่างสองตัวอย่างต่อไปนี้สะท้อนถึงความไม่แน่นอนในนั้น: โมดูลของ Lisa Sullivan เกี่ยวกับสถานะConfidence Intervals : ช่วงความเชื่อมั่นสำหรับความแตกต่างหมายถึงให้ช่วงของค่าที่เป็นไปได้สำหรับ ( ) เป็นสิ่งสำคัญที่จะต้องทราบว่าค่าทั้งหมดในช่วงความเชื่อมั่นมีความเป็นไปได้ที่จะประเมินมูลค่าที่แท้จริงเท่ากัน ( μ_1-μ_2 )μ1−μ2μ1−μ2μ_1-μ_2μ1−μ2μ1−μ2μ_1-μ_2 บล็อกนี้มีชื่ออยู่ในส่วนต่างของข้อผิดพลาดระบุ: สิ่งที่ฉันมีในใจเป็นความเข้าใจผิดเกี่ยวกับ“ขอบของข้อผิดพลาด” ที่ถือว่าทุกจุดภายในช่วงความเชื่อมั่นเป็นโอกาสที่เท่าเทียมกันเช่นถ้าทฤษฎีบทขีด จำกัด กลางนัยเครื่องแบบกระจาย bounded แทนทีกระจาย [... …

56 confidence-interval

6

“ ลูกผสม” ระหว่างฟิชเชอร์และเนย์แมน - เพียร์สันใกล้ถึงวิธีการทดสอบทางสถิติจริงๆแล้วเป็น

มีโรงเรียนแห่งความคิดบางแห่งตามที่วิธีการทดสอบทางสถิติที่แพร่หลายที่สุดคือ "ลูกผสม" ระหว่างสองวิธี: ฟิชเชอร์และเนย์แมน - เพียร์สัน; ทั้งสองวิธีการเรียกร้องไปเป็น "เข้ากันไม่ได้" และด้วยเหตุนี้ "ลูกผสม" ที่เกิดขึ้นจึงเป็น "ยำ mashmash" ฉันจะให้บรรณานุกรมและคำพูดบางส่วนด้านล่าง แต่ตอนนี้พอจะพูดได้ว่ามีจำนวนมากที่เขียนเกี่ยวกับว่าในบทความวิกิพีเดียในการทดสอบสมมติฐานทางสถิติ ที่นี่บน CV จุดนี้ทำซ้ำโดย @Michael Lew (ดูที่นี่และที่นี่ ) คำถามของฉันคือ: ทำไม F และ NP ถึงวิธีอ้างว่าไม่เข้ากันและทำไมไฮบริดที่อ้างว่าไม่สอดคล้องกัน? โปรดทราบว่าฉันอ่านเอกสารต่อต้านไฮบริดอย่างน้อยหกฉบับ (ดูด้านล่าง) แต่ก็ยังไม่เข้าใจปัญหาหรือข้อโต้แย้ง สังเกตว่าฉันไม่แนะนำให้อภิปรายว่า F หรือ NP เป็นวิธีที่ดีกว่าหรือไม่ ฉันไม่เสนอที่จะพูดคุยเกี่ยวกับกรอบบ่อยครั้งกับเบย์ แต่คำถามคือการยอมรับว่าทั้ง F และ NP เป็นวิธีที่ถูกต้องและมีความหมายอะไรที่แย่เกี่ยวกับลูกผสมของพวกเขา นี่คือวิธีที่ฉันเข้าใจสถานการณ์ วิธีการของฟิชเชอร์คือการคำนวณค่าและใช้เป็นหลักฐานต่อสมมติฐานว่าง ยิ่งเล็กเท่าไหร่หลักฐานก็ยิ่งน่าเชื่อถือมากเท่านั้น ผู้วิจัยควรรวมหลักฐานนี้กับความรู้พื้นฐานของเขาตัดสินใจว่ามันน่าเชื่อถือเพียงพอและดำเนินการต่อไป (หมายเหตุว่ามุมมองของฟิชเชอร์การเปลี่ยนแปลงในช่วงปีที่ผ่านมา แต่นี่คือสิ่งที่เขาดูเหมือนว่าจะมีการแปรสภาพในที่สุดก็ไป.) ในทางตรงกันข้ามวิธี Neyman …

56 hypothesis-testing statistical-significance p-value type-i-and-ii-errors history

3

ตัวแปรมักจะถูกปรับ (เช่นมาตรฐาน) ก่อนที่จะสร้างแบบจำลอง - นี่เป็นความคิดที่ดีเมื่อใดและเมื่อใดจึงเป็นสิ่งที่ไม่ดี

ในสถานการณ์ใดที่คุณต้องการหรือไม่ต้องการปรับขนาดหรือทำให้มาตรฐานเป็นตัวแปรก่อนที่จะทำการปรับแบบจำลอง ข้อดีและข้อเสียของการปรับขนาดตัวแปรคืออะไร?

56 modeling predictive-models feature-selection theory standardization

9

จะรับค่า p-value (ตรวจสอบนัยสำคัญ) ของผลกระทบในรูปแบบผสม lme4 ได้อย่างไร

ฉันใช้ lme4 ใน R เพื่อให้พอดีกับโมเดลผสม lmer(value~status+(1|experiment))) โดยที่ค่านั้นต่อเนื่องสถานะและการทดลองเป็นปัจจัยและฉันได้รับ Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, …

56 r hypothesis-testing mixed-model p-value lme4-nlme