สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
Kendall Tau หรือ Rho's Spearman?
ในกรณีใดที่หนึ่งควรชอบหนึ่งมากกว่าอีก? ฉันพบคนที่อ้างว่าเป็นประโยชน์สำหรับเคนดัลล์ด้วยเหตุผลด้านการสอนมีเหตุผลอื่นอีกไหม?

19
โครงการโอเพ่นซอร์สการวิเคราะห์เชิงสถิติที่มีค่าคืออะไร?
โครงการโอเพ่นซอร์สการวิเคราะห์เชิงสถิติที่มีคุณค่าในปัจจุบันมีอะไรบ้าง แก้ไข: ตามที่ชาร์ปชี้ให้เห็นว่ามีค่าอาจหมายถึงการช่วยให้คุณทำสิ่งต่าง ๆ ได้เร็วขึ้นหรือถูกลง


6
น้ำหนักเริ่มต้นที่ดีในเครือข่ายประสาทคืออะไร
ฉันเพิ่งได้ยินมาว่าเป็นความคิดที่ดีที่จะเลือกน้ำหนักเริ่มต้นของโครงข่ายประสาทจากช่วงโดยที่คือ จำนวนอินพุตไปยังเซลล์ประสาทที่กำหนด สันนิษฐานว่าเซตเหล่านั้นได้รับการทำให้เป็นมาตรฐาน - หมายถึง 0, ความแปรปรวน 1 (ไม่ทราบว่ามีความสำคัญหรือไม่)d( - 1d√, 1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd ทำไมนี่เป็นความคิดที่ดี?

7
ข้อกำหนดการโต้ตอบทั้งหมดต้องการคำศัพท์เฉพาะในรูปแบบการถดถอยหรือไม่
ฉันกำลังทบทวนต้นฉบับที่ผู้เขียนเปรียบเทียบแบบจำลองการถดถอยโลจิท 5-6 กับ AIC อย่างไรก็ตามบางรุ่นมีเงื่อนไขการใช้ร่วมกันโดยไม่รวมถึงข้อกำหนด covariate แต่ละรายการ มันสมเหตุสมผลไหมที่จะทำสิ่งนี้? ตัวอย่างเช่น (ไม่เฉพาะสำหรับรุ่น logit): M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: Y = X1 + X1*X2 (missing X2) M4: Y = X2 + X1*X2 (missing X1) M5: Y = X1*X2 (missing X1 & X2) ฉันอยู่ภายใต้ความประทับใจเสมอว่าหากคุณมีคำศัพท์โต้ตอบระหว่าง …

4
วิธีการปรับค่าพารามิเตอร์ไฮเปอร์ของต้น xgboost
ฉันมีข้อมูลที่ไม่สมดุลในชั้นเรียน & ฉันต้องการปรับแต่งพารามิเตอร์หลายมิติของปอยผมที่เพิ่มขึ้นโดยใช้ xgboost คำถาม มีเทียบเท่าของ gridsearchcv หรือ randomsearchcv สำหรับ xgboost? หากไม่ใช่วิธีการที่แนะนำให้ปรับพารามิเตอร์ของ xgboost คืออะไร?

4
ส่วนเบี่ยงเบนมาตรฐานเป็นอย่างไร
ฉันมีค่าเฉลี่ยรายเดือนสำหรับค่าและส่วนเบี่ยงเบนมาตรฐานที่สอดคล้องกับค่าเฉลี่ยนั้น ตอนนี้ฉันคำนวณค่าเฉลี่ยรายปีเป็นผลรวมของค่าเฉลี่ยรายเดือนฉันจะแสดงค่าเบี่ยงเบนมาตรฐานสำหรับค่าเฉลี่ยรวมได้อย่างไร ตัวอย่างเช่นการพิจารณาผลลัพธ์จากฟาร์มกังหันลม: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 เราสามารถพูดได้ว่าในปีเฉลี่ยฟาร์มกังหันลมผลิต 10,358 MWh แต่ค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกับรูปนี้คืออะไร?

2
การถดถอยหลายตัวแปรหลายตัวแปรใน R
ฉันมี 2 ตัวแปรตาม (DVs) ซึ่งแต่ละคะแนนอาจได้รับอิทธิพลจากชุดของตัวแปรอิสระ 7 ตัว (IVs) DV เป็นแบบต่อเนื่องในขณะที่ชุดของ IV ประกอบด้วยการผสมผสานของตัวแปรแบบต่อเนื่องและแบบไบนารี (ในรหัสด้านล่างตัวแปรต่อเนื่องจะเขียนด้วยตัวอักษรตัวพิมพ์ใหญ่และตัวแปรไบนารีในตัวอักษรตัวพิมพ์เล็ก) จุดประสงค์ของการศึกษาคือการเปิดเผยว่า DVs เหล่านี้ได้รับอิทธิพลจากตัวแปร IV อย่างไร ฉันเสนอรูปแบบหลายตัวแปรการถดถอย (MMR) หลายตัวแปรต่อไปนี้: my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) เมื่อต้องการตีความผลลัพธ์ที่ฉันเรียกสองคำสั่ง: summary(manova(my.model)) Manova(my.model) เอาต์พุตจากการโทรทั้งสองวางด้านล่างและแตกต่างกันอย่างมาก ใครช่วยกรุณาอธิบายว่าควรเลือกข้อความใดในการสรุปผล MMR อย่างถูกต้องและทำไม ข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก เอาต์พุตโดยใช้summary(manova(my.model))ข้อความสั่ง: …

10
เกิดอะไรขึ้นกับการคาดการณ์?
ฉันจำได้ว่านั่งอยู่ในหลักสูตรสถิติเนื่องจากการได้ยินในระดับปริญญาตรีว่าทำไมการคาดการณ์จึงเป็นความคิดที่ไม่ดี นอกจากนี้ยังมีแหล่งข้อมูลออนไลน์ที่หลากหลายซึ่งแสดงความคิดเห็นเกี่ยวกับเรื่องนี้ นอกจากนี้ยังมีการพูดถึงมันที่นี่นี่ ใครสามารถช่วยฉันเข้าใจว่าทำไมการอนุมานจึงเป็นความคิดที่ไม่ดี ถ้าเป็นเช่นนั้นเทคนิคการพยากรณ์ว่าไม่ถูกต้องทางสถิติอย่างไร

7
วิธีการสร้างจุดกระจายอย่างสม่ำเสมอบนพื้นผิวของทรงกลม 3 มิติหน่วย?
ฉันสงสัยว่าจะสร้างจุดกระจายอย่างสม่ำเสมอบนพื้นผิวของทรงกลมหน่วย 3 มิติได้อย่างไร? หลังจากสร้างจุดเหล่านี้แล้ววิธีที่ดีที่สุดในการมองเห็นและตรวจสอบว่ามีความสม่ำเสมอบนพื้นผิวx2+ y2+ z2= 1x2+y2+z2=1x^2+y^2+z^2=1หรือไม่

11
ทำไมฉันถึงต้องเป็น Bayesian เมื่อแบบจำลองของฉันผิด
แก้ไข:ฉันได้เพิ่มเป็นตัวอย่างง่ายๆอนุมานของค่าเฉลี่ยของx_iฉันยังได้ชี้แจงด้วยเล็กน้อยว่าทำไมช่วงเวลาที่น่าเชื่อถือและไม่ตรงกับช่วงความมั่นใจไม่ดีXiXผมX_i ฉันเป็นคนเบย์เซียนที่มีใจศรัทธาอย่างยุติธรรมฉันกำลังอยู่ในช่วงวิกฤตการณ์แห่งศรัทธาแปลก ๆ ปัญหาของฉันคือต่อไปนี้ สมมติว่าผมต้องการที่จะวิเคราะห์ข้อมูล IID บางx_iสิ่งที่ฉันจะทำคือ:XiXผมX_i ก่อนเสนอแบบจำลองตามเงื่อนไข: p(X|θ)พี(X|θ) p(X|\theta) จากนั้นเลือกก่อนหน้าบน : θθ\thetap(θ)พี(θ) p(\theta) ในที่สุดใช้กฎของเบย์คำนวณหลัง: (หรือประมาณโดยประมาณถ้ามันไม่ควรคำนวณได้) และตอบคำถามทั้งหมดที่ฉันมีเกี่ยวกับθp(θ|X1…Xn)พี(θ|X1...Xn)p(\theta | X_1 \dots X_n )θθ\theta นี่เป็นวิธีการที่สมเหตุสมผล: ถ้าแบบจำลองที่แท้จริงของข้อมูลเป็น "ข้างใน" ของเงื่อนไขของฉัน (มันสอดคล้องกับค่าบางอย่างθ 0 ) จากนั้นฉันสามารถเรียกทฤษฎีการตัดสินใจทางสถิติเพื่อบอกว่าวิธีการของฉันเป็นที่ยอมรับ (ดู Robert's "ตัวเลือก Bayesian" สำหรับรายละเอียด; "สถิติทั้งหมด" ยังให้ข้อมูลที่ชัดเจนในบทที่เกี่ยวข้องด้วย)XiXผมX_iθ0θ0\theta_0 อย่างไรก็ตามอย่างที่ทุกคนรู้ว่าสมมติว่าแบบจำลองของฉันถูกต้องค่อนข้างหยิ่ง: ทำไมธรรมชาติควรอยู่ในกล่องแบบจำลองที่ฉันได้พิจารณาอย่างเป็นธรรมชาติ มันเป็นจริงมากขึ้นที่จะคิดว่ารูปแบบที่แท้จริงของข้อมูลที่แตกต่างจากP ( X | θ )สำหรับทุกค่าของθ ซึ่งมักเรียกว่าแบบจำลอง "misspecified"ptrue(X)พีเสื้อRยูอี(X)p_{true}(X)p(X|θ)พี(X|θ)p(X|\theta)θθ\theta ปัญหาของฉันคือว่าในกรณีที่สะกดผิดพลาดเหมือนจริงมากขึ้นฉันไม่มีข้อโต้แย้งที่ดีสำหรับการเป็น Bayesian (เช่นการคำนวณการกระจายหลัง) …

1
เอกสารทางประสาทวิทยาศาสตร์ 40,000 ฉบับอาจผิด
ฉันเห็นบทความนี้ในหมู่นักเศรษฐศาสตร์เกี่ยวกับกระดาษทำลายล้างที่ดูเหมือนจะเป็นข้อกังขาว่า "มีบางอย่างที่ตีพิมพ์ [fMRI] การศึกษา 40,000 รายการ" ข้อผิดพลาดพวกเขากล่าวว่าเป็นเพราะ "สมมติฐานทางสถิติที่ผิดพลาด" ฉันอ่านกระดาษและดูว่ามันเป็นปัญหาส่วนหนึ่งของการแก้ไขเปรียบเทียบหลายอย่าง แต่ฉันไม่ใช่ผู้เชี่ยวชาญ fMRI และฉันพบว่ามันยากที่จะติดตาม ข้อผิดพลาดที่ผู้เขียนพูดถึงคืออะไร? เหตุใดจึงมีการตั้งสมมติฐาน มีวิธีใดบ้างในการสร้างสมมุติฐานเหล่านี้ ด้านหลังของการคำนวณซองจดหมายกล่าวว่าเอกสาร 40,000 fMRI มีมูลค่ามากกว่าพันล้านเหรียญสหรัฐ (เงินเดือนนักศึกษาค่าใช้จ่ายในการดำเนินงาน ฯลฯ ) [1] Eklund et al., ความล้มเหลวของคลัสเตอร์: เหตุใดการอ้างถึง fMRI สำหรับขอบเขตเชิงพื้นที่จึงมีอัตราการบวกเท็จที่สูงเกินจริง PNAS 2016

3
นี่เป็นวิธีแก้ไขปัญหาค่า p หรือไม่
ในเดือนกุมภาพันธ์ 2559 สมาคมสถิติอเมริกันออกแถลงการณ์อย่างเป็นทางการเกี่ยวกับนัยสำคัญทางสถิติและค่า p หัวข้อของเราเกี่ยวกับมันกล่าวถึงปัญหาเหล่านี้อย่างกว้างขวาง อย่างไรก็ตามไม่มีผู้มีอำนาจออกมาเสนอทางเลือกที่ได้รับการยอมรับในระดับสากลจนถึงปัจจุบัน สมาคมสถิติอเมริกัน (ASS) ได้เผยแพร่การตอบสนองค่า p: มีอะไรต่อไป "p-value ไม่ค่อยดีเท่าไหร่" เราคิดว่า ASA ไม่ได้ไปไกลพอ ถึงเวลาที่ต้องยอมรับว่ายุคของค่า p จบลงแล้ว นักสถิติได้ใช้พวกเขาในการทำให้นักศึกษาปริญญาตรียุ่งเหยิงหลอกนักวิทยาศาสตร์และบรรณาธิการหลอกไปทุกที่ แต่โลกเริ่มมองผ่านอุบายนี้ เราจำเป็นต้องละทิ้งความพยายามในช่วงต้นศตวรรษที่ 20 โดยนักสถิติเพื่อควบคุมการตัดสินใจ เราต้องกลับไปที่สิ่งที่ใช้งานได้จริง ข้อเสนอ ASS อย่างเป็นทางการคือ: แทนที่ค่า p, ASS สนับสนุน STOP (ขั้นตอนการ SeaT-Of-Pants) วิธีการที่ได้รับเกียรติและผ่านการทดสอบครั้งนี้ถูกใช้โดยชาวกรีกโบราณชายยุคฟื้นฟูศิลปวิทยาและนักวิทยาศาสตร์ทุกคนจนกระทั่งโรนัลด์ฟิชเชอร์เข้ามาและทำลายสิ่งต่างๆ STOP นั้นง่ายตรงตามข้อมูลและเชื่อถือได้ เพื่อดำเนินการร่างอำนาจ (ชายที่มีอายุมากกว่าโดยการตั้งค่า) ตรวจสอบข้อมูลและตัดสินใจว่าพวกเขาเห็นด้วยกับความเห็นของเขา เมื่อเขาตัดสินใจว่าจะทำผลก็คือ“ สำคัญ” มิฉะนั้นแล้วมันก็ไม่ใช่และทุกคนจะต้องลืมเรื่องทั้งหมด หลักการ การตอบสนองที่อยู่ของแต่ละหกหลักการ ASA STOP สามารถระบุว่าข้อมูลไม่เข้ากันกับแบบจำลองทางสถิติที่ระบุได้อย่างไร เราชอบวลีนี้เพราะมันเป็นวิธีแฟนซีในการบอกว่า …

6
การเลือกตัวแปรสำหรับการสร้างแบบจำลองการทำนายจำเป็นจริงๆในปี 2559?
คำถามนี้ถูกถามใน CV เมื่อหลายปีที่ผ่านมาดูเหมือนว่ามูลค่าของ repost ในแง่ของ 1) ลำดับความสำคัญของเทคโนโลยีการคำนวณที่ดีกว่า (เช่นการคำนวณแบบขนาน, HPC เป็นต้น) และ 2) เทคนิคที่ใหม่กว่าเช่น [3] ก่อนบริบทบางอย่าง สมมติว่าเป้าหมายไม่ใช่การทดสอบสมมติฐานไม่ใช่การประมาณผล แต่คาดการณ์จากชุดทดสอบที่ไม่เห็น ดังนั้นจะไม่มีการให้น้ำหนักกับผลประโยชน์ใด ๆ ที่สามารถตีความได้ ประการที่สองสมมติว่าคุณไม่สามารถแยกแยะความเกี่ยวข้องของตัวทำนายใด ๆ ในการพิจารณาเรื่องเช่น พวกเขาดูเหมือนจะมีเหตุผลเป็นรายบุคคลหรือใช้ร่วมกับตัวทำนายอื่น ๆ ประการที่สามคุณต้องเผชิญหน้ากับผู้ทำนายหลายล้านคน ข้อที่สี่สมมติว่าคุณมีสิทธิ์เข้าถึง AWS ด้วยงบประมาณไม่ จำกัด ดังนั้นพลังในการคำนวณจึงไม่ใช่ข้อ จำกัด ปกติสำหรับการเลือกตัวแปรคือ 1) ประสิทธิภาพ; เร็วกว่าเพื่อให้พอดีกับโมเดลที่เล็กลงและถูกลงเพื่อรวบรวมตัวทำนายที่น้อยลง, 2) การตีความ; การรู้ตัวแปร "สำคัญ" จะช่วยให้เข้าใจกระบวนการที่เป็นพื้นฐาน [1] ตอนนี้เป็นที่ทราบกันอย่างกว้างขวางว่าวิธีการเลือกตัวแปรหลายวิธีนั้นไม่มีประสิทธิภาพและมักเป็นอันตรายทันที (เช่นการถดถอยแบบขั้นตอนไปข้างหน้า) [2] ประการที่สองถ้าแบบจำลองที่เลือกนั้นดีคุณไม่จำเป็นต้องลดรายชื่อผู้ทำนายเลย แบบจำลองควรทำเพื่อคุณ ตัวอย่างที่ดีคือ lasso ซึ่งกำหนดค่าสัมประสิทธิ์เป็นศูนย์ให้กับตัวแปรที่ไม่เกี่ยวข้องทั้งหมด …

10
มีพื้นฐานทางคณิตศาสตร์สำหรับการถกเถียงแบบเบย์กับการถกเถียงกันบ่อยๆหรือไม่?
มันพูดในWikipediaว่า: คณิตศาสตร์ [ของความน่าจะเป็น] ส่วนใหญ่เป็นอิสระจากการตีความความน่าจะเป็นใด ๆ คำถาม:แล้วถ้าเราต้องการที่จะมีความถูกต้องทางคณิตศาสตร์ไม่ควรที่เราไม่อนุญาตใด ๆความหมายของความน่าจะเป็น? คือทั้งแบบเบย์และความถี่ที่ไม่ถูกต้องทางคณิตศาสตร์? ฉันไม่ชอบปรัชญา แต่ฉันชอบวิชาคณิตศาสตร์และฉันต้องการทำงานเฉพาะภายในกรอบของสัจพจน์ของ Kolmogorov หากนี่คือเป้าหมายของฉันควรปฏิบัติตามสิ่งที่กล่าวไว้ใน Wikipedia ว่าฉันควรปฏิเสธทั้ง Bayesianism และบ่อยครั้งหรือไม่ หากแนวคิดมีปรัชญาล้วนๆและไม่ใช่คณิตศาสตร์เลยทำไมพวกเขาจึงปรากฏเป็นสถิติตั้งแต่แรก? ความเป็นมา / บริบท: โพสต์บล็อกนี้ไม่ได้พูดเหมือนกัน แต่มันก็เถียงว่าการพยายามจำแนกเทคนิคเป็น "Bayesian" หรือ "บ่อยครั้ง" นั้นตอบโต้จากมุมมองเชิงปฏิบัติ หากการอ้างอิงจาก Wikipedia เป็นจริงดูเหมือนว่าจากมุมมองทางปรัชญาที่พยายามจำแนกวิธีการทางสถิติก็เป็นวิธีที่มีประสิทธิผลเช่นกันหากวิธีการทางคณิตศาสตร์นั้นถูกต้องก็จะใช้วิธีการเมื่อสมมติฐานของคณิตศาสตร์พื้นฐาน ถือมิฉะนั้นหากไม่ถูกต้องทางคณิตศาสตร์หรือหากสมมติฐานไม่ได้ถือไว้ก็ไม่สามารถใช้งานได้ ในทางกลับกันผู้คนจำนวนมากดูเหมือนจะระบุ "การอนุมานแบบเบย์" ด้วยทฤษฎีความน่าจะเป็น (เช่นสัจพจน์ของ Kolmogorov) แม้ว่าฉันจะไม่แน่ใจว่าทำไม ตัวอย่างบางส่วนเป็นบทความของ Jaynes เกี่ยวกับการอนุมานแบบเบย์ที่เรียกว่า "ความน่าจะเป็น" เช่นเดียวกับหนังสือของ James Stone "กฎของ Bayes '" ดังนั้นถ้าฉันใช้การเรียกร้องเหล่านี้ตามมูลค่าหน้าตัวนั่นก็หมายความว่าฉันควรจะชอบลัทธิเบย์มากกว่า อย่างไรก็ตามหนังสือของ Casella และ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.