สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
ทำไมถึงมีการสะกดสองแบบของ "heteroskedastic" หรือ "heteroscedastic"?
ฉันมักจะเห็นทั้งการสะกดคำ "heteroskedastic" และ "heteroscedastic" และในทำนองเดียวกันสำหรับ "homoscedastic" และ "homoskedastic" ดูเหมือนว่าจะไม่มีความแตกต่างในความหมายระหว่าง "c" และ "k" หลากหลายรูปแบบเพียงความแตกต่างที่เกี่ยวข้องกับออโธกราฟกรีกนิรุกติศาสตร์ของคำ ต้นกำเนิดของการสะกดที่แตกต่างกันสองอย่างคืออะไร การใช้งานครั้งเดียวมีความธรรมดามากกว่าอีกการใช้งานหนึ่ง ๆ และพวกเขาสะท้อนให้เห็นถึงการเปลี่ยนแปลงระหว่างภูมิภาคหรือเขตข้อมูลการวิจัยหรือไม่มากกว่าการตั้งค่าที่เป็นทางการ ในขณะที่ภาษาอื่นมีนโยบายที่แตกต่างกันในการแปลภาษากรีกเป็นภาษาละติน: ฉันทราบว่าในภาษาฝรั่งเศสฉันคิดว่า "hétéroscédasticité" เสมอในขณะที่ภาษาเยอรมันจะเป็น "Heteroskedastizität" เสมอ ดังนั้นฉันจะไม่แปลกใจถ้าผู้เขียนที่มีภาษาอังกฤษเป็นภาษาที่สองอาจมีการตั้งค่าสำหรับการสะกดคำภาษาอังกฤษที่สอดคล้องกับภาษาแม่ของพวกเขา บางทีการทดสอบที่แท้จริงคือสิ่งที่นักสถิติชาวกรีกเรียกมันว่าเมื่อเขียนเป็นภาษาอังกฤษ!

2
จะไม่มีตัวแปรที่มีความสัมพันธ์สูงในความแม่นยำของการบิดเบือนป่าและการเลือกคุณลักษณะหรือไม่
ในความเข้าใจของฉันตัวแปรที่มีความสัมพันธ์สูงจะไม่ทำให้เกิดปัญหาความหลากหลายในรูปแบบฟอเรสต์แบบสุ่ม (โปรดแก้ไขฉันหากฉันผิด) อย่างไรก็ตามในทางกลับกันถ้าฉันมีตัวแปรมากเกินไปที่มีข้อมูลที่คล้ายกันโมเดลน้ำหนักจะมากเกินไปในเซตนี้หรือไม่ ตัวอย่างเช่นมีชุดข้อมูลสองชุด (A, B) ที่มีพลังการทำนายเท่ากัน ตัวแปร , X 2 , ... X 1000ทั้งหมดมีข้อมูล A และมีเพียง Y เท่านั้นที่มีข้อมูล B เมื่อสุ่มตัวอย่างตัวแปรต้นไม้ส่วนใหญ่จะเติบโตบนข้อมูล A และเป็นผลให้ข้อมูล B ไม่ได้รับการบันทึกอย่างสมบูรณ์หรือไม่X1X1X_1X2X2X_2X1000X1000X_{1000}

3
ทำไมการแปรผกผันของเมทริกซ์ความแปรปรวนร่วมจึงให้สหสัมพันธ์บางส่วนระหว่างตัวแปรสุ่ม
ผมได้ยินมาว่าบางส่วนความสัมพันธ์ระหว่างตัวแปรสุ่มสามารถพบได้โดย inverting เมทริกซ์ความแปรปรวนและการเซลล์ที่เหมาะสมจากที่เกิดเช่นความแม่นยำเมทริกซ์ (ความเป็นจริงนี้ถูกกล่าวถึงในhttp://en.wikipedia.org/wiki/Partial_correlationแต่ไม่มีหลักฐาน) . เหตุใดจึงเป็นเช่นนี้

3
เป็นไปได้หรือไม่ที่จะเปลี่ยนสมมติฐานเพื่อให้ตรงกับข้อมูลที่สังเกต (หรือที่เรียกว่าการตกปลา) และหลีกเลี่ยงข้อผิดพลาด Type I ที่เพิ่มขึ้น?
เป็นที่ทราบกันดีว่านักวิจัยควรใช้เวลาในการสังเกตและสำรวจข้อมูลและการวิจัยที่มีอยู่ก่อนสร้างสมมติฐานแล้วรวบรวมข้อมูลเพื่อทดสอบสมมติฐานนั้น (หมายถึงการทดสอบนัยสำคัญของสมมติฐานว่างเปล่า) หนังสือสถิติพื้นฐานหลายเล่มเตือนว่าต้องมีการตั้งสมมติฐานก่อนและไม่สามารถเปลี่ยนแปลงได้หลังจากการรวบรวมข้อมูลมิฉะนั้นวิธีการจะไม่ถูกต้อง ฉันเข้าใจว่าเหตุผลข้อหนึ่งที่ว่าทำไมการเปลี่ยนสมมติฐานให้พอดีกับข้อมูลที่สังเกตนั้นเป็นปัญหาเพราะมีโอกาสมากขึ้นที่จะยอมรับข้อผิดพลาดประเภทที่ 1 เนื่องจากข้อมูลปลอม แต่คำถามของฉันคือ: เป็นเหตุผลเดียวหรือมีปัญหาพื้นฐานอื่น ๆ เดินทางไปตกปลา? ในฐานะที่เป็นคำถามโบนัสมีวิธีที่จะไปสำรวจการตกปลาโดยไม่ต้องเปิดเผยตัวเองถึงข้อผิดพลาดที่อาจเกิดขึ้น? ตัวอย่างเช่นหากคุณมีข้อมูลเพียงพอคุณสามารถสร้างสมมติฐานจากครึ่งหนึ่งของข้อมูลแล้วใช้อีกครึ่งหนึ่งเพื่อทดสอบพวกเขาได้หรือไม่ ปรับปรุง ฉันซาบซึ้งในความสนใจในคำถามของฉัน แต่คำตอบและความคิดเห็นส่วนใหญ่มุ่งไปที่สิ่งที่ฉันคิดว่าฉันกำหนดไว้เป็นข้อมูลพื้นฐาน ฉันสนใจที่จะรู้ว่าถ้ามีคนอื่น ๆด้วยเหตุผลที่ว่าทำไมมันไม่ดีเกินความเป็นไปได้ที่สูงขึ้นของผลการปลอมและถ้ามีวิธีการเช่นข้อมูลแยกแรกของการเปลี่ยนแปลงสมมติฐานโพสต์เฉพาะกิจแต่หลีกเลี่ยงการเพิ่มขึ้นในข้อผิดพลาดประเภทฉัน ฉันได้อัปเดตชื่อแล้วเพื่อให้สะท้อนถึงคำถามที่ฉันต้องการ ขอบคุณและขออภัยในความสับสน!

1
เชื่อมโยงการตรวจจับความผิดปกติในเครือข่ายชั่วคราว
ฉันมาข้ามบทความนี้ที่ใช้เชื่อมโยงการตรวจสอบความผิดปกติในการทำนายแนวโน้มหัวข้อและผมพบว่ามันไม่น่าเชื่อที่น่าสนใจ: กระดาษ"การค้นพบหัวข้อที่เกิดขึ้นใหม่ในกระแสสังคมผ่านการเชื่อมโยงความผิดปกติของการตรวจสอบ" ฉันชอบที่จะทำซ้ำในชุดข้อมูลอื่น แต่ฉันไม่คุ้นเคยกับวิธีการที่จะรู้วิธีใช้ สมมติว่าฉันมีชุดของภาพรวมของเครือข่ายของโหนดในช่วงหกเดือน โหนมีการกระจายระดับเทลด์เทอร์มินัลโดยส่วนใหญ่มีการเชื่อมต่อเพียงเล็กน้อย แต่บางอันมีจำนวนมาก โหนดใหม่ปรากฏขึ้นภายในช่วงเวลานี้ ฉันจะใช้การคำนวณความน่าจะเป็นสูงสุดปกติแบบลดตามลำดับที่ใช้ในกระดาษเพื่อตรวจจับลิงก์ผิดปกติที่ฉันคิดว่าอาจเป็นตัวตั้งต้นให้เกิดการระเบิดได้อย่างไร มีวิธีการอื่นที่เหมาะสมกว่าหรือไม่ ฉันถามทั้งในทางทฤษฎีและในทางปฏิบัติ หากใครบางคนชี้ให้ฉันเห็นวิธีการใช้สิ่งนี้ใน python หรือ R นั่นจะเป็นประโยชน์อย่างมาก ใคร? ฉันรู้ว่าคุณสมาร์ทคนมีความคิดเริ่มต้นสำหรับคำตอบ

5
แนวทาง AIC ในการเลือกแบบจำลอง
ฉันมักจะใช้ BIC เป็นความเข้าใจของฉันก็คือว่ามันให้ความสำคัญกับความแตกต่างอย่างยิ่งกว่า AIC อย่างไรก็ตามฉันตัดสินใจที่จะใช้วิธีการที่ครอบคลุมมากขึ้นในตอนนี้และต้องการใช้ AIC ด้วยเช่นกัน ฉันรู้ว่า Raftery (1995) นำเสนอแนวทางที่ดีสำหรับความแตกต่างของ BIC: 0-2 อ่อนแอ 2-4 เป็นหลักฐานเชิงบวกสำหรับแบบจำลองที่ดีกว่า ฯลฯ ฉันดูในตำราเรียนและพวกเขาดูแปลก ๆ ใน AIC (ดูเหมือนความแตกต่างที่มากขึ้นนั้นอ่อนแอและความแตกต่างเล็กน้อยใน AIC หมายถึงแบบจำลองที่ดีกว่า) สิ่งนี้ขัดกับสิ่งที่ฉันรู้ว่าฉันได้รับการสอนแล้ว ความเข้าใจของฉันคือคุณต้องการ AIC ที่ต่ำกว่า ไม่มีใครทราบว่าแนวทางของ Raftery ขยายไปถึง AIC ด้วยหรือฉันอาจอ้างอิงแนวทางบางประการสำหรับ "ความแข็งแกร่งของหลักฐาน" สำหรับรุ่นหนึ่งเทียบกับอีกรุ่นหนึ่งหรือไม่? และใช่การตัดไม่ได้ยอดเยี่ยม (ฉันคิดว่ามันน่ารำคาญ) แต่มันมีประโยชน์เมื่อเปรียบเทียบหลักฐานประเภทต่าง ๆ

1
เปรียบเทียบสองรุ่นโดยใช้ฟังก์ชัน anova () ใน R
จากเอกสารสำหรับanova(): เมื่อได้รับลำดับของวัตถุ 'anova' ทดสอบแบบจำลองกับอีกแบบหนึ่งตามลำดับที่ระบุ ... การทดสอบแบบจำลองเทียบกันหมายความว่าอย่างไร และทำไมคำสั่งซื้อถึงมีความสำคัญ? นี่คือตัวอย่างจากบทช่วยสอน GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance Table Model 1: qt ~ as.numeric(snp1) Model 2: qt ~ snp1 Res.Df RSS Df Sum of Sq Pr(>Chi) 1 2372 2320 2 …
32 r  anova 

2
มีตัวอย่างความไม่เท่าเทียมแบบ Chebyshev ด้านเดียวหรือไม่?
ฉันสนใจในอสมการ Chebyshev รุ่นเดียวของ Cantelliต่อไปนี้: P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. โดยทั่วไปถ้าคุณทราบค่าเฉลี่ยและความแปรปรวนของประชากรคุณสามารถคำนวณขอบเขตบนความน่าจะเป็นในการสังเกตค่าที่แน่นอน (นั่นคือความเข้าใจของฉันอย่างน้อย) อย่างไรก็ตามฉันต้องการใช้ค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่างแทนค่าเฉลี่ยและความแปรปรวนประชากรจริง ฉันเดาว่าเนื่องจากสิ่งนี้จะทำให้เกิดความไม่แน่นอนมากขึ้นขอบเขตบนจะเพิ่มขึ้น มีความไม่เท่าเทียมกันคล้ายกับข้างบน แต่นั่นใช้ค่าเฉลี่ยตัวอย่างและความแปรปรวนหรือไม่ แก้ไข : อะนาล็อก "ตัวอย่าง" ของความไม่เท่าเทียมกันของ Chebyshev (ไม่ใช่ด้านเดียว) ได้ถูกแก้ไขแล้ว หน้าวิกิพีเดียมีรายละเอียดบางอย่าง อย่างไรก็ตามฉันไม่แน่ใจว่ามันจะแปลไปยังกรณีด้านเดียวที่ฉันมีข้างต้นได้อย่างไร

5
ทำไมโพลทางการเมืองถึงมีขนาดตัวอย่างขนาดใหญ่เช่นนี้?
เมื่อฉันดูข่าวฉันสังเกตเห็นว่าการสำรวจของ Gallup สำหรับสิ่งต่าง ๆ เช่นการเลือกตั้งประธานาธิบดีมีขนาดตัวอย่างมากกว่า 1,000 ตัวอย่าง จากสิ่งที่ฉันจำได้จากสถิติของวิทยาลัยคือขนาดตัวอย่าง 30 เป็นตัวอย่าง "มีขนาดใหญ่มาก" ดูเหมือนว่าขนาดตัวอย่างที่มากกว่า 30 นั้นไม่มีจุดหมายเนื่องจากผลตอบแทนลดลง

2
การถดถอยโลจิสติก: Bernoulli กับตัวแปรตอบสนองแบบทวินาม
ฉันต้องการทำการถดถอยโลจิสติกด้วยการตอบสนองทวินามต่อไปนี้และด้วยX1X1X_1และX2X2X_2เป็นตัวทำนายของฉัน ฉันสามารถนำเสนอข้อมูลเดียวกับการตอบสนองของ Bernoulli ในรูปแบบต่อไปนี้ ผลลัพธ์การถดถอยโลจิสติกสำหรับชุดข้อมูล 2 ชุดนี้ส่วนใหญ่จะเหมือนกัน ส่วนเบี่ยงเบนความเบี่ยงเบนและ AIC นั้นแตกต่างกัน (ความแตกต่างระหว่างการเบี่ยงเบนแบบ null และการเบี่ยงเบนที่เหลืออยู่เหมือนกันในทั้งสองกรณี - 0.228) ต่อไปนี้คือผลลัพธ์การถดถอยจาก R ชุดข้อมูลเรียกว่า binom.data และ bern.data นี่คือเอาต์พุตทวินาม Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z …


6
แบบจำลอง Bayesian ที่แข็งแกร่งสำหรับการประมาณขนาดของการแจกแจงแบบปกติเป็นอย่างไร
มีจำนวนของที่มีอยู่ประมาณที่แข็งแกร่งของขนาด เป็นตัวอย่างที่น่าสังเกตคือการเบี่ยงเบนสัมบูรณ์เฉลี่ยที่เกี่ยวข้องกับค่าเบี่ยงเบนมาตรฐานเป็นσ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 1.4826 ในกรอบการทำงานแบบเบย์มีหลายวิธีที่จะประเมินตำแหน่งของการกระจายตัวแบบปกติอย่างคร่าวๆ (เช่นการปนเปื้อนที่ผิดปกติโดยค่าผิดปกติ) ตัวอย่างเช่นใคร ๆ สามารถสันนิษฐานได้ว่าข้อมูลนั้นถูกแจกจ่าย ณ การแจกแจงหรือการแจก Laplace ตอนนี้คำถามของฉัน: แบบจำลองแบบเบย์สำหรับการวัดขนาดของการแจกแจงแบบปกติอย่างคร่าวๆในลักษณะที่แข็งแกร่งจะแข็งแกร่งในแง่เดียวกับ MAD หรือตัวประมาณที่คล้ายกัน เช่นเดียวกับกรณีของ MAD มันจะเป็นระเบียบถ้าโมเดล Bayesian สามารถเข้าใกล้ SD ของการแจกแจงแบบปกติในกรณีที่การกระจายของข้อมูลกระจายตามปกติ แก้ไข 1: ตัวอย่างทั่วไปของแบบจำลองที่มีความทนทานต่อการปนเปื้อน / ค่าผิดปกติเมื่อสมมติว่าข้อมูลyiYผมy_iเป็นเรื่องปกติประมาณใช้ในการแจกแจงเช่น: yi∼t(m,s,ν)Yผม~เสื้อ(ม.,s,ν)y_i \sim \mathrm{t}(m, s,\nu) โดยที่mม.mคือค่าเฉลี่ยsssคือขนาดและνν\nuคือระดับความอิสระ สำหรับนักบวชที่เหมาะสมบนm,sม.,sm, sและνν\nu , mม.mจะเป็นการประมาณค่าเฉลี่ยของyiYผมy_iที่จะทนทานต่อค่าผิดปกติ อย่างไรก็ตามsssจะไม่เป็นประมาณการที่สอดคล้องกันของ SD ของyiyiy_iเป็นsssขึ้นอยู่กับννν\nuตัวอย่างเช่นถ้าνν\nuจะได้รับการแก้ไขเป็น 4.0 และโมเดลด้านบนจะถูกติดตั้งกับตัวอย่างจำนวนมากจากการแจกแจงจากนั้น sจะอยู่ที่ประมาณ 0.82 สิ่งที่ฉันกำลังมองหาคือโมเดลที่แข็งแกร่งเช่นโมเดล t แต่สำหรับ SD แทนที่จะเป็น …

3
ชุดข้อมูลที่สร้างขึ้นเพื่อวัตถุประสงค์คล้ายกับชุดของ Anscombe
ฉันเพิ่งเจอชุดสี่ของ Anscombe (สี่ชุดข้อมูลที่มีสถิติเชิงพรรณนาเกือบจะแยกไม่ออก แต่ดูแตกต่างกันมากเมื่อถูกวางแผน) และฉันอยากรู้ว่ามีชุดข้อมูลที่รู้จักกันดีอื่น ๆ อีกมากหรือน้อยที่สร้างขึ้นเพื่อแสดงให้เห็นถึง ของการวิเคราะห์ทางสถิติ

3
การถดถอยโลจิสติกเคอร์เนลเทียบกับ SVM
ตามที่ทราบกันแล้ว SVM สามารถใช้วิธีเคอร์เนลเพื่อฉายจุดข้อมูลในพื้นที่ว่างที่สูงขึ้นเพื่อให้สามารถแยกจุดโดยช่องว่างเชิงเส้นได้ แต่เราสามารถใช้การถดถอยโลจิสติกส์เพื่อเลือกขอบเขตนี้ในพื้นที่เคอร์เนลดังนั้นข้อดีของ SVM คืออะไร เนื่องจาก SVM ใช้โมเดลแบบกระจายซึ่งมีเพียงเวกเตอร์สนับสนุนเหล่านั้นที่ให้การสนับสนุนเมื่อทำการทำนายนี่ทำให้ SVM เร็วขึ้นในการทำนายหรือไม่?
32 svm 

3
วิธีคำนวณความแปรปรวนแบบรวมรวมของกลุ่มตั้งแต่สองกลุ่มขึ้นไปที่ได้รับผลต่างกลุ่มที่รู้จักค่าเฉลี่ยและขนาดตัวอย่าง
สมมติว่ามีองค์ประกอบแบ่งออกเป็นสองกลุ่ม (และ ) ความแปรปรวนของกลุ่มแรกคือและความแปรปรวนของกลุ่มที่สองคือ\องค์ประกอบที่ตัวเองจะถือว่าเป็นที่ไม่รู้จัก แต่ฉันรู้ว่าหมายถึงและ\m+nม.+nm+nmม.mnnnσ2mσม.2\sigma_m^2σ2nσn2\sigma^2_nμmμม.\mu_mμnμn\mu_n มีวิธีคำนวณความแปรปรวนรวมหรือไม่σ2(m+n)σ(ม.+n)2\sigma^2_{(m+n)} ความแปรปรวนไม่ได้จะต้องมีความเป็นกลางเพื่อให้เป็นตัวหารและไม่ได้n-1)(m+n)(ม.+n)(m+n)(m+n−1)(ม.+n-1)(m+n-1)
32 variance  pooling 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.