สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
เหตุใดการพิสูจน์ของวิลก์ในปี 1938 จึงไม่ทำงานกับแบบจำลองที่ผิดพลาด
ใน 1,938 กระดาษที่มีชื่อเสียง (" การกระจายตัวอย่างขนาดใหญ่ของอัตราส่วนความน่าจะเป็นสำหรับการทดสอบสมมติฐานประกอบ ", พงศาวดารของคณิตศาสตร์สถิติ, 9: 60-62), ซามูเอล Wilks มากระจาย asymptotic (อัตราส่วนความน่าจะเป็นบันทึก ) สำหรับสมมติฐานที่ซ้อนกันภายใต้สมมติฐานว่ามีการระบุสมมติฐานที่ใหญ่กว่าอย่างถูกต้อง การ จำกัด การแจกแจงคือχ 2 (ไค - สแควร์) ที่มีองศาอิสระh - mโดยที่hคือจำนวนพารามิเตอร์ในสมมติฐานขนาดใหญ่และm2×LLR2×LLR2 \times LLRχ2χ2\chi^2h−mh−mh-mhhhmmmคือจำนวนของพารามิเตอร์อิสระในสมมติฐานที่ซ้อนกัน อย่างไรก็ตามเป็นที่ทราบกันดีว่าผลลัพธ์นี้ไม่ได้เก็บไว้เมื่อสมมติฐานถูกสะกดผิด (กล่าวคือเมื่อสมมติฐานที่ใหญ่กว่านั้นไม่ใช่การแจกแจงที่แท้จริงสำหรับข้อมูลตัวอย่าง) มีใครอธิบายได้บ้างไหม สำหรับฉันแล้วดูเหมือนว่าการพิสูจน์ของวิลก์สควรจะทำงานกับการดัดแปลงเล็กน้อย มันขึ้นอยู่กับมาตรฐานเชิงเส้นกำกับของการประมาณความน่าจะเป็นสูงสุด (MLE) ซึ่งยังคงมีรูปแบบที่ผิดพลาด ความแตกต่างเพียงอย่างเดียวคือเมทริกซ์ความแปรปรวนของการ จำกัด หลายตัวแปรปกติ: สำหรับรุ่นที่ระบุไว้อย่างถูกต้องเราสามารถใกล้เคียงกับเมทริกซ์ความแปรปรวนร่วมกับผกผันฟิชเชอร์ข้อมูลเมทริกซ์กับ misspecification เราสามารถใช้การประมาณการแซนวิชของเมทริกซ์ความแปรปรวนร่วม ( J - 1 K J - 1 ) …

2
ฟังก์ชั่นการสูญเสียของอัตรากำไรขั้นต้นแข็ง SVM คืออะไร?
คนบอกว่าฟังก์ชั่นการสูญเสียการใช้ขอบนุ่ม SVM บานพับ:B)) อย่างไรก็ตามฟังก์ชั่นวัตถุประสงค์ที่แท้จริงที่ soft margin SVM พยายามลดให้น้อยที่สุดคือ \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) ผู้เขียนบางคนเรียกว่า\ | w \ | ^ 2 regularizer คำและ\ max (0,1-y_i (w ^ \ intercal x_i …

2
คำจำกัดความของเวลาความสัมพันธ์อัตโนมัติ (สำหรับขนาดตัวอย่างที่มีประสิทธิภาพ)
ฉันได้พบคำจำกัดความสองข้อในวรรณคดีสำหรับช่วงเวลาของความสัมพันธ์อัตโนมัติของอนุกรมเวลาที่ไม่คงที่: τa= 1 + 2 ∑k = 1∞ρkกับτข= 1 + 2 ∑k = 1∞| ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| ที่เป็นอัตที่ล่าช้าk kρk= Cov [ Xเสื้อ, Xt + h]Var [ Xเสื้อ]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk โปรแกรมประยุกต์หนึ่งของเวลาอัตคือการหา "ขนาดของกลุ่มตัวอย่างที่มีประสิทธิภาพ": ถ้าคุณมีสังเกตของอนุกรมเวลาและคุณรู้ว่าเวลาของอัตแล้วคุณสามารถหลอกว่าคุณมีτnnnττ\tau nเอฟเอฟ= nτneff=nτ n_\text{eff} = \frac{n}{\tau} ตัวอย่างอิสระแทนมีความสัมพันธ์กันเพื่อวัตถุประสงค์ในการหาค่าเฉลี่ย การประมาณจากข้อมูลนั้นไม่ใช่เรื่องไร้สาระ แต่มีวิธีการสองสามวิธี (ดูThompson …

3
การตีความทางสถิติของการกระจายเอนโทรปีสูงสุด
ฉันได้ใช้หลักการของเอนโทรปีสูงสุดเพื่อแสดงให้เห็นถึงการใช้การแจกแจงหลายอย่างในการตั้งค่าต่างๆ อย่างไรก็ตามฉันยังไม่สามารถกำหนดสถิติได้ซึ่งตรงกันข้ามกับข้อมูลทางทฤษฎีและการตีความเอนโทรปีสูงสุด กล่าวอีกนัยหนึ่งการเพิ่มค่าเอนโทรปีให้มากที่สุดหมายถึงคุณสมบัติทางสถิติของการแจกแจงอย่างไร มีใครวิ่งข้ามหรืออาจค้นพบตัวเองตีความทางสถิติของสูงสุด การกระจายของเอนโทรปีที่ไม่ได้ดึงดูดข้อมูล แต่เป็นเพียงแนวคิดที่น่าจะเป็น? เป็นตัวอย่างของการตีความดังกล่าว (ไม่จำเป็นต้องเป็นจริง): "สำหรับช่วงเวลาของความยาว L ตามอำเภอใจบนโดเมนของ RV (สมมติว่า 1-d ต่อเนื่องเพื่อความเรียบง่าย) ความน่าจะเป็นสูงสุดที่สามารถอยู่ในช่วงเวลานี้จะลดลง โดยการกระจายเอนโทรปีสูงสุด " ดังนั้นคุณจะเห็นว่าไม่มีการพูดคุยเกี่ยวกับ "ความเป็นสารสนเทศ" หรือแนวคิดทางปรัชญาอื่น ๆ

2
“ ความไว้วางใจ” หมายถึงอะไร (ในบริบทของสถิติ)
เมื่อฉัน Google สำหรับ "fisher" "fiducial" ... ฉันแน่ใจว่าจะได้รับความนิยมมาก แต่สิ่งที่ฉันติดตามทั้งหมดนั้นเกินกว่าความเข้าใจของฉัน เพลงฮิตทั้งหมดเหล่านี้ดูเหมือนจะมีสิ่งหนึ่งที่เหมือนกัน: พวกเขาทั้งหมดเขียนขึ้นสำหรับนักสถิติย้อมสีขนสัตว์ผู้คนแพร่หลายในทฤษฎีการปฏิบัติประวัติศาสตร์และตำนานของสถิติ (ดังนั้นไม่มีบัญชีเหล่านี้รบกวนจิตใจที่จะอธิบายหรือแสดงให้เห็นถึงสิ่งที่ฟิชเชอร์หมายถึง "ความไว้วางใจ" โดยไม่ต้องหันไปหามหาสมุทรของศัพท์แสงและ / หรือผ่านเจ้าชู้ไปบางคลาสสิกหรืออื่น ๆ ของวรรณกรรมสถิติคณิตศาสตร์) ฉันไม่ได้อยู่ในกลุ่มเป้าหมายที่เลือกซึ่งอาจเป็นประโยชน์ต่อสิ่งที่ฉันพบในเรื่องนี้และอาจอธิบายได้ว่าทำไมทุกคนที่ฉันพยายามเข้าใจว่า Fisher หมายถึง "fiducial" ชนกับกำแพงของ พูดไม่ชัดเข้าใจยาก ไม่มีใครรู้ว่ามีความพยายามที่จะอธิบายให้คนที่ไม่ใช่นักสถิติมืออาชีพที่ชาวฟิชเชอร์หมายถึง "ความไว้วางใจ" หรือไม่? ป.ล. ฉันรู้ว่าฟิชเชอร์เป็นเป้าหมายที่เคลื่อนไหวเมื่อมันมาถึงสิ่งที่เขาหมายถึงโดย "fiducial" แต่ฉันคิดว่าคำนี้ต้องมี "ความหมายคงที่" ซึ่งหมายความว่าไม่เช่นนั้นมันจะไม่ทำงาน (อย่างชัดเจน ทำ) เป็นคำศัพท์ที่เข้าใจโดยทั่วไปภายในฟิลด์

6
ทดสอบความแม่นยำสูงกว่าการฝึก จะตีความอย่างไร
ฉันมีชุดข้อมูลที่มีตัวอย่างไม่เกิน 150 รายการ (แบ่งเป็นการฝึกอบรม & ทดสอบ) พร้อมคุณสมบัติมากมาย (สูงกว่า 1,000) ฉันต้องเปรียบเทียบตัวแยกประเภทและวิธีการเลือกคุณสมบัติที่ทำงานได้ดีกับข้อมูล ดังนั้นฉันใช้วิธีการจำแนกสามประเภท (J48, NB, SVM) และ 2 วิธีการเลือกคุณสมบัติ (CFS, WrapperSubset) ด้วยวิธีการค้นหาที่แตกต่างกัน (Greedy, BestFirst) ในขณะที่การเปรียบเทียบฉันกำลังดูความแม่นยำในการฝึกอบรม (5-fold cross-fold) และความแม่นยำในการทดสอบ นี่คือหนึ่งในผลลัพธ์ของ J48 และ CFS-BestFirst: {"ความแม่นยำการฝึกอบรม": 95.83, "ความแม่นยำการทดสอบ": 98.21} ผลลัพธ์จำนวนมากเป็นเช่นนี้และใน SVM มีผลลัพธ์หลายอย่างที่ระบุว่าความแม่นยำในการทดสอบนั้นสูงกว่าการฝึกอบรมมาก (การฝึกอบรม: 60% การทดสอบ: 98%) ฉันจะตีความผลลัพธ์เหล่านี้อย่างมีความหมายได้อย่างไร ถ้ามันต่ำกว่านี้ฉันจะบอกว่ามันเกินกำลัง มีบางอย่างที่จะพูดเกี่ยวกับอคติและความแปรปรวนในกรณีนี้โดยดูผลลัพธ์ทั้งหมดหรือไม่ ฉันจะทำอย่างไรเพื่อให้การจำแนกประเภทนี้มีความหมายเช่นการเลือกชุดฝึกอบรมและชุดทดสอบอีกครั้งหรือเพียงแค่ใช้การตรวจสอบความถูกต้องของข้อมูลทั้งหมด ฉันมีการฝึกอบรม 73 & 58 กรณีทดสอบ …

4
เหตุใดนักวิจัยจึงใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าแทนที่จะทดสอบกับชุดการตรวจสอบ
ฉันได้อ่านรายงานวิจัยจำนวนมากเกี่ยวกับการจำแนกความเชื่อมั่นและหัวข้อที่เกี่ยวข้อง ส่วนใหญ่ใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าเพื่อฝึกฝนและทดสอบตัวจําแนก นั่นหมายความว่าจะไม่ทำการทดสอบ / ตรวจสอบแยกต่างหาก ทำไมถึงเป็นอย่างนั้น? อะไรคือข้อดี / ข้อเสียของวิธีการนี้โดยเฉพาะอย่างยิ่งสำหรับผู้ที่ทำวิจัย?

1
Kolmogorov-Smirnov ที่มีข้อมูลไม่ต่อเนื่อง: การใช้ dgof :: ks.test ใน R คืออะไร
คำถามเริ่มต้น: ฉันต้องการทดสอบว่าชุดข้อมูลที่แยกกันสองชุดนั้นมาจากการแจกแจงแบบเดียวกันหรือไม่ แนะนำให้ทำการทดสอบ Kolmogorov-Smirnov กับฉัน Conover ( สถิติ nonparametric ในทางปฏิบัติ , 3d) ดูเหมือนจะบอกว่าการทดสอบ Kolmogorov-Smirnov สามารถนำมาใช้เพื่อจุดประสงค์นี้ได้ แต่พฤติกรรมของมันคือ "อนุรักษ์นิยม" ด้วยการแจกแจงแบบแยกส่วนและฉันไม่แน่ใจว่าสิ่งที่นี่หมายถึงอะไร ความคิดเห็นของ DavidR สำหรับคำถามอื่นกล่าวว่า "... คุณยังสามารถทำการทดสอบระดับαตามสถิติ KS แต่คุณจะต้องค้นหาวิธีอื่นเพื่อให้ได้ค่าวิกฤตเช่นการจำลอง" รุ่นของ ks.test () ในแพคเกจ dgof การ R ( บทความ , Cran ) เพิ่มความสามารถบางอย่างที่ไม่ได้อยู่ในรุ่นเริ่มต้นของ ks.test () ในแพคเกจสถิติ เหนือสิ่งอื่นใด dgof :: ks.test รวมถึงพารามิเตอร์นี้: simulate.p.value: ตรรกะที่ระบุว่าจะคำนวณค่า p โดยการจำลอง …

2
ป่าสุ่มสำหรับการถดถอยหลายตัวแปร
ฉันมีปัญหาการถดถอยหลายเอาท์พุทที่มีคุณสมบัติเข้าและเอาท์พุท เอาต์พุตมีโครงสร้างความสัมพันธ์ที่ไม่เป็นเชิงเส้นที่ซับซ้อนdxdxd_xdYdYd_y ฉันต้องการใช้ป่าสุ่มในการถดถอย เท่าที่ฉันสามารถบอกได้ป่าสุ่มสำหรับการถดถอยจะทำงานกับผลลัพธ์เดียวดังนั้นฉันจะต้องฝึกป่าสุ่มdYdYd_y - หนึ่งป่าสำหรับแต่ละผลผลิต สิ่งนี้จะละเว้นความสัมพันธ์ของพวกเขา มีส่วนขยายไปยังฟอเรสต์แบบสุ่มที่คำนึงถึงความสัมพันธ์ของผลผลิตหรือไม่ บางทีบางอย่างเช่นGaussian ถดถอยกระบวนการสำหรับการเรียนรู้หลายงาน

3
การตีความหมายเลข AIC & BIC
ฉันกำลังมองหาตัวอย่างของวิธีการตีความ AIC (เกณฑ์ข้อมูล Akaike) และการประเมิน BIC (เกณฑ์ข้อมูล Bayesian) ความแตกต่างเชิงลบระหว่าง BIC สามารถตีความได้ว่าเป็นราคาต่อรองของรุ่นหนึ่งมากกว่าอีกรุ่นหนึ่งหรือไม่ ฉันจะใส่คำนี้เป็นคำพูดได้อย่างไร ตัวอย่างเช่น BIC = -2 อาจบอกเป็นนัยว่าอัตราต่อรองของแบบจำลองที่ดีกว่ารุ่นอื่น ๆ คือประมาณ ?อี2= 7.4e2=7.4e^2= 7.4 คำแนะนำพื้นฐานใด ๆ ที่ชื่นชมโดย neophyte นี้

4
การกำหนดค่าที่ขาดหายไปสำหรับ PCA
ฉันใช้prcomp()ฟังก์ชั่นเพื่อทำการ PCA (การวิเคราะห์องค์ประกอบหลัก) ใน R อย่างไรก็ตามมีข้อผิดพลาดในฟังก์ชั่นดังกล่าวว่าna.actionพารามิเตอร์ไม่ทำงาน ผมขอความช่วยเหลือใน StackOverflow ; สองผู้ใช้มีการเสนอสองวิธีที่แตกต่างกันในการจัดการกับNAค่า อย่างไรก็ตามปัญหาของทั้งสองวิธีคือเมื่อมีNAค่าแถวนั้นจะถูกดร็อปและไม่ถูกพิจารณาในการวิเคราะห์ PCA ชุดข้อมูลจริงของฉันคือเมทริกซ์ 100 x 100 และฉันไม่ต้องการเสียทั้งแถวเพียงเพราะมันมีNAค่าเดียว ตัวอย่างต่อไปนี้แสดงให้เห็นว่าprcomp()ฟังก์ชั่นไม่ได้คืนองค์ประกอบหลักใด ๆ สำหรับแถว 5 เนื่องจากมันมีNAค่า d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # …

1
การตั้งค่านอตในลูกบาศก์ลูกบาศก์ธรรมชาติใน R
ฉันมีข้อมูลที่มีฟีเจอร์ที่สัมพันธ์กันมากมายและฉันต้องการเริ่มต้นด้วยการลดฟีเจอร์ด้วยฟังก์ชั่นพื้นฐานที่ราบรื่นก่อนใช้ LDA ฉันพยายามใช้ลูกบาศก์ธรรมชาติในsplinesแพคเกจกับnsฟังก์ชัน ฉันจะไปเกี่ยวกับการกำหนดปมได้อย่างไร นี่คือรหัส R พื้นฐาน: library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) nsแต่ผมมีความคิดเกี่ยวกับวิธีการเลือกนอตไม่มี
23 r  splines 

4
ไลบรารี C ++ สำหรับการคำนวณเชิงสถิติ
ฉันมีอัลกอริทึม MCMC เฉพาะซึ่งฉันต้องการพอร์ตไปยัง C / C ++ การคำนวณราคาแพงส่วนใหญ่อยู่ใน C ผ่านทาง Cython แล้ว แต่ฉันต้องการให้มีตัวอย่างทั้งหมดเขียนด้วยภาษาที่รวบรวมเพื่อที่ฉันจะได้เขียน wrappers สำหรับ Python / R / Matlab / อะไรก็ได้ หลังจากแหย่ไปมาฉันก็เอนไปทาง C ++ ห้องสมุดที่เกี่ยวข้องสองแห่งที่ฉันรู้จักคือ Armadillo (http://arma.sourceforge.net/) และ Scythe (http://scythe.wustl.edu/) ทั้งคู่พยายามเลียนแบบบางแง่มุมของ R / Matlab เพื่อทำให้เส้นโค้งการเรียนรู้ง่ายขึ้นซึ่งฉันชอบมาก Scythe กำลังดีขึ้นเล็กน้อยกับสิ่งที่ฉันอยากทำ โดยเฉพาะอย่างยิ่ง RNG ของมันรวมถึงการกระจายจำนวนมากที่อาร์มาดิลโล่มีเพียงชุดเครื่องแบบ / ปกติซึ่งไม่สะดวก อาร์มาดิลโล่ดูเหมือนว่าจะอยู่ภายใต้การพัฒนาที่ค่อนข้างคึกคักในขณะที่ Scythe ได้เปิดตัวครั้งสุดท้ายในปี 2550 ดังนั้นสิ่งที่ฉันสงสัยคือถ้าใครมีประสบการณ์กับห้องสมุดเหล่านี้ - หรือคนอื่น …
23 mcmc  software  c++  computing 


3
ทำไมต้องแยกส่วนในทฤษฎีบทของเบย์
(ฉันเป็นมือใหม่ที่อยู่ในสถานะสถิติฉันเป็นนักคณิตศาสตร์และโปรแกรมเมอร์และฉันกำลังพยายามสร้างบางอย่างเช่นตัวกรองสแปมเบย์ไร้เดียงสา) ฉันสังเกตเห็นในหลาย ๆ สถานที่ที่ผู้คนมักจะทำลายตัวหารในสมการจากทฤษฎีบทของเบย์ ดังนั้นแทนที่จะเป็นเช่นนี้: P(A|B)⋅P(B)P(A)P(A|B)⋅P(B)P(A)\frac{P(A|B)\cdot P(B)}{P(A)} เรานำเสนอด้วยสิ่งนี้: P(A|B)⋅P(B)P(A|B)⋅P(B)+P(A|¬B)⋅P(¬B)P(A|B)⋅P(B)P(A|B)⋅P(B)+P(A|¬B)⋅P(¬B)\frac{P(A|B)\cdot P(B)}{P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)} คุณจะเห็นว่าการประชุมนี้จะใช้ในบทความวิกิพีเดียนี้และในการนี้โพสต์ที่ชาญฉลาดโดยทิมปีเตอร์ส ฉันงุนงงกับสิ่งนี้ เหตุใดตัวหารจึงถูกทำลายเช่นนี้ มันช่วยอะไรได้บ้าง? สิ่งที่มีความซับซ้อนมากเกี่ยวกับการคำนวณซึ่งในกรณีของตัวกรองสแปมจะเป็น?P(A)P(A)P(A)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not
23 bayesian 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.