สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
เราควรจะปรับการเปรียบเทียบหลายรายการเมื่อใช้ช่วงความมั่นใจหรือไม่
สมมติว่าเรามีการเปรียบเทียบสถานการณ์หลายอย่างเช่นการโพสต์เฉพาะกิจการอนุมานทางสถิติที่คู่หรือเหมือนการถดถอยพหุคูณที่เราจะทำทั้งหมดmmmเปรียบเทียบ สมมติว่าเราต้องการสนับสนุนการอนุมานในทวีคูณเหล่านี้โดยใช้ช่วงความมั่นใจ 1. เราใช้การปรับเปรียบเทียบหลายรายการกับ CIs หรือไม่ นั่นคือเช่นเดียวกับการเปรียบเทียบหลายครั้งบังคับให้นิยามใหม่ของαα\alphaกับอัตราข้อผิดพลาดที่ครอบครัวฉลาด (FWER) หรืออัตราการค้นพบที่ผิดพลาด (FDR) หมายถึงความมั่นใจ (หรือความน่าเชื่อถือ1หรือความไม่แน่นอนหรือการทำนายหรืออนุมาน ... เลือกช่วงเวลาของคุณ) รับการเปลี่ยนแปลงที่คล้ายกันโดยการเปรียบเทียบหลายรายการ? ฉันรู้ว่าคำตอบเชิงลบที่นี่จะสงสัยคำถามที่เหลืออยู่ของฉัน 2. มีการแปลตรงไปตรงมาของขั้นตอนการปรับเปรียบเทียบหลายรายการตั้งแต่การทดสอบสมมติฐานไปจนถึงการประมาณช่วงเวลาหรือไม่? ยกตัวอย่างเช่นการปรับเปลี่ยนจะมุ่งเน้นไปที่การเปลี่ยนCI-levelCI-level\text{CI-level}ระยะในช่วงความเชื่อมั่น: CIθ=(θ^±t(1−CI-level)/2σ^θ)CIθ=(θ^±t(1−CI-level)/2σ^θ)\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta}) ? 3. เราจะจัดการกับขั้นตอนการควบคุมขั้นตอนขึ้นหรือลงสำหรับ CIs ได้อย่างไร การปรับอัตราข้อผิดพลาดที่เหมาะกับครอบครัวบางส่วนจากวิธีการทดสอบสมมติฐานเพื่ออนุมานคือ 'คงที่' ในการปรับที่เหมือนกันอย่างแม่นยำจะทำกับการอนุมานที่แยกจากกัน ตัวอย่างเช่นการปรับ Bonferroni ทำโดยการเปลี่ยนเกณฑ์การปฏิเสธจาก: ปฏิเสธถ้าp≤α2p≤α2p\le \frac{\alpha}{2}ถึง: ปฏิเสธถ้าp≤α2mp≤α2mp\le \frac{\frac{\alpha}{2}}{m} , แต่การปรับระดับขั้นตอนของ Holm-Bonferroni ไม่ใช่ 'คงที่' แต่ทำโดย: การสั่งซื้อครั้งแรกค่าpppน้อยที่สุดไปหามากที่สุดและจากนั้น ปฏิเสธถ้าp≤1−(1−α2)1m+1−ip≤1−(1−α2)1m+1−ip\le 1 - (1- …

1
One-vs-All และ One-vs-One ใน svm?
อะไรคือความแตกต่างระหว่างตัวจําแนก SVM แบบหนึ่งต่อหนึ่งและแบบหนึ่งต่อหนึ่ง One-vs-all หมายถึงตัวจําแนกประเภทหนึ่งเพื่อจำแนกประเภท / หมวดหมู่ทั้งหมดของภาพใหม่และแบบหนึ่งต่อหนึ่งหมายถึงประเภท / หมวดหมู่ของภาพใหม่แต่ละประเภทที่มีตัวจําแนกที่แตกต่างกันหรือไม่ ตัวอย่างเช่นหากภาพใหม่ที่จะจัดเป็นวงกลมสี่เหลี่ยมสามเหลี่ยม ฯลฯ

1
บรรทัดฐานใดของข้อผิดพลาดในการสร้างใหม่จะถูกย่อให้เล็กสุดโดยเมทริกซ์การประมาณอันดับต่ำที่ได้จาก PCA
ได้รับ PCA (หรือ SVD) ประมาณของเมทริกซ์XXXกับเมทริกซ์Xเรารู้ว่าXที่ดีที่สุดคือประมาณต่ำยศXX^X^\hat XX^X^\hat XXXX นี่คือตามที่เหนี่ยวนำให้เกิด∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2บรรทัดฐาน (เช่นที่ใหญ่ที่สุดบรรทัดฐาน eigenvalue) หรือตามที่ Frobenius ∥⋅∥F∥⋅∥F\parallel \cdot \parallel_Fบรรทัดฐาน?

4
ความแตกต่างของเมล็ดใน SVM
ใครช่วยบอกความแตกต่างระหว่างเมล็ดใน SVM ได้ไหม: เชิงเส้น พหุนาม เกาส์เซียน (RBF) sigmoid เพราะอย่างที่เรารู้ว่าเคอร์เนลถูกใช้เพื่อแมปพื้นที่อินพุตของเราไปสู่พื้นที่คุณลักษณะมิติสูง และในพื้นที่ของคุณลักษณะนั้นเราพบว่าขอบเขตแบ่งเป็นเชิงเส้น .. พวกเขาจะใช้เมื่อใด (ภายใต้เงื่อนไขใด) และทำไม

7
การทดสอบสมมติฐานการกระจาย - มีจุดประสงค์อะไรถ้าคุณไม่สามารถ“ ยอมรับ” สมมติฐานว่างของคุณได้?
การทดสอบสมมติฐานต่าง ๆ เช่นการทดสอบ GOF, Kolmogorov-Smirnov, Anderson-Darling ฯลฯ ตามรูปแบบพื้นฐานนี้:χ2χ2\chi^{2} H0H0H_0 : ข้อมูลเป็นไปตามการแจกแจงที่กำหนด H1H1H_1 : ข้อมูลไม่เป็นไปตามการแจกแจงที่กำหนด โดยทั่วไปคนหนึ่งประเมินการอ้างสิทธิ์ว่าข้อมูลที่ให้มาบางส่วนมีการแจกแจงที่ให้มาบางส่วนและหากมีใครปฏิเสธข้อมูลนั้นไม่เหมาะสมสำหรับการแจกแจงที่กำหนดในระดับ αH0H0H_0αα\alpha แต่ถ้าเราไม่ปฏิเสธล่ะ ฉันได้รับเสมอสอนว่าหนึ่งไม่สามารถ "ยอมรับ"ดังนั้นโดยทั่วไปเราไม่ได้มีหลักฐานที่จะปฏิเสธH_0นั่นคือไม่มีหลักฐานว่าเราปฏิเสธว่าข้อมูลเป็นไปตามการกระจายที่กำหนดH 0 H 0H0H0H_0H0H0H_0H0H0H_0 ดังนั้นคำถามของฉันคืออะไรคือจุดของการทดสอบดังกล่าวถ้าเราไม่สามารถสรุปได้ว่าข้อมูลตามการกระจายที่กำหนดหรือไม่

2
ทำไม LIK ของ Scikit-Learn LDA จึงทำงานไม่ถูกต้องและมันคำนวณ LDA ผ่าน SVD ได้อย่างไร
ฉันใช้การวิเคราะห์เชิงเส้นตรง (LDA) จากไลบรารี่การscikit-learnเรียนรู้ของเครื่องจักร (Python) สำหรับการลดมิติข้อมูลและอยากรู้เกี่ยวกับผลลัพธ์เล็กน้อย ฉันสงสัยว่าตอนนี้สิ่งที่ LDA scikit-learnกำลังทำอยู่เพื่อให้ผลลัพธ์ดูแตกต่างจากเช่นวิธีการด้วยตนเองหรือ LDA ที่ทำใน R มันจะดีถ้ามีใครให้ข้อมูลเชิงลึกที่นี่ สิ่งที่สำคัญที่สุดคือการscikit-plotแสดงให้เห็นถึงความสัมพันธ์ระหว่างตัวแปรสองตัวที่ควรมีความสัมพันธ์ 0 สำหรับการทดสอบฉันใช้ชุดข้อมูลของ Iris และตัวจำแนกเชิงเส้น 2 ตัวแรกมีลักษณะดังนี้: IMG-1 LDA ผ่าน scikit เรียนรู้ สิ่งนี้สอดคล้องกับผลลัพธ์ที่พบในเอกสาร scikit-Learn ที่นี่ ตอนนี้ฉันผ่าน LDA ทีละขั้นตอนและได้ประมาณการที่แตกต่างกัน ฉันลองวิธีที่แตกต่างกันเพื่อค้นหาว่าเกิดอะไรขึ้น: IMG-2 LDA บนข้อมูลดิบ (ไม่มีการจัดกึ่งกลางไม่มีมาตรฐาน) และนี่คือแนวทางทีละขั้นตอนถ้าฉันสร้างมาตรฐาน (การทำให้เป็นมาตรฐาน z-score; ความแปรปรวนของหน่วย) ข้อมูลก่อน ฉันทำสิ่งเดียวกันโดยมีค่าเฉลี่ยอยู่กึ่งกลางเท่านั้นซึ่งควรนำไปสู่ภาพการฉายภาพแบบเดียวกัน (และสิ่งที่มันทำ) IMG-3 LDA ทีละขั้นตอนหลังจากการกำหนดค่าเฉลี่ยกึ่งกลางหรือกำหนดมาตรฐาน IMG-4 LDA ใน R (การตั้งค่าเริ่มต้น) …

5
ทำไมข้อความเหล่านี้ไม่เป็นไปตามหลักเหตุผลจาก 95% CI สำหรับค่าเฉลี่ย
ฉันได้อ่าน Hoekstra et al, 2014 กระดาษ "เข้าใจผิดที่แข็งแกร่งของช่วงความเชื่อมั่น" ซึ่งผมดาวน์โหลดได้จากเว็บไซต์ของ Wagenmakers ในหน้าถัดไปภาพต่อไปนี้จะปรากฏขึ้น ผู้เขียน False คำตอบที่ถูกต้องสำหรับข้อความเหล่านี้ทั้งหมด ฉันไม่แน่ใจว่าทำไมข้อความเหล่านี้เป็นเท็จและเท่าที่ฉันสามารถบอกได้ว่าส่วนที่เหลือของกระดาษไม่ได้พยายามอธิบายเรื่องนี้ ฉันเชื่อว่า 1-2 และ 4 ไม่ถูกต้องเพราะพวกเขายืนยันบางอย่างเกี่ยวกับมูลค่าที่น่าจะเป็นของค่าเฉลี่ยที่แท้จริงเมื่อค่าเฉลี่ยที่แท้จริงมีค่าแน่นอนที่ไม่ทราบ นี่คือความแตกต่างที่น่าเชื่อหรือไม่? เกี่ยวกับ 3 ฉันเข้าใจว่าไม่ได้หมายถึงการยืนยันเกี่ยวกับโอกาสที่สมมติฐานว่างไม่ถูกต้องแม้ว่าฉันจะไม่แน่ใจในเหตุผลที่ว่าทำไม ในทำนองเดียวกัน 6 ไม่สามารถเป็นจริงได้เพราะมันหมายความว่าค่าเฉลี่ยจริงกำลังเปลี่ยนจากการทดสอบเป็นการทดสอบ คนที่ฉันไม่เข้าใจจริงๆก็คือ 5. ทำไมจึงเป็นเช่นนั้นผิด หากฉันมีกระบวนการที่ 95% ของเวลาผลิต CIs ที่มีค่าเฉลี่ยจริงทำไมฉันไม่ควรพูดว่าฉันมีความมั่นใจ 95% ค่าประชากรอยู่ระหว่าง 0.1 ถึง 0.4 เป็นเพราะเราอาจมีข้อมูลพิเศษเกี่ยวกับตัวอย่างที่เราเพิ่งทำไปซึ่งจะทำให้เราคิดว่าน่าจะเป็นหนึ่งใน 5% ที่ไม่มีค่าเฉลี่ยจริงหรือ ตัวอย่างเช่น 0.13 รวมอยู่ในช่วงความมั่นใจและด้วยเหตุผลบางอย่าง 0.13 ไม่ถือว่าเป็นค่าที่น่าเชื่อถือภายในบริบทการวิจัยเฉพาะบางประการเช่นเนื่องจากค่านั้นจะขัดแย้งกับทฤษฎีก่อนหน้า ความมั่นใจหมายถึงอะไรในบริบทนี้

5
คำอธิบายอย่างง่ายของการลู่เข้าในการกระจายและการลู่เข้าในความน่าจะเป็น
อะไรคือความแตกต่างระหว่างสัญชาตญาณแบบสุ่มที่มาบรรจบกันของความน่าจะเป็นกับความแปรปรวนแบบสุ่มในการแจกแจง ฉันได้อ่านคำจำกัดความและสมการทางคณิตศาสตร์มากมาย แต่นั่นไม่ได้ช่วยจริงๆ (โปรดทราบว่าฉันเป็นนักศึกษาระดับปริญญาตรีสาขาเศรษฐศาสตร์กำลังศึกษา) ตัวแปรสุ่มสามารถรวมกันเป็นตัวเลขเดียวได้อย่างไร แต่ยังมาบรรจบกับการแจกแจงได้อย่างไร

1
ความสัมพันธ์ระหว่าง Bayes ผันแปรและ EM
ฉันอ่านบางที่ว่าวิธี Variational Bayes เป็นลักษณะทั่วไปของอัลกอริทึม EM แท้จริงแล้วส่วนซ้ำ ๆ ของอัลกอริทึมนั้นคล้ายกันมาก เพื่อทดสอบว่าอัลกอริทึม EM เป็นเวอร์ชันพิเศษของ Variational Bayes ฉันลองทำสิ่งต่อไปนี้: YYYคือข้อมูลคือชุดของตัวแปรแฝงและคือพารามิเตอร์ ในแปรผัน Bayes เราทำให้สามารถสร้างประมาณดังกล่าวว่าที) ในกรณีที่ s นั้นง่ายกว่าและมีการแจกแจงที่เข้าใจง่ายΘ P ( X , Θ | Y ) ≈ Q X ( X ) Q Θ ( Θ ) QXXXΘΘ\ThetaP( X, Θ | Y) ≈ QX( X) QΘ( Θ …


2
ประเมินควอนตัมของมูลค่าในเวกเตอร์
ฉันมีชุดจำนวนจริง ฉันต้องประมาณควอนไทล์ของจำนวนใหม่ มีวิธีที่สะอาดในการทำเช่นนี้ใน R หรือไม่? โดยทั่วไป? ฉันหวังว่านี่ไม่ใช่เรื่องเล็กน้อย ;-) ชื่นชมมากสำหรับการตอบสนองของคุณ PK
26 r 

2
การวินิจฉัยความผิดพลาดนั้นเป็นปัญหาเฉพาะเมื่อรวมคำศัพท์ไว้ด้วยกัน
ฉันใช้การถดถอยของเขตปกครองของสหรัฐอเมริกาและกำลังตรวจสอบความเป็นคู่ในตัวแปร 'อิสระ' ของฉัน การวินิจฉัยการถดถอยของ Belsley, Kuh และ Welsch แนะนำให้ดูที่ดัชนีสภาพและสัดส่วนการสลายตัวผลต่าง: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09 1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000 2 3.130 0.000 0.000 …

3
การหาเซนทรอยด์นั้นแตกต่างจากการหาค่าเฉลี่ยอย่างไร
เมื่อดำเนินการจัดกลุ่มแบบลำดับชั้นเราสามารถใช้หลายเมตริกเพื่อวัดระยะทางระหว่างกลุ่ม สองตัวชี้วัดดังกล่าวบ่งบอกถึงการคำนวณ centroids และวิธีการของจุดข้อมูลในกลุ่ม ความแตกต่างระหว่างค่าเฉลี่ยและเซนทรอยด์คืออะไร? นี่ไม่ใช่จุดเดียวกันในคลัสเตอร์ใช่ไหม
26 clustering  mean 

3
ฉันจะตีความ 'ความสัมพันธ์ของเอฟเฟกต์คงที่' ในผลลัพธ์ของ Glmer ได้อย่างไร
ฉันมีผลลัพธ์ต่อไปนี้: Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) AIC BIC logLik deviance 4062 4093 -2022 4044 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) 0.82453 0.90804 Number of obs: 239, groups: landscape, 45 Fixed effects: Estimate Std. Error …

2
การวิเคราะห์จำแนกสามรุ่น: ความแตกต่างและวิธีใช้
ใครสามารถอธิบายความแตกต่างและให้ตัวอย่างเฉพาะกับวิธีใช้การวิเคราะห์ทั้งสามนี้ได้หรือไม่ LDA - การวิเคราะห์จำแนกเชิงเส้น FDA - การวิเคราะห์จำแนกกลุ่มของชาวประมง การวิเคราะห์จำแนกประเภทกำลังสองแบบ QDA ฉันค้นหาทุกที่ แต่ไม่สามารถหาตัวอย่างจริงที่มีค่าจริงเพื่อดูว่ามีการใช้การวิเคราะห์เหล่านี้อย่างไรและมีการคำนวณข้อมูลมีเพียงสูตรจำนวนมากที่เข้าใจได้ยากโดยไม่มีตัวอย่างจริง ในขณะที่ฉันพยายามเข้าใจมันเป็นการยากที่จะแยกแยะว่าสมการ / สูตรใดเป็นของ LDA และของ FDA ตัวอย่างเช่นสมมติว่ามีข้อมูลดังกล่าว: x1 x2 class 1 2 a 1 3 a 2 3 a 3 3 a 1 0 b 2 1 b 2 2 b และสมมุติว่าข้อมูลการทดสอบบางอย่าง: x1 x2 2 4 3 5 3 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.