สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เมื่อเป็นตัวแปรต่อเนื่อง
ฉันรู้ว่าตัวแปรอย่างต่อเนื่อง 0P[X=x]=0P[X=x]=0P[X=x]=0 แต่ฉันไม่สามารถจินตนาการได้ว่าถ้ามีจำนวนเป็นไปได้ไม่ จำกัด และทำไมความน่าจะเป็นของพวกเขาถึงน้อยมาก?xP[X=x]=0P[X=x]=0P[X=x]=0xxx

2
ปรีชาสักครู่เกี่ยวกับความหมายของการแจกแจงหรือไม่?
ใครสามารถให้สัญชาตญาณว่าทำไมช่วงเวลาที่สูงขึ้นของการแจกแจงความน่าจะเป็นเช่นช่วงเวลาที่สามและสี่สอดคล้องกับความเบ้และความโด่งตามลำดับ? ทำไมค่าเบี่ยงเบนเกี่ยวกับค่าเฉลี่ยยกกำลังสามหรือสี่จึงแปลเป็นตัวชี้วัดความเบ้และความโด่ง มีวิธีที่เกี่ยวข้องกับสิ่งนี้กับอนุพันธ์อันดับสามหรือสี่ของฟังก์ชันหรือไม่?pXpXp_X พิจารณาคำจำกัดความของความเบ้และความโด่ง: Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.\begin{matrix} \text{Skewness}(X) = \mathbb{E}[(X - \mu_{X})^3] / \sigma^3, \\[6pt] \text{Kurtosis}(X) = \mathbb{E}[(X - \mu_{X})^4] / \sigma^4. \\[6pt] \end{matrix} ในสมการเหล่านี้เราเพิ่มค่าปกติเป็นพลังงานและนำค่าที่คาดไว้ ไม่ชัดเจนสำหรับฉันว่าทำไมการเพิ่มตัวแปรสุ่มให้เป็นกำลังสี่ให้ "ความแหลม" หรือทำไมการเพิ่มตัวแปรสุ่มให้เป็นกำลังสามควรให้ "ความเบ้" ดูเหมือนว่ามหัศจรรย์และลึกลับ!(X−μ)/σ(X−μ)/σ(X-\mu)/\sigma

2
เซ่นแชนนอน Divergence vs Kullback-Leibler Divergence?
ฉันรู้ว่า KL Divergence นั้นไม่สมมาตรและไม่สามารถถือได้ว่าเป็นเมตริกอย่างเคร่งครัด ถ้าเป็นเช่นนั้นเหตุใดจึงใช้เมื่อ JS Divergence เป็นไปตามคุณสมบัติที่จำเป็นสำหรับการวัด มีสถานการณ์ที่ KL divergence สามารถใช้ แต่ไม่ใช่ JS Divergence หรือในทางกลับกัน?

3
ตัวอย่างการหลอกลวง log-sum-exp ใน Naive Bayes
ฉันได้อ่านเกี่ยวกับเคล็ดลับการบันทึกผลรวมในหลายสถานที่ (เช่นที่นี่และที่นี่ ) แต่ไม่เคยเห็นตัวอย่างของวิธีการใช้งานเฉพาะกับตัวจําแนก Naive Bayes (เช่นด้วยคุณสมบัติแยกและสองคลาส) เราจะหลีกเลี่ยงปัญหาอันเดอร์โฟลว์ที่เป็นตัวเลขโดยใช้เคล็ดลับนี้ได้อย่างไร?

2
SVM ชั้นหนึ่งคืออะไรและทำงานอย่างไร
ฉันใช้SVM ชั้นเดียวซึ่งถูกนำไปใช้ใน scikit-Learn สำหรับงานวิจัยของฉัน แต่ฉันไม่มีความเข้าใจในเรื่องนี้ ใครช่วยอธิบายคำอธิบายง่ายๆของSVM ชั้นเดียวได้ไหม?

6
การประมาณค่า MLE เทียบกับ MAP จะใช้เมื่อใด
MLE = การประมาณความน่าจะเป็นสูงสุด MAP = หลังที่ใหญ่ที่สุด MLE ใช้งานง่าย / ไร้เดียงสาโดยเริ่มจากความน่าจะเป็นของการสังเกตที่กำหนดพารามิเตอร์ (เช่นฟังก์ชันความน่าจะเป็น)และพยายามค้นหาพารามิเตอร์ที่สอดคล้องกับการสังเกตการณ์ที่สุด แต่มันไม่ได้คำนึงถึงความรู้เดิม MAP ดูเหมือนจะสมเหตุสมผลมากกว่าเนื่องจากคำนึงถึงความรู้เดิมผ่านกฎของเบย์ นี่คือคำถามที่เกี่ยวข้อง แต่คำตอบนั้นไม่ละเอียด /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d ดังนั้นฉันคิดว่า MAP ดีกว่ามาก นั่นถูกต้องใช่ไหม? และฉันควรใช้อันไหนดี?

2
overdispersion ในการถดถอยโลจิสติก
ฉันพยายามจัดการกับแนวคิดของการกระจายเกินเหตุในการถดถอยโลจิสติก ฉันได้อ่านว่าการกระจายข้อความเกินขนาดนั้นเกิดขึ้นเมื่อความแปรปรวนที่สังเกตได้ของตัวแปรตอบกลับสูงกว่าที่คาดไว้จากการแจกแจงทวินาม แต่หากตัวแปรทวินามมีได้เพียงสองค่า (1/0) จะมีค่าเฉลี่ยและความแปรปรวนได้อย่างไร ฉันสบายดีกับการคำนวณค่าเฉลี่ยและความแปรปรวนของความสำเร็จจากการทดลองหมายเลข Bernoulli แต่ฉันไม่สามารถคาดเดาแนวคิดเรื่องค่าเฉลี่ยและความแปรปรวนของตัวแปรที่มีค่าได้สองค่าเท่านั้น ทุกคนสามารถให้ภาพรวมที่ใช้งานง่ายของ: แนวคิดของค่าเฉลี่ยและความแปรปรวนในตัวแปรที่สามารถมีได้สองค่าเท่านั้น แนวคิดของการกระจายเกินเหตุในตัวแปรที่มีได้เพียงสองค่า

2
การตรวจสอบข้ามและการปรับพารามิเตอร์ให้เหมาะสม
ฉันมีคำถามเกี่ยวกับการปรับพารามิเตอร์ให้เหมาะสมเมื่อฉันใช้การตรวจสอบความถูกต้องไขว้ 10 เท่า ฉันต้องการถามว่าพารามิเตอร์ควรแก้ไขหรือไม่ในระหว่างการฝึกอบรมแบบจำลองของทุกครั้งหรือไม่เช่น (1) เลือกพารามิเตอร์ที่ปรับให้เหมาะสมหนึ่งชุดเพื่อความแม่นยำเฉลี่ยของการพับทุกครั้ง หรือ (2) ฉันควรค้นหาพารามิเตอร์ที่เหมาะสมสำหรับทุก ๆ เท่าและทุก ๆ เท่าจะใช้พารามิเตอร์ที่ปรับให้เหมาะสมที่สุดเพื่อฝึกโมเดลของมันจากนั้นทดสอบข้อมูลการทดสอบของโฟลด์ตามลำดับและในที่สุดก็เฉลี่ยความแม่นยำของทุกเท่า วิธีใดที่ถูกต้องสำหรับการตรวจสอบข้าม ขอบคุณมาก.

1
ทำไมข้อผิดพลาด“ การปรับโดยประมาณ 'a' คือ NA” ที่สร้างขึ้นจากแพ็คเกจการบูต R เมื่อคำนวณช่วงความเชื่อมั่นโดยใช้วิธีการ bca
ฉันมีเวกเตอร์ของตัวเลขที่ฉันได้อัปโหลดไว้ที่นี่ (... / code / MyData.Rdata) โดยใช้ dput ฉันต้องการรับ bca ci ดังนั้นฉันจึงเขียนรหัสนี้: my.mean <- function(dat, idx){ return (mean(dat[idx], na.rm = TRUE)) } boot.out<-boot(data=my.data, statistic = my.mean, R=1000) แต่เมื่อฉันเรียกใช้สิ่งต่อไปนี้ฉันจะได้รับสิ่งนี้: > boot.ci(boot.out) Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o, : estimated adjustment 'a' is NA …
14 r  bootstrap 

3
การคำนวณที่มีประสิทธิภาพเชิงคำนวณของโหมดหลายตัวแปร
เวอร์ชั่นสั้น: อะไรคือวิธีที่มีประสิทธิภาพมากที่สุดในการคำนวณโหมดของชุดข้อมูลหลายมิติตัวอย่างจากการแจกแจงแบบต่อเนื่อง รุ่นยาว: ฉันมีชุดข้อมูลที่ฉันต้องการประเมินโหมดของ โหมดไม่ตรงกับค่าเฉลี่ยหรือค่ามัธยฐาน ตัวอย่างที่แสดงด้านล่างนี้เป็นตัวอย่าง 2D แต่โซลูชัน ND น่าจะดีกว่า: ปัจจุบันวิธีการของฉันคือ คำนวณการประมาณความหนาแน่นของเคอร์เนลบนกริดเท่ากับความละเอียดที่ต้องการของโหมด มองหาจุดที่คำนวณมากที่สุด เห็นได้ชัดว่านี่เป็นการคำนวณ KDE ในจุดที่ไม่น่าเชื่อถือซึ่งเป็นสิ่งที่ไม่ดีโดยเฉพาะอย่างยิ่งหากมีจุดข้อมูลจำนวนมากที่มีมิติสูงหรือฉันคาดหวังความละเอียดที่ดีในโหมด ทางเลือกอื่นคือใช้การจำลองการอบอ่อนอัลกอริธึมทางพันธุกรรม ฯลฯ เพื่อค้นหาจุดสูงสุดทั่วโลกใน KDE คำถามคือว่ามีวิธีการคำนวณที่ชาญฉลาดกว่านี้หรือไม่?

2
การประมาณความน่าจะเป็นเพื่อการอยู่รอดใน R
จากตัวอย่างของเวลาการอยู่รอดฉันต้องการประเมินความน่าจะเป็นของเวลาที่มีชีวิตรอดสำหรับบางเฉพาะโดยใช้เครื่องมือประเมิน Kaplan-Meier เป็นไปได้ไหมที่จะทำเช่นนี้? โปรดทราบว่าไม่จำเป็นต้องเป็นเวลาของเหตุการณ์nnnเสื้อเสื้อtเสื้อเสื้อtRเสื้อเสื้อt
14 r  kaplan-meier 

1
ช่วงความเชื่อมั่นด้านเดียวสามารถมีความคุ้มครองได้ 95% หรือไม่
ฉันสงสัยว่าได้รับสมมติฐานด้านเดียว (ด้านเดียว) ที่มีระดับอัลฟ่า.05เราจะพูดถึงช่วงความมั่นใจ95% ได้ หรือไม่? ตัวอย่างเช่นเราสามารถสร้างช่วงความเชื่อมั่น " ด้านเดียว"และ"สองด้าน"แยกกันสำหรับการทดสอบ Z หรือ t ด้านเดียวได้หรือไม่? สิ่งที่จะเป็น"การตีความ" ของแต่ละช่วงความเชื่อมั่นเหล่านี้ได้รับการทดสอบด้านเดียว? ฉันสับสนเล็กน้อยเกี่ยวกับเรื่องนี้?

2
การจำแนกประเภทที่มีป้ายกำกับที่มีเสียงดัง?
ฉันพยายามฝึกอบรมเครือข่ายประสาทเทียมเพื่อจัดหมวดหมู่ แต่ป้ายกำกับที่ฉันมีเสียงค่อนข้างดัง (ประมาณ 30% ของป้ายกำกับผิด) การสูญเสียข้ามเอนโทรปีใช้งานได้จริง แต่ฉันสงสัยว่ามีทางเลือกอื่นที่มีประสิทธิภาพมากกว่าในกรณีนี้หรือไม่? หรือการสูญเสียข้ามเอนโทรปีเหมาะสมที่สุดหรือไม่ ฉันไม่แน่ใจ แต่ฉันคิดว่าค่อนข้าง "ตัด" การสูญเสียข้ามเอนโทรปีดังนั้นการสูญเสียจุดข้อมูลหนึ่งจุดจะไม่เกินขอบเขตบน ขอบคุณ! ปรับปรุง ตามคำตอบของลูคัสผมได้ต่อไปนี้สำหรับสัญญาซื้อขายล่วงหน้าสำหรับการส่งออกการทำนายและใส่ของฟังก์ชัน softmax Zดังนั้นฉันเดาว่ามันคือการเพิ่มเทอมที่ราบรื่นลงในอนุพันธ์ สัญญาซื้อขายล่วงหน้าสำหรับการสูญเสียข้ามเอนโทรปีดั้งเดิม: z 3yyyzzz Pฉัน=0.3/N+0.7YฉันL=-Σทีฉันเข้าสู่ระบบ(Pฉัน)∂ลิตร37N37N\frac{3}{7N} pi=0.3/N+0.7yipi=0.3/N+0.7yip_i=0.3/N+0.7y_i l=−∑tilog(pi)l=−∑tilog⁡(pi)l=-\sum t_i\log(p_i) ∂l∂l∂yi=−ti∂log(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi∂l∂yi=−ti∂log⁡(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i} ∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i}∂l∂yi=−tiyi∂l∂yi=−tiyi\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i} ∂l∂zi=yi−ti∂l∂zi=yi−ti\frac{\partial l}{\partial z_i}=y_i-t_i โปรดแจ้งให้เราทราบหากฉันผิด ขอบคุณ! อัปเดต ฉันเพิ่งอ่านบทความโดย Googleที่ใช้สูตรเดียวกันกับคำตอบของลูคัส แต่มีการตีความที่แตกต่างกัน ในส่วนที่ 7 การทำให้เป็นมาตรฐานโมเดลผ่านการปรับให้เรียบของฉลาก อย่างไรก็ตามการสูญเสียเอนโทรปีนี้อาจทำให้เกิดปัญหาสองประการ …

4
ข้อผิดพลาดกำลังสองเฉลี่ยสามารถใช้สำหรับการจำแนกประเภทได้หรือไม่
ฉันรู้สูตรข้อผิดพลาดกำลังสองเฉลี่ยและวิธีคำนวณ เมื่อเราพูดถึงการถดถอยเราสามารถคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยได้ อย่างไรก็ตามเราสามารถพูดคุยเกี่ยวกับ MSE สำหรับปัญหาการจำแนกประเภทและวิธีคำนวณได้อย่างไร

2
การทดสอบ Mann-Whitney U ด้วยขนาดตัวอย่างที่ไม่เท่ากัน
ฉันมีสองกลุ่มที่ไม่เท่ากัน (94 และ 52) และต้องการเรียกใช้การทดสอบ Mann-Whitney U เพื่อดูว่าคะแนนของพวกเขาในตัวแปรที่วัดได้แตกต่างกันหรือไม่ ฉันเห็นว่ามันโอเคที่จะทำอย่างไรกับ Kruskall-Wallis มันใช้กับ Mann-Whitney ได้ไหม?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.