สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
คำอธิบายของคนธรรมดาเกี่ยวกับการเซ็นเซอร์ในการวิเคราะห์การเอาตัวรอด
ฉันได้อ่านเกี่ยวกับการเซ็นเซอร์ว่ามันคืออะไรและมันจำเป็นต้องนำมาใช้ในการวิเคราะห์การอยู่รอด แต่ฉันต้องการที่จะได้ยินคำจำกัดความทางคณิตศาสตร์ของมันน้อยลง ทุกคนสามารถให้คำอธิบายแก่ฉันเกี่ยวกับ 1) การเซ็นเซอร์และ 2) มันมีผลอย่างไรกับเส้นโค้ง Kaplan-Meier และการถดถอยของ Cox

2
พิสูจน์ว่าการกระจายเอนโทรปีสูงสุดด้วยเมทริกซ์ความแปรปรวนคงที่คือเกาส์
ฉันพยายามที่จะทำให้หัวของฉันรอบต่อไปนี้เป็นข้อพิสูจน์ว่าเกาส์มีเอนโทรปีสูงสุด ขั้นตอนที่ติดดาวทำให้รู้สึกอย่างไร ความแปรปรวนร่วมที่เฉพาะเจาะจงจะแก้ไขช่วงเวลาที่สองเท่านั้น เกิดอะไรขึ้นกับช่วงเวลาที่สามสี่และห้า?

1
การย่อยสลายความแปรปรวนแบบอคติ
ในส่วนที่ 3.2 ของการจดจำรูปแบบของอธิการและการเรียนรู้ของเครื่องจักรเขากล่าวถึงการสลายตัวของความแปรปรวนแบบอคติโดยระบุว่าสำหรับฟังก์ชันการสูญเสียกำลังสองการสูญเสียที่คาดหวังสามารถแยกย่อยเป็นระยะอคติกำลังสอง (ซึ่งอธิบายว่า รุ่น), คำแปรปรวน (ซึ่งอธิบายการแพร่กระจายของการทำนายรอบค่าเฉลี่ย) และคำที่มีเสียงรบกวน (ซึ่งให้เสียงที่แท้จริงของข้อมูล) สามารถทำการไบอัส - แปรปรวนการสลายตัวด้วยฟังก์ชั่นการสูญเสียอื่น ๆ นอกเหนือจากการสูญเสียกำลังสอง? สำหรับชุดข้อมูลโมเดลที่กำหนดมีมากกว่าหนึ่งโมเดลที่มีการสูญเสียที่คาดว่าจะต่ำกว่าทุกโมเดลและถ้าเป็นเช่นนั้นนั่นหมายความว่าอาจมีการผสมผสานระหว่างอคติและความแปรปรวนต่างกัน หากแบบจำลองเกี่ยวข้องกับการทำให้เป็นมาตรฐานจะมีความสัมพันธ์ทางคณิตศาสตร์ระหว่างอคติความแปรปรวนและสัมประสิทธิ์การทำให้เป็นมาตรฐานหรือไม่?λλ\lambda คุณจะคำนวณอคติได้อย่างไรถ้าคุณไม่รู้รูปแบบที่แท้จริง? มีสถานการณ์ที่เหมาะสมหรือไม่ที่จะลดอคติหรือความแปรปรวนมากกว่าการสูญเสียที่คาดหวังไว้ (ผลรวมของความเอนเอียงและความแปรปรวนกำลังสอง)

4
สร้างกราฟตัวอย่างขนาดเล็ก
ฉันมีชุดข้อมูลขนาดเล็กจำนวน 14 ครั้งเพื่อให้งานเสร็จสมบูรณ์ อย่างไรก็ตามฉันมีปัญหาในการหากราฟที่เหมาะสมเพื่อใช้ในการทำกราฟข้อมูล หากตัวอย่างมีขนาดใหญ่กว่าฉันจะใช้พล็อตกล่องหรือฮิสโตแกรม แต่ไม่แน่ใจว่าควรใช้ในกรณีนี้เมื่อกลุ่มตัวอย่างมีขนาดเล็กหรือไม่ อัปเดต: เวลาคือ 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.9,4.9,4.9,4.9,4.2


1
ANOVA นั้นขึ้นอยู่กับวิธีการของช่วงเวลาและไม่ใช่โอกาสสูงสุดหรือไม่?
ฉันเห็นว่ามีการพูดถึงในสถานที่ต่าง ๆ ที่ ANOVA ทำการประมาณโดยใช้วิธีการของช่วงเวลา ฉันสับสนกับคำยืนยันดังกล่าวเพราะแม้ว่าฉันจะไม่คุ้นเคยกับวิธีการของช่วงเวลา แต่ความเข้าใจของฉันคือมันเป็นสิ่งที่แตกต่างจากและไม่เทียบเท่ากับวิธีการของโอกาสสูงสุด; ในอีกทางหนึ่งการวิเคราะห์ความแปรปรวนสามารถถูกมองว่าเป็นการถดถอยเชิงเส้นด้วยตัวพยากรณ์เชิงหมวดหมู่และการประมาณค่า OLS ของพารามิเตอร์การถดถอยเป็นโอกาสสูงสุด ดังนั้น: สิ่งที่มีคุณสมบัติขั้นตอนการวิเคราะห์ความแปรปรวนเป็นวิธีการของช่วงเวลา? ระบุว่า ANOVA นั้นเทียบเท่ากับ OLS ที่มีตัวพยากรณ์หมวดหมู่ไม่ได้หรือไม่? หากทั้งสองวิธีใดที่กลายเป็นสิ่งที่เทียบเท่าในกรณีพิเศษของ ANOVA ปกติจะมีสถานการณ์ ANOVA เฉพาะบางอย่างหรือไม่เมื่อความแตกต่างมีความสำคัญ? การออกแบบที่ไม่สมดุล? มาตรการซ้ำแล้วซ้ำอีก? การออกแบบแบบผสม (ระหว่างวิชา + ภายในวิชา)?

1
ทฤษฎีบทเบย์ที่มีเงื่อนไขหลายข้อ
ฉันไม่เข้าใจว่าสมการนี้มาจากอะไร P(I|M1∩M2)≤P(I)P(I′)⋅P(M1|I)P(M2|I)P(M1|I′)P(M2|I′)P(I|M1∩M2)≤P(I)P(I′)⋅P(M1|I)P(M2|I)P(M1|I′)P(M2|I′)P(I|M_{1}\cap M_{2}) \leq \frac{P(I)}{P(I')}\cdot \frac{P(M_{1}|I)P(M_{2}|I)}{P(M_{1}|I')P(M_{2}|I')} สมการนี้มาจากบทความ "Trial by Probability" ซึ่งเป็นกรณีตัวอย่างของ OJ Simpson ซึ่งเป็นปัญหาตัวอย่าง จำเลยอยู่ระหว่างการพิจารณาคดีฆาตกรรมสองครั้งและมีหลักฐานสองประการแนะนำเขา M 2ฉันฉัน′M1M1M_{1}เป็นเหตุการณ์ที่เลือดของจำเลยตรงกับหยดเลือดที่พบในที่เกิดเหตุ เป็นเหตุการณ์ที่เลือดของเหยื่อจับคู่กับถุงเท้าของจำเลย สมมติว่ามีความผิดการเกิดขึ้นของหลักฐานหนึ่งเพิ่มความน่าจะเป็นของคนอื่น เป็นเหตุการณ์ที่จำเลยเป็นผู้บริสุทธิ์ในขณะที่เป็นเมื่อเขามีความผิดM2M2M_{2}IIII′I′I' เรากำลังพยายามที่จะทำให้เพดานของความน่าจะเป็นที่จำเลยเป็นผู้บริสุทธิ์ที่ได้รับหลักฐานทั้งสอง ได้รับค่าตัวแปรบางตัว แต่สิ่งที่ฉันสนใจคือวิธีที่ได้มาของสมการ ฉันพยายาม แต่ไม่มีที่ไหนเลย ใช่ฉันได้ตรวจสอบ 'คำถามที่อาจมีคำตอบของคุณแล้ว'

1
ทำไม Daniel Wilks (2011) ถึงบอกว่าการถดถอยองค์ประกอบหลัก“ จะลำเอียง”?
ในวิธีการทางสถิติในวิทยาศาสตร์บรรยากาศ , Daniel Wilks ตั้งข้อสังเกตว่าการถดถอยเชิงเส้นหลายครั้งสามารถนำไปสู่ปัญหาได้หากมีความสัมพันธ์ที่แข็งแกร่งมากระหว่างตัวทำนาย (รุ่นที่ 3, หน้า 559-560): พยาธิสภาพที่สามารถเกิดขึ้นได้ในการถดถอยเชิงเส้นหลายครั้งคือชุดของตัวแปรทำนายที่มีความสัมพันธ์ซึ่งกันและกันอย่างรุนแรงอาจส่งผลให้การคำนวณความสัมพันธ์การถดถอยที่ไม่เสถียร ( ... ) จากนั้นเขาแนะนำการถดถอยองค์ประกอบหลัก: แนวทางในการแก้ไขปัญหานี้คือการแปลงตัวทำนายเป็นองค์ประกอบหลักของพวกเขาก่อนความสัมพันธ์ระหว่างที่เป็นศูนย์ จนถึงตอนนี้ดีมาก แต่ต่อไปเขาสร้างข้อความบางส่วนที่เขาไม่ได้อธิบาย (หรืออย่างน้อยก็ไม่มีรายละเอียดเพียงพอสำหรับฉันที่จะเข้าใจ): หากส่วนประกอบหลักทั้งหมดถูกเก็บรักษาไว้ในการถดถอยส่วนประกอบหลักแล้วจะไม่มีสิ่งใดได้รับจากกำลังสองน้อยที่สุดที่เป็นไปตามชุดตัวทำนายแบบเต็ม (.. ) และ: เป็นไปได้ที่จะแสดงการถดถอยหลัก - องค์ประกอบใหม่ในแง่ของตัวทำนายดั้งเดิม แต่ผลลัพธ์โดยทั่วไปจะเกี่ยวข้องกับตัวแปรตัวทำนายดั้งเดิมทั้งหมดแม้ว่าจะมีการใช้ตัวทำนายองค์ประกอบหลักเพียงหนึ่งหรือสามตัวเท่านั้น การถดถอยที่สร้างขึ้นใหม่นี้จะลำเอียงแม้ว่าบ่อยครั้งที่ความแปรปรวนน้อยกว่ามากส่งผลให้ MSE โดยรวมมีขนาดเล็กลง ฉันไม่เข้าใจสองประเด็นนี้ แน่นอนถ้าส่วนประกอบหลักทั้งหมดยังคงอยู่เราจะใช้ข้อมูลเดียวกันกับตอนที่เราใช้ตัวทำนายในพื้นที่ดั้งเดิม อย่างไรก็ตามปัญหาของความสัมพันธ์ซึ่งกันและกันจะถูกลบออกโดยการทำงานในพื้นที่องค์ประกอบหลัก เราอาจยังมีกำลังมากเกินไป แต่นั่นเป็นปัญหาเดียวหรือไม่ ทำไมไม่มีอะไรได้รับ? ประการที่สองแม้ว่าเราจะตัดทอนส่วนประกอบหลัก (อาจเป็นการลดเสียงรบกวนและ / หรือเพื่อป้องกันการโอเวอร์โหลด) ทำไมและวิธีนี้นำไปสู่การถดถอยที่สร้างใหม่แบบเอนเอียง? ลำเอียงในทางใด? แหล่งที่มาของหนังสือ: Daniel S. Wilks, วิธีการทางสถิติในวิทยาศาสตร์บรรยากาศ, รุ่นที่สาม, 2011. ชุดธรณีฟิสิกส์สากลเล่มที่ 100, …
13 regression  pca  bias 


2
การทำนาย 'เกณฑ์ทอง' เพื่อตัดสินความสามารถของนักสถิติหรือไม่?
ฉันอ่านโมเดลเชิงเส้นตำราเรียนของ Faraway ที่มี R (รุ่นที่ 1) เมื่อสุดสัปดาห์ที่แล้ว Faraway มีบทที่เรียกว่า "กลยุทธ์เชิงสถิติและความไม่แน่นอนของแบบจำลอง" เขาอธิบาย (หน้า 158) ว่าเขาสร้างข้อมูลปลอมโดยใช้แบบจำลองที่ซับซ้อนมากจากนั้นเขาขอให้นักเรียนทำแบบจำลองข้อมูลและเปรียบเทียบผลลัพธ์ที่ทำนายของนักเรียนเทียบกับผลการอ่าน น่าเสียดายที่นักเรียนส่วนใหญ่ติดตั้งข้อมูลการทดสอบมากเกินไปและให้ค่าที่ทำนายไว้ทั้งหมด เพื่ออธิบายปรากฏการณ์นี้เขาเขียนสิ่งที่น่าประทับใจสำหรับฉัน: "เหตุผลที่แบบจำลองแตกต่างกันมากคือนักเรียนใช้วิธีการต่าง ๆ ตามลำดับที่แตกต่างกันบางคนเลือกการเปลี่ยนแปลงก่อนที่จะเปลี่ยนรูปแบบและวิธีอื่น ๆ ตรงกันข้ามบางวิธีทำซ้ำหลังจากเปลี่ยนรูปแบบและคนอื่นไม่ได้ นักเรียนหลายคนใช้และไม่พบสิ่งผิดปกติอย่างชัดเจนกับสิ่งที่พวกเขาทำนักเรียนคนหนึ่งทำผิดในการคำนวณค่าของเขาหรือเธอ แต่ก็ไม่มีอะไรผิดปกติในส่วนที่เหลือประสิทธิภาพของงานมอบหมายนี้ไม่ได้แสดงให้เห็น ความสัมพันธ์ใด ๆ กับสิ่งนั้นในการสอบ " ฉันได้รับการศึกษาว่าความแม่นยำในการทำนายแบบจำลองนั้นเป็น 'เกณฑ์ทองคำ' สำหรับเราในการเลือกประสิทธิภาพของแบบจำลองที่ดีที่สุด ถ้าฉันไม่เข้าใจผิดนี่เป็นวิธียอดนิยมที่ใช้ในการแข่งขัน Kaggle แต่ที่นี่ Faraway ได้สังเกตเห็นบางอย่างของธรรมชาติที่แตกต่างกันซึ่งการทำนายแบบจำลองนั้นไม่สามารถทำได้ด้วยความสามารถของนักสถิติที่เกี่ยวข้อง กล่าวอีกนัยหนึ่งว่าเราสามารถสร้างแบบจำลองที่ดีที่สุดในแง่ของพลังการทำนายได้หรือไม่นั้นไม่ได้ตัดสินจากประสบการณ์ของเรา แต่จะถูกกำหนดโดย 'ความไม่แน่นอนของโมเดล' (โชคไม่ดี?) คำถามของฉันคือ: สิ่งนี้เป็นจริงในการวิเคราะห์ข้อมูลในชีวิตจริงเช่นกัน? หรือฉันสับสนกับสิ่งที่พื้นฐานมาก ๆ เพราะถ้าสิ่งนี้เป็นจริงแล้วความหมายของการวิเคราะห์ข้อมูลจริงนั้นยิ่งใหญ่: โดยไม่ทราบว่า "แบบจำลองของจริง" ที่อยู่เบื้องหลังข้อมูลนั้นไม่มีความแตกต่างที่สำคัญระหว่างงานที่ทำโดยนักสถิติที่มีประสบการณ์ / ไม่มีประสบการณ์: ทั้งคู่ …

1
อธิบายว่า "eigen" ช่วยเปลี่ยนเมทริกซ์ได้อย่างไร
คำถามของฉันที่เกี่ยวข้องกับเทคนิคการคำนวณใช้ประโยชน์ในหรือgeoR:::.negloglik.GRFgeoR:::solve.geoR ในการตั้งค่าโมเดลเชิงเส้นผสม: โดยที่และเป็นเอฟเฟกต์แบบคงที่และแบบสุ่มตามลำดับ นอกจากนี้β b Σ = cov ( Y )Y=Xβ+Zb+eY=Xβ+Zb+e Y=X\beta+Zb+e ββ\betabbbΣ=cov(Y)Σ=cov(Y)\Sigma=\text{cov}(Y) เมื่อประเมินผลกระทบมีความจำเป็นต้องคำนวณ ซึ่งปกติสามารถทำได้โดยใช้สิ่งที่ชอบแต่บางครั้งเกือบจะไม่สามารถย้อนกลับได้ดังนั้นให้ใช้เล่ห์เหลี่ยม(X′Σ−1X)−1X′Σ−1Y(X′Σ−1X)−1X′Σ−1Y (X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1} Y solve(XtS_invX,XtS_invY)(X′Σ−1X)(X′Σ−1X)(X'\Sigma^{-1}X)geoR t.ei=eigen(XtS_invX) crossprod(t(t.ei$vec)/sqrt(t.ei$val))%*%XtS_invY (สามารถเห็นได้ในgeoR:::.negloglik.GRFและgeoR:::.solve.geoR) ซึ่งจำนวนเงินที่จะเน่าเฟะ ที่และดังนั้น (X′Σ−1X)=ΛDΛ−1(X′Σ−1X)=ΛDΛ−1 (X'\Sigma^{-1}X)=\Lambda D \Lambda^{-1}\\ Λ′=Λ−1Λ′=Λ−1\Lambda'=\Lambda^{-1}(X′Σ−1X)−1=(D−1/2Λ−1)′(D−1/2Λ−1)(X′Σ−1X)−1=(D−1/2Λ−1)′(D−1/2Λ−1) (X'\Sigma^{-1}X)^{-1}=(D^{-1/2}\Lambda^{-1})'(D^{-1/2}\Lambda^{-1}) สองคำถาม: วิธีการที่ไม่สลายตัวไอเกนนี้จะช่วยให้กลับหัว ?(X′Σ−1X)(X′Σ−1X)(X'\Sigma^{-1}X) มีทางเลือกอื่น ๆ (ที่แข็งแกร่งและมั่นคง) หรือไม่? (เช่นqr.solveหรือchol2inv?)

5
ค่าเฉลี่ยของแม่พิมพ์ที่เลือกจากชุดม้วนที่ไม่มีที่สิ้นสุด
ถ้าฉันหมุนลูกเต๋าเป็นจำนวนครั้งไม่ จำกัด และเลือกค่าที่สูงกว่าของทั้งสองค่าเฉลี่ยที่คาดหวังของค่าสูงสุดจะสูงกว่า 3.5 หรือไม่? ดูเหมือนว่ามันจะต้องเป็นเพราะถ้าฉันกลิ้งลูกเต๋าเป็นล้านและเลือกค่าสูงสุดในแต่ละครั้ง ดังนั้นค่าเฉลี่ยที่คาดหวังจะต้องมีค่าเท่ากับ 5.999999999999 ... อย่างไรก็ตามฉันไม่สามารถเข้าใจได้ว่ามูลค่าที่คาดหวังจะเป็นอย่างไรกับตัวอย่างของฉันโดยใช้เพียง 2 ลูกเต๋า มีคนช่วยให้ฉันไปถึงหมายเลขได้ไหม มันจะเกิน 3.5 หรือไม่ นี่เป็นสิ่งที่สามารถคำนวณได้หรือไม่
13 dice 

1
อัตราต่อรองทำง่าย
ฉันมีปัญหาในการทำความเข้าใจอัตราต่อรองและฉันต้องการเพียงแค่คำอธิบายพื้นฐานสำหรับวิธีการตีความพวกเขา ฉันได้พบโพสต์ต่างๆที่เกี่ยวข้องกับอัตราต่อรอง แต่ส่วนใหญ่มีความซับซ้อนมากกว่าสิ่งที่ฉันพยายามที่จะเข้าใจ นี่คือตัวอย่างของวิธีที่ฉันตีความอัตราเดิมพัน: หากอัตราต่อรองของเหตุการณ์ที่เกิดขึ้นเป็น 3 ต่อ 1 เหตุการณ์จะเกิดขึ้น 3 ครั้งทุก 1 ครั้งที่ไม่เกิดขึ้น ฉันไม่รู้ว่าการตีความนี้จะถูกต้องหรือไม่ ดังนั้นคำแนะนำและตัวอย่างเพิ่มเติมเกี่ยวกับการตีความอัตราต่อรองจะได้รับการชื่นชมอย่างมาก

1
สุดยอดแห่งการกรองความร่วมมือ
ฉันกำลังทำงานในโครงการสำหรับการกรองร่วมกัน (CF) เช่นการทำเมทริกซ์ที่สังเกตได้บางส่วนหรือเทนเซอร์ทั่วไป ฉันเป็นมือใหม่ในสนามและสำหรับโครงการนี้ในที่สุดฉันก็ต้องเปรียบเทียบวิธีการของเรากับคนอื่น ๆ ที่รู้จักกันดีว่าทุกวันนี้มีการเปรียบเทียบวิธีที่เสนอกับพวกเขานั่นคือ state-of-the-art การค้นหาของฉันเปิดเผยวิธีการดังต่อไปนี้ แน่นอนฉันเจอพวกเขาโดยดูที่เอกสารเหล่านี้บางส่วนและการอ้างอิงของพวกเขาหรือโดยดูที่ส่วนการทดลองเมื่อพวกเขาทำการเปรียบเทียบ ฉันยินดีที่จะทราบวิธีการเสนอใหม่และทำการเปรียบเทียบกับ SoTA ข้อใดต่อไปนี้เป็นทางเลือกที่ดีที่จะทำ หากไม่ใช่ในหมู่พวกเขาฉันยินดีที่จะรู้จักตัวแทนที่ดี ขึ้นอยู่กับการแยกตัวประกอบเมทริกซ์: การจัดอันดับโดยถ่วงน้ำหนักต่ำ (ICML 2003) การสร้างแบบจำลองโปรไฟล์คะแนนผู้ใช้สำหรับการกรองแบบร่วมมือกัน (NIPS 2003) รูปแบบ Multiplicative Factor หลายตัวสำหรับการกรองแบบร่วมมือกัน (ICML 2004) การแยกตัวประกอบอัตรากำไรขั้นต้นสูงสุดอย่างรวดเร็วสำหรับการคาดการณ์ความร่วมมือ (ICML 2005) การแยกตัวประกอบเมทริกซ์น่าจะเป็น (NIPS 2007) การแยกตัวประกอบเมทริกซ์น่าจะเป็นแบบเบย์ (ICML 2008) แบบจำลองปัจจัยแฝงที่อิงตามการถดถอย (KDD 2009) การแยกตัวประกอบเมทริกซ์แบบไม่เชิงเส้นด้วยกระบวนการเกาส์เซียน (ICML 2009) การแยกตัวประกอบการทรงตัวแบบไดนามิก (การประชุม ACM บนระบบผู้แนะนำ 2015) ขึ้นอยู่กับการแยกตัวประกอบแรงดึง: การรวมข้อมูลบริบทในระบบผู้แนะนำโดยใช้วิธีการหลายมิติ (ธุรกรรม ACM …

3
ความหมายและขอบเขตของแบบจำลองการถดถอย
คำถามง่ายๆที่น่าอาย - แต่ดูเหมือนว่ายังไม่ได้ถามคำถามเกี่ยวกับ Cross Validated มาก่อน: คำจำกัดความของตัวแบบการถดถอยคืออะไร? นอกจากนี้ยังมีคำถามสนับสนุน อะไรคือสิ่งที่ไม่ได้ตัวแบบการถดถอยหรือไม่? สำหรับเรื่องหลังนั้นฉันสนใจตัวอย่างที่ยุ่งยากซึ่งคำตอบไม่ชัดเจนในทันทีเช่น ARIMA หรือ GARCH

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.