สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
Kernel PCA ที่มีเคอร์เนลเชิงเส้นเทียบเท่ากับ PCA มาตรฐานหรือไม่
ถ้าในเคอร์เนล PCAฉันเลือกเคอร์เนลเชิงเส้นK(x,y)=x⊤yK(x,y)=x⊤yK(\mathbf{x},\mathbf{y}) = \mathbf x^\top \mathbf yผลลัพธ์จะแตกต่างจากlinear PCA ปกติหรือไม่ วิธีการแก้ปัญหานั้นแตกต่างกันโดยพื้นฐานหรือมีความสัมพันธ์ที่ชัดเจนบางอย่างอยู่หรือไม่?
17 pca  kernel-trick 

3
pdf และ pmf และ cdf มีข้อมูลเหมือนกันหรือไม่?
pdf และ pmf และ cdf มีข้อมูลเหมือนกันหรือไม่? สำหรับฉัน pdf ให้ความน่าจะเป็นทั้งหมดจนถึงจุดหนึ่ง (โดยทั่วไปคือพื้นที่ภายใต้ความน่าจะเป็น) pmf ให้ความน่าจะเป็นของบางจุด cdf ให้ความน่าจะเป็นภายใต้จุดหนึ่ง ดังนั้นสำหรับฉันไฟล์ PDF และ cdf มีข้อมูลเหมือนกัน แต่ pmf ไม่ได้เพราะมันให้ความน่าจะเป็นสำหรับxการแจกแจง

1
การค้นหารากสำหรับฟังก์ชันสโตแคสติก
สมมติว่าเรามีฟังก์ชั่นที่เราสามารถสังเกตได้จากสัญญาณรบกวนบางอย่างเท่านั้น เราไม่สามารถคำนวณf ( x )ได้โดยตรงเพียงแค่f ( x ) + ηโดยที่ηมีเสียงรบกวนแบบสุ่ม (ในทางปฏิบัติ: ฉันคำนวณf ( x )โดยใช้วิธีมอนติคาร์โลบางวิธี)f(x)f(x)f(x)f(x)f(x)f(x)f(x)+ηf(x)+ηf(x) + \etaηη\etaf(x)f(x)f(x) วิธีการอะไรที่ใช้ได้สำหรับการหารากของเช่นการคำนวณxเพื่อให้F ( x ) = 0 ?fffxxxf(x)=0f(x)=0f(x) = 0 ฉันกำลังมองหาวิธีที่ลดจำนวนการประเมินที่จำเป็นสำหรับเนื่องจากมีราคาแพงในการคำนวณf(x)+ηf(x)+ηf(x)+\eta ฉันสนใจวิธีการทั่วไปที่ใช้หลายมิติ (เช่นแก้ )f(x,y)=0,g(x,y)=0f(x,y)=0,g(x,y)=0f(x,y) = 0, g(x,y) = 0 ฉันสนใจวิธีการที่สามารถใช้ประโยชน์จากข้อมูลบางอย่างเกี่ยวกับความแปรปรวนของเนื่องจากการประมาณนี้อาจมีให้เมื่อคำนวณf ( x )โดยใช้ MCMCηη\etaf(x)f(x)f(x)

2
การทดสอบทางสถิติสามารถคืนค่า p เป็นศูนย์ได้หรือไม่?
ฉันไม่ได้หมายถึงค่าที่ใกล้เคียงกับศูนย์ (ปัดเศษเป็นศูนย์ด้วยซอฟต์แวร์สถิติบางตัว) แต่จะมีค่าเป็นศูนย์อย่างแท้จริง ถ้าเป็นเช่นนั้นหมายความว่าความน่าจะเป็นที่จะได้รับข้อมูลที่สมมติว่าสมมติฐานว่างเป็นจริงหรือไม่เช่นกัน (ตัวอย่างบางส่วน) ของการทดสอบทางสถิติที่สามารถส่งกลับผลลัพธ์ของการเรียงลำดับนี้คืออะไร? แก้ไขประโยคที่สองเพื่อลบวลี "ความน่าจะเป็นของสมมติฐานว่าง"

2
การตีความการถดถอยโลจิสติกอันดับ
ฉันใช้การถดถอยโลจิสติกอันดับนี้ใน R: mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) ฉันได้รับข้อมูลสรุปของโมเดลนี้: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 …

3
“ สถิติทดสอบ” เป็นค่าหรือตัวแปรสุ่มหรือไม่
ตอนนี้ฉันเป็นนักเรียนที่เรียนวิชาสถิติเป็นครั้งแรก ฉันสับสนกับคำว่า "สถิติการทดสอบ" ในต่อไป (ฉันเห็นนี้ในตำราบาง) ดูเหมือนว่าจะมีค่าเฉพาะคำนวณจากตัวอย่างที่เฉพาะเจาะจง t = ¯ x - μ 0เสื้อเสื้อtt = x¯¯¯- μ0s / n--√เสื้อ=x¯-μ0s/n t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} อย่างไรก็ตามในต่อไปนี้ (ฉันเห็นสิ่งนี้ในหนังสือเรียนเล่มอื่น ๆ ) ดูเหมือนว่าจะเป็นตัวแปรสุ่ม T = ¯ X - μ 0TTTT= X¯¯¯¯- μ0S/ n--√T=X¯-μ0S/n T=\frac{\overline{X} - \mu_0}{S / \sqrt{n}} ดังนั้นคำว่า "สถิติการทดสอบ" หมายถึงค่าเฉพาะหรือตัวแปรสุ่มหรือทั้งสองอย่าง ?

1
ค่า R-squared เหมาะสมสำหรับการเปรียบเทียบแบบจำลองหรือไม่?
ฉันพยายามระบุโมเดลที่ดีที่สุดเพื่อทำนายราคารถยนต์โดยใช้ราคาและคุณสมบัติที่มีอยู่ในเว็บไซต์โฆษณาที่จัดประเภทรถยนต์ สำหรับเรื่องนี้ฉันใช้โมเดลสองรุ่นจากห้องสมุด scikit-Learn และโมเดลโครงข่ายประสาทจาก pybrain และ neurolab วิธีที่ฉันใช้จนถึงตอนนี้คือการเรียกใช้ข้อมูลจำนวนคงที่ผ่านบางรุ่น (อัลกอริทึมการเรียนรู้ของเครื่อง) และเปรียบเทียบค่าR2R2R^2ที่คำนวณด้วยโมดูลตัวชี้วัดการเรียนรู้แบบ Scikit คือR2R2R^2วิธีการที่ดีเพื่อเปรียบเทียบประสิทธิภาพของรูปแบบที่แตกต่างกันหรือไม่? แม้ว่าฉันจะได้ผลลัพธ์ที่น่าพอใจสำหรับแบบจำลองเช่น Elastic net และ Random forest ฉันได้รับค่าแย่มากR2R2R^2สำหรับแบบจำลองโครงข่ายประสาทเทียมดังนั้นR2R2R^2เป็นวิธีที่เหมาะสมสำหรับการประเมินเครือข่ายประสาท (หรือวิธีที่ไม่ใช่เชิงเส้น)

9
การคำนวณดัชนีแรนด์
ฉันพยายามหาวิธีการคำนวณดัชนีแรนด์ของอัลกอริทึมคลัสเตอร์ แต่ฉันติดอยู่ที่จุดวิธีการคำนวณเชิงลบที่แท้จริงและเท็จ ตอนนี้ฉันใช้ตัวอย่างจากหนังสือ An Introduction to Information Retrieval (Manning, Raghavan & Schütze, 2009) ที่หน้า 359 พวกเขาพูดถึงวิธีคำนวณดัชนีแรนด์ สำหรับตัวอย่างนี้พวกเขาใช้สามกลุ่มและกลุ่มมีวัตถุต่อไปนี้ aaaaab abbbbc aaccc ฉันเปลี่ยนวัตถุ (สัญญาณเดิมเป็นตัวอักษร แต่ความคิดและจำนวนยังคงเหมือนเดิม) ฉันจะให้คำที่แน่นอนจากหนังสือเพื่อดูสิ่งที่พวกเขากำลังพูดถึง: อันดับแรกเราคำนวณ TP + FP สามกลุ่มประกอบด้วย 6, 6 และ 5 คะแนนตามลำดับดังนั้นจำนวนรวมของ "ผลบวก" หรือคู่ของเอกสารที่อยู่ในคลัสเตอร์เดียวกันคือ: TP + FP = + + = 15 + 15+ 10 = 40(62)(62){6 \choose …
17 clustering 

2
ผลกระทบหลักเชิงลบสองประการ แต่มีผลกระทบเชิงบวก
ฉันมีเอฟเฟกต์หลัก ๆ สองแบบ V1 และ V2 ผลกระทบของ V1 และ V2 บนตัวแปรตอบกลับเป็นค่าลบ อย่างไรก็ตามด้วยเหตุผลบางอย่างฉันได้รับค่าสัมประสิทธิ์บวกสำหรับคำศัพท์ที่มีปฏิสัมพันธ์ V1 * V2 ฉันจะตีความสิ่งนี้ได้อย่างไร สถานการณ์ดังกล่าวเป็นไปได้หรือไม่

3
การทดสอบทางสถิติสำหรับการแจกแจงสองแบบที่ทราบเพียงการสรุป 5 หมายเลข
ฉันมีการแจกแจงสองแบบที่รู้จักกันเพียงการสรุป 5 หมายเลข (ขั้นต่ำ, ควอไทล์อันดับ 1, ค่ามัธยฐาน, ควอไทล์อันดับที่ 3, สูงสุด) และขนาดตัวอย่าง หาคำถามที่นี่ไม่ได้มีจุดข้อมูลทั้งหมด มีการทดสอบทางสถิติที่ไม่ใช่พารามิเตอร์ซึ่งช่วยให้ฉันตรวจสอบว่าการแจกแจงพื้นฐานของทั้งสองนั้นแตกต่างกันหรือไม่? ขอบคุณ!

1
รูปแบบที่เหลือโดยอัตโนมัติสัมพันธ์ยังคงอยู่แม้ในรูปแบบที่มีโครงสร้างความสัมพันธ์ที่เหมาะสมและวิธีการเลือกรูปแบบที่ดีที่สุด?
บริบท คำถามนี้ใช้ R แต่เกี่ยวกับปัญหาทางสถิติทั่วไป ฉันกำลังวิเคราะห์ผลกระทบของปัจจัยการเสียชีวิต (อัตราการตาย% เนื่องจากโรคและปรสิต) ต่ออัตราการเติบโตของประชากรมอดเมื่อเวลาผ่านไปโดยมีการสุ่มตัวอย่างประชากร 12 ตัวต่อปีเป็นเวลา 8 ปี ข้อมูลอัตราการเติบโตของประชากรแสดงแนวโน้มวัฏจักรที่ชัดเจน แต่ผิดปกติเมื่อเวลาผ่านไป ส่วนที่เหลือจากแบบจำลองเชิงเส้นแบบง่ายทั่วไป (อัตราการเจริญเติบโต ~% โรค +% ปรสิต + ปี) แสดงแนวโน้มวัฏจักรที่ชัดเจน แต่ผิดปกติตลอดเวลา ดังนั้นแบบจำลองกำลังสองน้อยที่สุดทั่วไปของรูปแบบเดียวกันจึงถูกนำไปใช้กับข้อมูลที่มีโครงสร้างความสัมพันธ์ที่เหมาะสมเพื่อจัดการกับความสัมพันธ์ระหว่างกาลชั่วคราวเช่นสมมาตรผสมคำสั่งกระบวนการอัตโนมัติ 1 และโครงสร้างความสัมพันธ์เฉลี่ยเคลื่อนที่อัตโนมัติ แบบจำลองทั้งหมดมีเอฟเฟกต์คงที่เหมือนกันถูกนำมาเปรียบเทียบโดยใช้ AIC และติดตั้งโดย REML (เพื่อให้สามารถเปรียบเทียบโครงสร้างความสัมพันธ์ที่แตกต่างกันโดย AIC) ฉันใช้ R package nlme และฟังก์ชัน gls คำถามที่ 1 ส่วนที่เหลือของแบบจำลอง GLS ยังคงแสดงรูปแบบวัฏจักรที่เหมือนกันเกือบทุกรูปแบบเมื่อเทียบกับเวลา รูปแบบดังกล่าวจะยังคงอยู่หรือไม่แม้จะอยู่ในรูปแบบที่มีความแม่นยำในโครงสร้างของความสัมพันธ์ ฉันได้จำลองข้อมูลที่เรียบง่าย แต่คล้ายกันใน R ด้านล่างคำถามที่สองของฉันซึ่งแสดงปัญหาตามความเข้าใจปัจจุบันของฉันเกี่ยวกับวิธีการที่จำเป็นในการประเมินรูปแบบที่สัมพันธ์กันแบบชั่วคราวในรูปแบบที่เหลือซึ่งตอนนี้ฉันรู้ว่าผิด คำถามที่ …

1
ฟังก์ชั่น“ เอฟเฟกต์” ใน R ทำอะไร?
ฉันไม่เข้าใจคำอธิบายในRไฟล์ช่วยเหลือของเอฟเฟกต์ () : สำหรับโมเดลเชิงเส้นที่ติดตั้งlmหรือaovผลที่ได้คือค่าขององศาอิสระที่ไม่ได้รับความสัมพันธ์ซึ่งได้จากการฉายข้อมูลไปยัง subspaces orthogonal ที่ต่อเนื่องซึ่งสร้างขึ้นโดยการย่อยสลาย QR ในระหว่างกระบวนการติดตั้ง ใครช่วยอธิบายสิ่งนี้ได้บ้าง? subspaces orthogonal พาดพิงถึง subspaces หนึ่งมิติที่ถูกขยายโดยคอลัมน์ของ Q-part ของ QR-decomposition (และจากนั้น orthogonal ต่อกัน)? หรือว่าพวกเขาควรจะตั้งฉากกับสิ่งอื่น?
17 r  regression 

2
การเข้ารหัสตัวแปรเชิงคุณภาพในการถดถอยนำไปสู่“ ภาวะเอกฐาน”
ฉันมีตัวแปรอิสระที่เรียกว่า "คุณภาพ" ตัวแปรนี้มีการตอบสนอง 3 แบบ (คุณภาพไม่ดีคุณภาพปานกลาง; คุณภาพสูง) ฉันต้องการแนะนำตัวแปรอิสระนี้ในการถดถอยเชิงเส้นหลายครั้งของฉัน เมื่อฉันมีตัวแปรไบนารีอิสระ (ตัวแปรดัมมี่ฉันสามารถโค้ด0/ 1) มันเป็นเรื่องง่ายที่จะแนะนำมันในรูปแบบการถดถอยเชิงเส้นหลายแบบ แต่ด้วยการตอบสนอง 3 แบบฉันได้ลองใช้รหัสตัวแปรนี้ดังนี้ Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 แต่มีปัญหาเมื่อฉันพยายามทำการถดถอยเชิงเส้นหลายครั้ง: วิธีการMedium qualityให้ฉันNA: Coefficients: (1 not defined because of singularities) ฉันจะเขียนโค้ด "คุณภาพ" ตัวแปรนี้ด้วย 3 แบบได้อย่างไร ฉันต้องสร้างตัวแปรเป็นปัจจัย ( …

1
อัลกอริธึมที่มีประสิทธิภาพในการคำนวณการแยกค่าเอกเทศ (SVD) คืออะไร
บทความ Wikipedia เกี่ยวกับการวิเคราะห์องค์ประกอบหลักระบุว่า อัลกอริธึมที่มีประสิทธิภาพมีอยู่ในการคำนวณ SVD ของโดยไม่ต้องสร้างเมทริกซ์ดังนั้นการคำนวณ SVD จึงเป็นวิธีมาตรฐานในการคำนวณการวิเคราะห์องค์ประกอบหลักจากเมทริกซ์ข้อมูลXXXXTXXTXX^TX มีคนบอกฉันว่าอัลกอริทึมที่มีประสิทธิภาพซึ่งบทความกำลังพูดถึงคืออะไร ไม่มีการอ้างอิงที่ได้รับ (URL หรือการอ้างอิงถึงบทความที่เสนอวิธีการคำนวณแบบนี้น่าจะดี)
17 pca  algorithms  svd  numerics 

2
วิธีการจัดให้มีการกระจายแบบไม่ต่อเนื่องเพื่อนับข้อมูล?
ฉันมีฮิสโตแกรมข้อมูลการนับต่อไปนี้ และฉันต้องการให้การกระจายแบบไม่ต่อเนื่องกับมัน ฉันไม่แน่ใจว่าฉันควรทำอย่างไร ฉันควรเพิ่มการแจกแจงแบบแยกส่วนก่อนพูดการแจกแจงลบแบบทวินามบนฮิสโตแกรมเพื่อให้ฉันได้รับพารามิเตอร์การกระจายแบบไม่ต่อเนื่องแล้วเรียกใช้การทดสอบ Kolmogorov – Smirnov เพื่อตรวจสอบค่า p? ฉันไม่แน่ใจว่าวิธีนี้ถูกต้องหรือไม่ มีวิธีการทั่วไปในการจัดการปัญหาเช่นนี้หรือไม่? นี่คือตารางความถี่ของข้อมูลการนับ ในปัญหาของฉันฉันมุ่งเน้นเฉพาะการนับที่ไม่ใช่ศูนย์ Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 UPDATE:ฉันต้องการถาม: ฉันใช้ฟังก์ชัน fitdistr ใน R เพื่อรับพารามิเตอร์สำหรับการปรับข้อมูลให้เหมาะสม fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) จากนั้นฉันพล็อตฟังก์ชันความน่าจะเป็นแบบมวลของการแจกแจงแบบปัวซองที่อยู่ด้านบนของฮิสโตแกรม อย่างไรก็ตามดูเหมือนว่าการกระจาย Poisson ล้มเหลวในการสร้างแบบจำลองข้อมูลการนับ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.