สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
สิ่งที่ฟังก์ชั่นอาจเป็นเคอร์เนล?
ในบริบทของการเรียนรู้ของเครื่องและการจดจำรูปแบบที่มีแนวคิดที่เรียกว่าเคอร์เนลเคล็ดลับ เผชิญปัญหาที่ฉันถูกขอให้ตรวจสอบว่าฟังก์ชันอาจเป็นฟังก์ชันเคอร์เนลหรือไม่ควรทำอะไรอย่างแน่นอน ฉันควรตรวจสอบก่อนว่าพวกเขาอยู่ในรูปแบบของฟังก์ชั่นเคอร์เนลสามหรือสี่อย่างเช่นพหุนาม RBF และ Gaussian หรือไม่? ถ้าอย่างนั้นฉันควรทำยังไงดี? ฉันควรแสดงว่าเป็นบวกแน่นอนหรือไม่ มีคนช่วยแก้ปัญหาตัวอย่างเพื่อแสดงวิธีแก้ปัญหาแบบทีละขั้นตอนได้หรือไม่? เหมือนเช่นเป็นฟังก์ชันเคอร์เนลฉ( x ) = exเสื้อx'f(x)=extx′f(x)=e^{x^tx'} (สมมติว่าเราไม่ทราบว่ามันเป็นเคอร์เนล Gaussian)?

3
วิธีการคำนวณความดีของความพอดีใน glm (R)
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 6 ปีที่แล้ว ฉันมีผลลัพธ์ต่อไปนี้จากการเรียกใช้ฟังก์ชัน glm ฉันจะตีความค่าต่อไปนี้ได้อย่างไร: ความเบี่ยงเบนว่างเปล่า ความเบี่ยงเบนตกค้าง AIC พวกเขามีบางสิ่งที่เกี่ยวข้องกับความดีงามของร่างกายหรือไม่? ฉันสามารถคำนวณความพอดีที่ได้จากผลลัพธ์เหล่านี้เช่น R-square หรือการวัดอื่น ๆ ได้หรือไม่? Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: …

2
การตีความตามธรรมชาติสำหรับพารามิเตอร์ LDA
ใครสามารถอธิบายการตีความตามธรรมชาติของพารามิเตอร์ LDA ได้บ้าง? ALPHAและBETAเป็นพารามิเตอร์ของการแจกแจง Dirichlet สำหรับหัวข้อ (ต่อเอกสาร) และ (ต่อหัวข้อ) การแจกแจงคำตามลำดับ อย่างไรก็ตามบางคนสามารถอธิบายความหมายของการเลือกค่าที่มากขึ้นของพารามิเตอร์เหล่านี้กับค่าที่น้อยลงได้อย่างไร นั่นหมายถึงการใส่ความเชื่อก่อนหน้านี้ในแง่ของหัวข้อที่กระจัดกระจายในเอกสารและการยกเว้นร่วมกันของหัวข้อในแง่ของคำ? คำถามนี้เกี่ยวกับการจัดสรร Dirichlet ที่แฝงอยู่ แต่ความคิดเห็นโดย BGReene ด้านล่างนี้หมายถึงการวิเคราะห์การจำแนกเชิงเส้นซึ่งทำให้สับสนก็คือ LDA ย่อ

1
บทบาทของพารามิเตอร์ n.minobsinnode ของ GBM ใน R [ปิด]
คำถามนี้ไม่น่าจะช่วยผู้เข้าชมในอนาคต มันเกี่ยวข้องเฉพาะกับพื้นที่ทางภูมิศาสตร์ขนาดเล็กช่วงเวลาที่เฉพาะเจาะจงหรือสถานการณ์ที่แคบเป็นพิเศษซึ่งโดยทั่วไปไม่สามารถใช้ได้กับผู้ชมทั่วโลกของอินเทอร์เน็ต สำหรับความช่วยเหลือในการทำคำถามนี้มากขึ้นบังคับในวงกว้างไปที่ศูนย์ช่วยเหลือ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันต้องการทราบว่าพารามิเตอร์n.minobsinnode มีความหมายอย่างไรในแพ็คเกจ GBM ฉันอ่านคู่มือ แต่ไม่ชัดเจนว่ามันทำอะไร ตัวเลขนั้นควรเล็กหรือใหญ่เพื่อปรับปรุงผลลัพธ์
21 r  gbm 

2
การแจกแจงแบบใดที่มีวิธีแก้ปัญหาแบบปิดเพื่อการประมาณค่าโอกาสสูงสุด
การแจกแจงแบบใดมีวิธีแก้ปัญหาแบบปิดสำหรับการประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์จากตัวอย่างการสังเกตการณ์อิสระ

3
จะตีความผลกระทบหลักได้อย่างไรเมื่อเอฟเฟกต์ปฏิสัมพันธ์ไม่สำคัญ
ฉันใช้โมเดลผสมแบบเส้นตรงทั่วไปใน R และรวมเอฟเฟกต์การโต้ตอบระหว่างตัวทำนายสองตัว ปฏิสัมพันธ์ไม่สำคัญ แต่ผลหลัก (ทั้งสองทำนาย) ทั้งสอง ตอนนี้ตัวอย่างหนังสือหลายเล่มบอกฉันว่าหากมีผลกระทบอย่างมีนัยสำคัญของการโต้ตอบผลกระทบหลักไม่สามารถตีความได้ แต่ถ้าการปฏิสัมพันธ์ของคุณไม่สำคัญ ฉันสามารถสรุปได้ว่าตัวทำนายสองตัวมีผลต่อการตอบสนองหรือไม่? หรือมันจะดีกว่าที่จะใช้รูปแบบใหม่ที่ฉันออกจากการมีปฏิสัมพันธ์? ฉันไม่ต้องการทำเช่นนั้นเพราะฉันจะต้องควบคุมการทดสอบหลายรายการ

4
ฟังก์ชั่นการวิเคราะห์องค์ประกอบหลัก (FPCA): มันเกี่ยวกับอะไร?
ฟังก์ชั่นการวิเคราะห์องค์ประกอบหลัก (FPCA) เป็นสิ่งที่ฉันสะดุดและไม่เคยเข้าใจ มันเกี่ยวกับอะไร? ดูที่"การสำรวจการวิเคราะห์องค์ประกอบหลักของการทำงาน" โดย Shang, 2011และฉันอ้างถึง: PCA ประสบปัญหาร้ายแรงในการวิเคราะห์ข้อมูลการใช้งานเพราะ“ คำสาปของมิติ” (Bellman 1961) "การสาปแช่งของมิติ" มาจากข้อมูล sparsity ในพื้นที่มิติสูง แม้ว่าคุณสมบัติทางเรขาคณิตของ PCA จะยังคงใช้งานได้และแม้ว่าเทคนิคเชิงตัวเลขจะให้ผลลัพธ์ที่คงที่ แต่เมทริกซ์ความแปรปรวนร่วมตัวอย่างก็เป็นค่าประมาณที่ไม่ดีของเมทริกซ์ความแปรปรวนร่วมของประชากร เพื่อที่จะเอาชนะความยากลำบากนี้ FPCA ได้เตรียมวิธีที่ให้ข้อมูลในการตรวจสอบโครงสร้างความแปรปรวนร่วมตัวอย่างมากกว่า PCA [... ] ฉันแค่ไม่เข้าใจ บทความนี้อธิบายถึงข้อเสียเปรียบอะไร PCA ไม่ควรจะเป็นวิธีที่ดีที่สุดในการจัดการสถานการณ์เช่น "คำสาปแห่งมิติ"?

3
ทำไมตัวแปรสุ่มถูกกำหนดให้เป็นฟังก์ชั่น
ฉันมีปัญหาในการทำความเข้าใจแนวคิดของตัวแปรสุ่มเป็นฟังก์ชั่น ฉันเข้าใจกลไก (ฉันคิดว่า) แต่ฉันไม่เข้าใจแรงจูงใจ ... พูดเป็นความน่าจะเป็นสามโดยที่ ,คือ Borel- -algebra ในช่วงเวลานั้นและคือการวัด Lebesgue ปกติ ให้เป็นตัวแปรสุ่มจากถึงซึ่ง , , ... ,ดังนั้นมีการกระจายแบบไม่ต่อเนื่องบนค่า 1 ถึง 6 Ω = [ 0 , 1 ] B σ P X B { 1 , 2 , 3 , 4 , 5 , 6 } X ( [ 0 , …

2
ตัวอย่างขนาดเล็กสามารถทำให้เกิดข้อผิดพลาดประเภท 1 ได้หรือไม่
ฉันได้เรียนรู้ว่าตัวอย่างขนาดเล็กอาจนำไปสู่การใช้พลังงานไม่เพียงพอและข้อผิดพลาดประเภท 2 อย่างไรก็ตามฉันมีความรู้สึกว่าตัวอย่างขนาดเล็กอาจไม่น่าเชื่อถือโดยทั่วไปและอาจนำไปสู่ผลลัพธ์ใด ๆ โดยบังเอิญ มันเป็นเรื่องจริงเหรอ?

2
ทำไม
พื้นหลัง หนึ่งของสินค้าที่อ่อนแอก่อนในความแปรปรวนมากที่สุดคือการผกผันแกมมากับพารามิเตอร์ (Gelman 2006)α = 0.001 , β= 0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 อย่างไรก็ตามการกระจายนี้มี CI 90% ของประมาณ ][ 3 × 1019, ∞ ][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf จากนี้ฉันตีความว่าให้ความน่าจะเป็นต่ำที่ความแปรปรวนจะสูงมากและความน่าจะเป็นต่ำมากที่ความแปรปรวนจะน้อยกว่า 1 P ( σ < 1 | α = 0.001 , β = 0.001 ) = 0.006ผมG ( …

3
การสูญเสียการฝึกอบรมเพิ่มขึ้นตามเวลา [ซ้ำ]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว : ฟังก์ชั่นการเปลี่ยนแปลงค่าใช้จ่ายสามารถเป็นบวกได้อย่างไร? (1 คำตอบ) ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทไม่ได้เรียนรู้ (5 คำตอบ) ปิดเมื่อเดือนที่แล้ว ฉันกำลังฝึกอบรมนางแบบ (Recurrent Neural Network) เพื่อจำแนกลำดับของ 4 ประเภท ขณะที่ฉันทำการฝึกฉันเห็นการสูญเสียการฝึกอบรมลดลงจนถึงจุดที่ฉันจัดประเภทตัวอย่างในชุดการฝึกได้มากกว่า 90% อย่างไรก็ตามอีกไม่กี่ยุคต่อมาฉันสังเกตเห็นว่าการสูญเสียการฝึกอบรมเพิ่มขึ้นและความแม่นยำลดลง ดูเหมือนว่าจะแปลกสำหรับฉันเพราะฉันคาดหวังว่าในชุดฝึกอบรมประสิทธิภาพจะดีขึ้นเมื่อเวลาไม่ลดลง ฉันกำลังใช้การสูญเสียเอนโทรปีและอัตราการเรียนรู้ของฉันคือ 0.0002 อัปเดต:ปรากฎว่าอัตราการเรียนรู้สูงเกินไป ด้วยอัตราการเรียนรู้ที่ต่ำพอที่ต่ำฉันไม่สังเกตพฤติกรรมนี้ อย่างไรก็ตามฉันยังพบสิ่งแปลกประหลาดนี้ คำอธิบายที่ดียินดีต้อนรับว่าทำไมสิ่งนี้ถึงเกิดขึ้น

2
PCA แบบ numpy และ sklearn ให้ผลลัพธ์ที่ต่างกัน
ฉันเข้าใจผิดบางอย่าง นี่คือรหัสของฉัน ใช้ sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) เอาท์พุท: array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], …

2
สถาปัตยกรรมคอขวดทำงานในเครือข่ายประสาทได้อย่างไร
เรากำหนดสถาปัตยกรรมคอขวดเป็นประเภทที่พบในกระดาษResNetโดยที่ [เลเยอร์ 3x3 Conv สอง] ถูกแทนที่ด้วย [หนึ่ง 1x1 Conv, หนึ่ง 3x3 Conv และอีกหนึ่ง 1x1 Conv ชั้น] ผมเข้าใจว่าชั้น 1x1 แปลงจะใช้เป็นรูปแบบของการลดมิติ (และบูรณะ) ซึ่งจะมีการอธิบายในโพสต์อื่น อย่างไรก็ตามฉันไม่แน่ใจว่าทำไมโครงสร้างนี้จึงมีประสิทธิภาพเหมือนกับเค้าโครงดั้งเดิม คำอธิบายที่ดีบางประการอาจรวมถึง: มีการใช้ความยาวแบบก้าวใดและเลเยอร์ใด ตัวอย่างอินพุตและเอาต์พุตมิติของแต่ละโมดูลคืออะไร? แผนผังคุณลักษณะ 56x56 แสดงในแผนภาพด้านบนอย่างไร 64-d อ้างถึงจำนวนตัวกรองเหตุใดจึงแตกต่างจากตัวกรอง 256-d มีการใช้น้ำหนักหรือฟล็อปกี่ครั้งในแต่ละชั้น การอภิปรายใด ๆ ที่ชื่นชมอย่างมาก!

4
จะทราบได้อย่างไรว่าข้อมูลแยกกันเป็นเส้นตรง?
ข้อมูลมีคุณสมบัติมากมาย (เช่น 100) และจำนวนอินสแตนซ์เท่ากับ 100,000 ข้อมูลกระจัดกระจาย ฉันต้องการให้พอดีกับข้อมูลโดยใช้การถดถอยโลจิสติกหรือ svm ฉันจะรู้ได้อย่างไรว่าคุณลักษณะเป็นแบบเชิงเส้นหรือไม่เชิงเส้นเพื่อให้ฉันสามารถใช้เคล็ดลับเคอร์เนลได้หากไม่ใช่แบบเชิงเส้น

1
ความแตกต่างระหว่างโมเดล Markov ที่ซ่อนอยู่กับตัวกรองอนุภาค (และตัวกรองคาลมาน)
นี่คือคำถามเก่าของฉัน ฉันอยากถามว่ามีใครรู้ถึงความแตกต่าง (ถ้ามีความแตกต่างใด ๆ ) ระหว่าง Hidden Markov models (HMM) และ Particle Filter (PF) หรือไม่และเป็นผลจาก Kalman Filter หรือในกรณีที่เราใช้อัลกอริทึมใด ฉันเป็นนักเรียนและฉันต้องทำโครงการ แต่ก่อนอื่นฉันต้องเข้าใจบางสิ่ง ดังนั้นตามบรรณานุกรมทั้งสองรัฐอวกาศรุ่นรวมทั้งที่ซ่อนอยู่ (หรือแฝงหรือสังเกต) รัฐ ตามที่ Wikipedia (Hidden_Markov_model) “ใน HMM พื้นที่สถานะของตัวแปรที่ซ่อนอยู่นั้นไม่ต่อเนื่องในขณะที่การสังเกตตัวเองสามารถแยกออกจากกัน (โดยทั่วไปจะเกิดจากการกระจายแบบแบ่งหมวดหมู่) หรือต่อเนื่อง (โดยทั่วไปมาจากการแจกแจงแบบเกาส์) โมเดลมาร์คอฟที่ซ่อนยังสามารถวางนัยเพื่ออนุญาตให้มีพื้นที่ของรัฐอย่างต่อเนื่อง ตัวอย่างของแบบจำลองเหล่านั้นคือสิ่งที่กระบวนการมาร์คอฟเหนือตัวแปรที่ซ่อนอยู่เป็นระบบพลวัตเชิงเส้นที่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรที่เกี่ยวข้องและที่ที่ตัวแปรที่ซ่อนอยู่ ในกรณีง่าย ๆ เช่นระบบพลวัตเชิงเส้นที่กล่าวถึงการอนุมานที่แน่นอนนั้นง่ายต่อการใช้งาน (ในกรณีนี้ใช้ตัวกรองคาลมาน); อย่างไรก็ตามโดยทั่วไปการอนุมานที่แน่นอนใน HMMs ที่มีตัวแปรแฝงต่อเนื่องเป็นไปไม่ได้และต้องใช้วิธีการโดยประมาณ” แต่สำหรับฉันมันค่อนข้างสับสน ... ในคำง่ายๆนี้หมายถึงการติดตาม (จากการวิจัยเพิ่มเติมที่ฉันได้ทำไป): ใน HMM พื้นที่รัฐสามารถเป็นได้ทั้งที่ไม่ต่อเนื่องหรือต่อเนื่อง นอกจากนี้ยังมีข้อสังเกตที่ตัวเองสามารถเป็นได้ทั้งที่ไม่ต่อเนื่องหรือต่อเนื่อง นอกจากนี้ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.