สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
วิธีการตีความโหลด PCA?
ในขณะที่อ่านเกี่ยวกับ PCA ฉันเจอคำอธิบายต่อไปนี้: สมมติว่าเรามีชุดข้อมูลที่แต่ละจุดข้อมูลแสดงถึงคะแนนของนักเรียนคนเดียวในแบบทดสอบคณิตศาสตร์แบบทดสอบฟิสิกส์แบบทดสอบความเข้าใจในการอ่านและแบบทดสอบคำศัพท์ เราพบสององค์ประกอบหลักแรกซึ่งจับ 90% ของความแปรปรวนในข้อมูลและตีความภาระของพวกเขา เราสรุปได้ว่าองค์ประกอบหลักแรกแสดงถึงความสามารถทางวิชาการโดยรวมและองค์ประกอบที่สองแสดงถึงความแตกต่างระหว่างความสามารถเชิงปริมาณและความสามารถทางวาจา ข้อความระบุว่าการโหลด PC1 และ PC2 คือสำหรับ PC1 และ( 0.5 , 0.5 , - 0.5 , - 0.5 )สำหรับ PC2 และให้คำอธิบายต่อไปนี้:( 0.5 , 0.5 , 0.5 , 0.5 )(0.5,0.5,0.5,0.5)(0.5, 0.5, 0.5, 0.5)( 0.5 , 0.5 , - 0.5 , - 0.5 )(0.5,0.5,−0.5,−0.5)(0.5, 0.5, -0.5, …
13 pca 

3
ค่าเบี่ยงเบนมาตรฐานของการวัดหลายครั้งพร้อมความไม่แน่นอน
ฉันมีข้อมูล GPS สองชั่วโมงสองชั่วโมงด้วยอัตราการสุ่มตัวอย่าง 1 Hz (การวัด 7200) ข้อมูลจะได้รับในรูปแบบโดยที่คือความไม่แน่นอนในการวัด(X,Xσ,Y,Yσ,Z,Zσ)(X,Xσ,Y,Yσ,Z,Zσ)(X, X_\sigma, Y, Y_\sigma, Z, Z_\sigma)NσNσN_\sigma เมื่อฉันใช้ค่าเฉลี่ยของการวัดทั้งหมด (เช่นค่า Z เฉลี่ยของสองชั่วโมงนั้น) ค่าเบี่ยงเบนมาตรฐานคืออะไร? แน่นอนว่าฉันสามารถคำนวณค่าเบี่ยงเบนมาตรฐานจากค่า Z ได้ แต่จากนั้นฉันก็เพิกเฉยต่อความจริงที่ว่ามีความไม่แน่นอนในการวัดที่รู้จัก ... แก้ไข: ข้อมูลทั้งหมดมาจากสถานีเดียวกันและพิกัดทั้งหมดจะถูกคำนวณใหม่ทุกวินาที เนื่องจากกลุ่มดาวบริวาร ฯลฯ ทุกการวัดมีความไม่แน่นอนที่แตกต่างกัน จุดประสงค์ของการวิเคราะห์ของฉันคือการค้นหาการกระจัดเนื่องจากเหตุการณ์ภายนอก (เช่นแผ่นดินไหว) ฉันต้องการที่จะใช้ค่าเฉลี่ยสำหรับการวัด 7200 (2h) ก่อนเกิดแผ่นดินไหวและค่าเฉลี่ยอีก 2h หลังจากเกิดแผ่นดินไหวจากนั้นคำนวณความแตกต่างที่เกิดขึ้น (เช่นความสูง) ในการระบุค่าเบี่ยงเบนมาตรฐานของความแตกต่างนี้ฉันต้องรู้ค่าเบี่ยงเบนมาตรฐานของทั้งสองค่านี้

1
สุดยอดการขจัดข้อมูลซ้ำซ้อน
วิธีการขจัดข้อมูลซ้ำซ้อนในบันทึกมีอะไรบ้าง? การคัดลอกซ้ำบางครั้งเรียกอีกอย่างว่า: การเชื่อมโยงเรคคอร์ด, การแก้ไขเอนทิตี, การแก้ไขเอกลักษณ์, ผสาน / ล้าง ฉันรู้ตัวอย่างเกี่ยวกับ CBLOCK [1] ฉันจะขอบคุณถ้าคำตอบรวมถึงการอ้างอิงถึงซอฟต์แวร์ที่มีอยู่ในการใช้วิธีการ ฉันรู้ว่าตัวอย่างที่ดำเนินการควาญช้างหลังคา-การจัดกลุ่ม นอกจากนี้ยังมีDukeที่ใช้ Lucene มีระบบการค้าซ้ำซ้อนมากมาย มันจะมีค่าที่จะรู้ว่าพวกเขาทำงานอย่างไรและมีประสิทธิภาพเพียงใด ฉันสนใจทั้งสองอย่างในการขจัดข้อมูลซ้ำซ้อนภายในชุดข้อมูลเดียวและเชื่อมโยงระหว่างชุดข้อมูลหลายชุดที่มาจากแหล่งข้อมูลที่แตกต่างกัน ประสิทธิภาพและความสามารถในการประมวลผลข้อมูลจำนวนมากก็มีความสำคัญเช่นกัน [1] CBLOCK: กลไกการบล็อกอัตโนมัติสำหรับงานซ้ำซ้อนขนาดใหญ่

4
เหตุใดการแจกแจงที่รู้จักทั้งหมดจึงไม่เหมือนกัน?
ฉันไม่ทราบว่ามีการแจกแจงแบบหลายรูปแบบใด ๆ เหตุใดการแจกแจงที่รู้จักทั้งหมดจึงไม่เหมือนกัน? มีการกระจาย "มีชื่อเสียง" ที่มีมากกว่าหนึ่งโหมดหรือไม่ แน่นอนว่าการผสมของการแจกแจงมักจะต่อเนื่องหลายรูปแบบ แต่ฉันต้องการที่จะรู้ว่ามีการกระจาย "ไม่ผสม" ใด ๆ ที่มีมากกว่าหนึ่งโหมด

2
ทำไมการกระจายเรขาคณิตและการกระจาย hypergeometric เรียกเช่นนี้?
ทำไมการกระจายเชิงเรขาคณิตและการกระจายhypergeometricเรียกว่า "เรขาคณิต" และ "hypergoemetric" ตามลำดับ? เป็นเพราะ pmfs ของพวกเขามีรูปแบบพิเศษหรือไม่? ขอบคุณ!

1
จะปรับขนาดการสังเกตใหม่สำหรับการคาดการณ์เมื่อแบบจำลองนั้นพอดีกับข้อมูลที่ปรับขนาดได้อย่างไร
ฉันเข้าใจแนวคิดของการปรับเมทริกซ์ข้อมูลเพื่อใช้ในตัวแบบการถดถอยเชิงเส้น ตัวอย่างเช่นใน R คุณสามารถใช้: scaled.data <- scale(data, scale=TRUE) คำถามเดียวของฉันคือสำหรับการสังเกตใหม่ที่ฉันต้องการทำนายค่าผลลัพธ์พวกเขาจะปรับขนาดได้อย่างถูกต้องอย่างไร มันจะเป็นscaled.new <- (new - mean(data)) / std(data)อย่างไร

1
ทำไมข้อผิดพลาดมาตรฐานของการดักจับเพิ่มขึ้นอีกมาจาก 0
ข้อผิดพลาดมาตรฐานของคำดักจับ ( ) ในมอบให้โดย ที่คือ ค่าเฉลี่ยของ 'sβ^0β^0\hat{\beta}_0y=β1x+β0+εy=β1x+β0+εy=\beta_1x+\beta_0+\varepsilonSE(β^0)2=σ2[1n+x¯2∑ni=1(xi−x¯)2]SE(β^0)2=σ2[1n+x¯2∑i=1n(xi−x¯)2]SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]x¯x¯\bar{x}xixix_i จากสิ่งที่ฉันเข้าใจ SE คำนวณปริมาณความไม่แน่นอนของคุณ - ในตัวอย่าง 95%, ช่วงเวลาจะมีจริง . ผมไม่เข้าใจว่าทางทิศตะวันออก, ตัวชี้วัดของความไม่แน่นอนที่เพิ่มขึ้นกับ{x} ถ้าฉันเปลี่ยนข้อมูลของฉันดังนั้นความไม่แน่นอนของฉันลดลง ดูเหมือนว่าไม่มีเหตุผลβ 0 ˉ x ˉ x = 0[β^0−2SE,β^0+2SE][β^0−2SE,β^0+2SE][\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]β0β0\beta_0x¯x¯\bar{x}x¯=0x¯=0\bar{x}=0 การตีความแบบอะนาล็อกคือ - ในเวอร์ชันที่ไม่มีข้อมูลของฉันสอดคล้องกับการทำนายของฉันที่ในขณะที่อยู่ตรงกลางข้อมูลสอดคล้องกับการทำนายของฉันที่{x} ดังนั้นนี้ไม่แล้วหมายความว่าความไม่แน่นอนของฉันเกี่ยวกับการทำนายของฉันที่มีค่ามากกว่าความไม่แน่นอนของฉันเกี่ยวกับการทำนายของฉันที่ ? ที่ดูเหมือนว่าไม่มีเหตุผลเกินไปข้อผิดพลาดมีความแปรปรวนเหมือนกันสำหรับทุกค่าของดังนั้นความไม่แน่นอนของฉันในค่าคาดการณ์ของฉันควรจะเหมือนกันสำหรับทุกxx=0 β 0x= ˉ x x=0x= ˉ x εxxβ^0β^0\hat{\beta}_0x=0x=0x=0β^0β^0\hat{\beta}_0x=x¯x=x¯x=\bar{x}x=0x=0x=0x=x¯x=x¯x=\bar{x}ϵϵ\epsilonxxxxxx มีช่องว่างในความเข้าใจของฉันฉันแน่ใจ มีใครช่วยให้ฉันเข้าใจว่าเกิดอะไรขึ้น?

3
กำลังแปลงการแจกแจงเบ้อย่างมาก
สมมติว่าฉันมีตัวแปรที่มีการแจกแจงเบ้บวกในระดับสูงมากเช่นการบันทึกจะไม่เพียงพอเพื่อที่จะนำมันอยู่ในช่วงของความเบ้สำหรับการแจกแจงแบบปกติ ตัวเลือกของฉันมีอะไรบ้างในตอนนี้ ฉันจะทำอย่างไรเพื่อแปลงตัวแปรเป็นการกระจายตัวแบบปกติ

3
การนำ PCA มาใช้อย่างเป็นขั้นเป็นตอนโดยใช้บทช่วยสอนของ Lindsay Smith
ฉันทำงานใน R ผ่านการสอน PCA ที่ยอดเยี่ยมโดย Lindsay I Smithและติดอยู่ในขั้นตอนสุดท้าย สคริปต์ R ด้านล่างพาเราขึ้นสู่สเตจ (บนหน้า 19) ซึ่งข้อมูลต้นฉบับถูกสร้างขึ้นใหม่จาก (เอกพจน์ในกรณีนี้) ส่วนประกอบหลักซึ่งควรให้พล็อตเส้นตรงตามแนวแกน PCA1 (ซึ่งเป็นข้อมูล มีเพียง 2 มิติส่วนที่สองกำลังถูกลบโดยเจตนา) d = data.frame(x=c(2.5,0.5,2.2,1.9,3.1,2.3,2.0,1.0,1.5,1.1), y=c(2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9)) # mean-adjusted values d$x_adj = d$x - mean(d$x) d$y_adj = d$y - mean(d$y) # calculate covariance matrix and eigenvectors/values (cm = cov(d[,1:2])) #### outputs ############# …
13 r  pca 

1
การตีความเชิงเรขาคณิตของตัวแบบเชิงเส้นทั่วไป
สำหรับรูปแบบเชิงเส้นเราสามารถมีการตีความทางเรขาคณิตที่ดีของรุ่นประมาณผ่าน OLS:{E} คือการฉายภาพของ y ลงบนพื้นที่ที่ถูกทอดโดย x และส่วนที่เหลือตั้งฉากกับพื้นที่นี้ซึ่งถูกขยายโดย xY = x β + E Y อีY= x β+ ey=xβ+ey=x\beta+eY^= x β^+ e^y^=xβ^+e^\hat{y}=x\hat{\beta}+\hat{e}Y^y^\hat{y}อี^e^\hat{e} ตอนนี้คำถามของฉันคือ: มีการตีความทางเรขาคณิตของโมเดลเชิงเส้นทั่วไป (การถดถอยโลจิสติก, การเป็นพิษ, การอยู่รอด) หรือไม่ ฉันอยากรู้มากเกี่ยวกับวิธีการตีความรูปแบบการถดถอยโลจิสติกส์ไบนารีโดยประมาณเรขาคณิตในลักษณะเดียวกันกับแบบจำลองเชิงเส้น มันยังไม่ได้มีข้อผิดพลาด พี^= logistic ( x β^)p^=logistic(xβ^)\hat{p} = \textrm{logistic}(x\hat{\beta}) ฉันพบหนึ่งพูดคุยเกี่ยวกับการตีความทางเรขาคณิตสำหรับโมเดลเชิงเส้นทั่วไป http://statweb.stanford.edu/~lpekelis/talks/13_obs_studies.html#(7) น่าเสียดายที่ตัวเลขไม่พร้อมใช้งานและค่อนข้างยากที่จะถ่ายภาพ ความช่วยเหลือการอ้างอิงและข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก !!!

3
ฉันจะทดสอบได้อย่างไรว่าการแจกแจงสองแบบ (ไม่ปกติ) แตกต่างกันอย่างไร
ฉันได้อ่านเกี่ยวกับการทดสอบของนักเรียนแล้ว แต่ดูเหมือนว่าจะใช้งานได้เมื่อเราสามารถสันนิษฐานได้ว่าการแจกแจงดั้งเดิมจะกระจายอยู่ตามปกติ ในกรณีของฉันพวกเขาไม่แน่นอน นอกจากนี้หากฉันมีการแจกแจง 13 ครั้งฉันต้องทำแบบ13^2ทดสอบหรือไม่?

4
มีระยะทางน่าจะเป็นที่รักษาคุณสมบัติทั้งหมดของตัวชี้วัดหรือไม่?
ในการศึกษาระยะทาง Kullback – Leibler มีสองสิ่งที่เราเรียนรู้อย่างรวดเร็วคือมันไม่เคารพทั้งความไม่เท่าเทียมกันของสามเหลี่ยมและสมมาตรซึ่งเป็นคุณสมบัติที่จำเป็นของเมตริก คำถามของฉันคือว่ามีฟังก์ชั่นการวัดความหนาแน่นของความน่าจะเป็นที่ตอบสนองข้อ จำกัด ทั้งหมดของการวัดหรือไม่

1
ใช้ MLE กับ OLS
เมื่อใดควรเลือกใช้การประมาณความน่าจะเป็นสูงสุดแทนการใช้กำลังสองน้อยที่สุดแบบธรรมดา? จุดแข็งและข้อ จำกัด ของแต่ละจุดคืออะไร ฉันกำลังพยายามรวบรวมความรู้ที่เป็นประโยชน์เกี่ยวกับสถานที่ที่จะใช้ในสถานการณ์ทั่วไป

1
การประมาณค่าพารามิเตอร์ LogLikelihood สำหรับตัวกรองคาลมานแบบเกาส์เชิงเส้น
ฉันได้เขียนโค้ดบางอย่างที่สามารถทำการกรองคาลมานได้ (โดยใช้ตัวกรองคาลมานที่แตกต่างกันจำนวนหนึ่ง [Information Filter et al.]) สำหรับการวิเคราะห์อวกาศรัฐเกาส์เชิงเส้นสำหรับเวกเตอร์สถานะ n- มิติ ตัวกรองทำงานได้ดีและฉันได้ผลลัพธ์ที่ดี อย่างไรก็ตามการประมาณค่าพารามิเตอร์ผ่านการประมาณ loglikelihood ทำให้ฉันสับสน ฉันไม่ใช่นักสถิติ แต่เป็นนักฟิสิกส์ดังนั้นโปรดเป็นคนใจดี ขอให้เราพิจารณาโมเดลเชิงเส้น Gaussian State Space yt=Ztαt+ϵt,yt=Ztαt+ϵt,y_t = \mathbf{Z}_{t}\alpha_{t} + \epsilon_{t}, αt+1=Ttαt+Rtηt,αt+1=Ttαt+Rtηt,\alpha_{t + 1} = \mathbf{T}_{t}\alpha_{t} + \mathbf{R}_{t}\eta_{t}, ที่เป็นเวกเตอร์ของเราสังเกตเวกเตอร์รัฐของเราในเวลาขั้นตอนทีปริมาณที่เป็นตัวหนาคือเมทริกซ์การแปลงสภาพของแบบจำลองพื้นที่ของรัฐซึ่งตั้งค่าตามลักษณะของระบบภายใต้การพิจารณา เรายังมีytyty_{t}αtαt\alpha_{t}ttt ϵt∼NID(0,Ht),ϵt∼NID(0,Ht),\epsilon_{t} \sim NID(0, \mathbf{H}_{t}), ηt∼NID(0,Qt),ηt∼NID(0,Qt),\eta_{t} \sim NID(0, \mathbf{Q}_{t}), α1∼NID(a1,P1).α1∼NID(a1,P1).\alpha_{1} \sim NID(a_{1}, \mathbf{P}_{1}). ที่n ตอนนี้ฉันได้รับและดำเนินการเรียกซ้ำสำหรับตัวกรองคาลมานสำหรับตัวแบบพื้นที่ว่างทั่วไปโดยคาดเดาพารามิเตอร์เริ่มต้นและเมทริกซ์ความแปรปรวนและฉันสามารถสร้างแปลงได้ ชอบt=1,…,nt=1,…,nt = 1,\ldots, …

3
ฉันควรใช้ Kernel Trick ทุกครั้งที่เป็นไปได้สำหรับข้อมูลที่ไม่ใช่เชิงเส้นหรือไม่?
เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้เกี่ยวกับการใช้ Kernel trick ซึ่งจะแมปข้อมูลลงในช่องว่างมิติที่สูงขึ้นเพื่อพยายามทำให้ข้อมูลในมิติเหล่านั้นเป็นเส้นตรง มีกรณีใดบ้างที่ฉันควรหลีกเลี่ยงการใช้เทคนิคนี้? มันเป็นเพียงเรื่องของการหาฟังก์ชั่นเคอร์เนลที่ใช่หรือไม่? สำหรับข้อมูลเชิงเส้นแน่นอนว่าไม่มีประโยชน์ แต่สำหรับข้อมูลที่ไม่ใช่เชิงเส้นสิ่งนี้ดูเหมือนจะมีประโยชน์เสมอ การใช้ตัวจําแนกเชิงเส้นเป็นเรื่องง่ายกว่าที่ไม่ใช่เชิงเส้นในแง่ของเวลาการฝึกอบรมและความยืดหยุ่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.