สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ส่วนเบี่ยงเบนมาตรฐาน r, r กำลังสองและส่วนที่เหลือบอกอะไรเราเกี่ยวกับความสัมพันธ์เชิงเส้น
พื้นหลังเล็ก ๆ ฉันกำลังทำการตีความการวิเคราะห์การถดถอย แต่ฉันสับสนกับความหมายของ r, r กำลังสองและส่วนเบี่ยงเบนมาตรฐานที่เหลือ ฉันรู้คำจำกัดความ: ลักษณะเฉพาะ r วัดความแข็งแรงและทิศทางของความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวบนสเปลตเตอร์ล็อต R-squared เป็นการวัดทางสถิติว่าข้อมูลอยู่ใกล้กับเส้นการถดถอยที่เหมาะสมหรือไม่ ค่าเบี่ยงเบนมาตรฐานส่วนที่เหลือเป็นคำทางสถิติที่ใช้อธิบายความเบี่ยงเบนมาตรฐานของจุดที่เกิดขึ้นรอบฟังก์ชันเชิงเส้นและเป็นการประมาณความแม่นยำของตัวแปรตามที่วัด ( ไม่ทราบว่าหน่วยคืออะไรข้อมูลใด ๆ เกี่ยวกับหน่วยที่นี่จะเป็นประโยชน์ ) (ที่มา: ที่นี่ ) คำถาม แม้ว่าฉันจะ "เข้าใจ" ลักษณะของตัวละคร แต่ฉันเข้าใจว่าเงื่อนไขเหล่านี้รบกวนการสรุปเกี่ยวกับชุดข้อมูล ฉันจะแทรกตัวอย่างเล็ก ๆ น้อย ๆ ที่นี่บางทีนี่อาจเป็นคำแนะนำในการตอบคำถามของฉัน ( อย่าลังเลที่จะใช้ตัวอย่างของคุณเอง!) ตัวอย่าง นี่ไม่ใช่คำถามวิธีการทำงานอย่างไรก็ตามฉันค้นหาในหนังสือของฉันเพื่อรับตัวอย่างง่ายๆ (ชุดข้อมูลปัจจุบันที่ฉันกำลังวิเคราะห์ซับซ้อนเกินไปและใหญ่เกินกว่าจะแสดงได้ที่นี่) สุ่มเลือกแปลง 20 แปลงขนาด 20x4 เมตรในไร่ข้าวโพดขนาดใหญ่ สำหรับแต่ละแปลงความหนาแน่นของพืช (จำนวนพืชในแปลง) และน้ำหนักเฉลี่ยของซัง (กรัมของเมล็ดต่อซัง) ผลลัพธ์เป็น givin ในตารางต่อไปนี้: (ที่มา: …

1
การสร้างแบบจำลองอนุกรมเวลาของข้อมูลวงกลม
ฉันกำลังสร้างแบบจำลอง ARIMA สำหรับข้อมูลลม / คลื่น ฉันกำลังสร้างแบบจำลองแยกสำหรับตัวแปรแต่ละตัว ตัวแปรสองตัวที่ฉันต้องจำลองคือคลื่นและทิศทางลม ค่าอยู่ในหน่วยองศา (0-360 °) เป็นไปได้หรือไม่ที่จะสร้างแบบจำลองของข้อมูลประเภทนี้ที่ช่วงค่าเป็นแบบวงกลม? ถ้าไม่ใช่คลาสรุ่นใดที่เหมาะที่สุดสำหรับข้อมูลประเภทนี้?

2
KKT สั้นแบบกราฟิก
วัตถุประสงค์ ยืนยันว่าการเข้าใจ KKT นั้นถูกต้องหรือไม่ ขอคำอธิบายและการยืนยันเพิ่มเติมเกี่ยวกับ KKT พื้นหลัง พยายามทำความเข้าใจกับเงื่อนไข KKT โดยเฉพาะอย่างยิ่งเงื่อนไขเสริมซึ่งจะปรากฏขึ้นสีน้ำเงินในบทความ SVM ฉันไม่ต้องการรายการสูตรนามธรรม แต่ต้องการคำอธิบายที่เป็นรูปธรรมใช้งานง่ายและแบบกราฟิก คำถาม หาก P ซึ่งลดฟังก์ชันต้นทุนให้น้อยที่สุด f (X) จะอยู่ภายในข้อ จำกัด (g (P)> = 0) นั่นคือทางออก ดูเหมือนว่า KKT จะไม่เกี่ยวข้องในกรณีนี้ ดูเหมือนว่า KKT จะบอกว่าถ้า P ไม่ได้อยู่ในข้อ จำกัด แล้วโซลูชัน X ควรตอบสนองด้านล่างในภาพ KKT เกี่ยวกับหรือฉันคิดถึงประเด็นสำคัญอื่น ๆ หรือไม่? คำชี้แจงอื่น ๆ ควรจะ f (x) ให้นูนเพื่อให้ KKT ใช้หรือไม่ …

4
ผลรวมของตัวแปรสองตัวสามารถอธิบายความแปรปรวนได้มากกว่าตัวแปรแต่ละตัวอย่างไร
ฉันได้รับผลลัพธ์ที่น่าสงสัยสำหรับความสัมพันธ์ของผลรวมกับตัวแปรที่สามเมื่อตัวทำนายสองตัวนั้นมีความสัมพันธ์เชิงลบ อะไรทำให้เกิดผลลัพธ์ที่น่างงงวยเหล่านี้ ตัวอย่างที่ 1: ความสัมพันธ์ระหว่างผลรวมของตัวแปรสองตัวกับตัวแปรตัวที่สาม พิจารณาสูตร 16.23 ในหน้า 427 ของข้อความ 1965 ของ Guildford ดังที่แสดงด้านล่าง การค้นหาที่น่าสงสัย: หากตัวแปรทั้งสองมีความสัมพันธ์กับ. 2 กับตัวแปรที่สามและมีความสัมพันธ์กับ -.7 ซึ่งกันและกันสูตรจะส่งผลให้มีค่าเท่ากับ. 52 ความสัมพันธ์ของผลรวมกับตัวแปรที่สามจะเป็น. 52 ได้อย่างไรถ้าทั้งสองตัวแปรนั้นสัมพันธ์กันเพียง. 2 กับตัวแปรที่สาม ตัวอย่างที่ 2: ความสัมพันธ์หลายอย่างระหว่างตัวแปรสองตัวกับตัวแปรที่สามคืออะไร พิจารณาสูตร 16.1 ในหน้า 404 ของข้อความ 1965 ของ Guildford (แสดงด้านล่าง) การค้นหาที่น่าสงสัย: สถานการณ์เดียวกัน หากตัวแปรทั้งสองมีความสัมพันธ์กับ. 2 กับตัวแปรที่สามและมีความสัมพันธ์กับ -.7 ซึ่งกันและกันสูตรจะส่งผลให้มีค่าเท่ากับ. 52 ความสัมพันธ์ของผลรวมกับตัวแปรที่สามจะเป็น. 52 ได้อย่างไรถ้าทั้งสองตัวแปรนั้นสัมพันธ์กันเพียง. 2 …

3
การเลือกไฮเปอร์พารามิเตอร์โดยใช้ T-SNE สำหรับการจำแนกประเภท
ในปัญหาเฉพาะที่ฉันทำงานกับ (การแข่งขัน) ฉันมีการตั้งค่า follwoing: 21 คุณสมบัติ (ตัวเลขบน [0,1]) และเอาต์พุตไบนารี ฉันมีแถวประมาณ 100 K ดูเหมือนว่าการตั้งค่าจะมีเสียงดังมาก ฉันและผู้เข้าร่วมคนอื่น ๆ ใช้การสร้างคุณลักษณะในช่วงเวลาหนึ่งและเพื่อนบ้าน stochastic แบบ t- กระจายกลายเป็นค่อนข้างมีประสิทธิภาพในการตั้งค่านี้ ฉันสะดุดโพสต์นี้"วิธีการใช้ t-SNE อย่างมีประสิทธิภาพ"แต่ฉันก็ยังไม่สามารถสรุปได้ว่าจะเลือกไฮเปอร์พารามิเตอร์ที่ดีที่สุดในการจำแนกประเภทของฉันได้อย่างไร มีกฎของหัวแม่มือ (จำนวนของคุณสมบัติขนาดของการฝัง -> ทางเลือกของความงุนงง) หรือไม่? ฉันเพิ่งใช้การตั้งค่า Ad-hoc ในขณะนี้เนื่องจากใช้เวลานานเกินไปในการทำซ้ำการตั้งค่าต่างๆ ขอบคุณสำหรับความคิดเห็นใด ๆ

1
วิธีการแก้ปัญหาแบบปิดเพื่อแก้ไขปัญหา lasso เมื่อ data matrix เป็นแนวทแยง
\newcommand{\diag}{\operatorname{diag}}เรามีปัญหา: มีสมมติฐานว่า: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ... , \ sigma_d ^ 2)minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). ในกรณีนี้มีวิธีแก้ปัญหาแบบปิดหรือไม่? ฉันมี: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),ดังนั้นฉันคิดว่าคำตอบคือ : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},สำหรับyj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}แต่ฉันไม่แน่ใจ

2
จากมุมมองทางสถิติ: การแปลงฟูริเยร์กับการถดถอยด้วยพื้นฐานของฟูริเยร์
ฉันพยายามที่จะเข้าใจว่าการแปลงฟูริเยร์ไม่ต่อเนื่องนั้นให้เส้นโค้งเดียวกับการถดถอยโดยใช้พื้นฐานของฟูริเยร์หรือไม่ ตัวอย่างเช่น, library(fda) Y=daily$tempav[,1] ## my data length(Y) ## =365 ## create Fourier basis and estimate the coefficients mybasis=create.fourier.basis(c(0,365),365) basisMat=eval.basis(1:365,mybasis) regcoef=coef(lm(Y~basisMat-1)) ## using Fourier transform fftcoef=fft(Y) ## compare head(fftcoef) head(regcoef) FFT ให้จำนวนเชิงซ้อนในขณะที่การถดถอยให้จำนวนจริง พวกเขาถ่ายทอดข้อมูลเดียวกันหรือไม่? มีแผนที่หนึ่งถึงหนึ่งระหว่างตัวเลขสองชุดหรือไม่ (ฉันจะขอบคุณถ้าคำตอบนั้นเขียนจากมุมมองของนักสถิติแทนที่จะเป็นมุมมองของวิศวกรวัสดุออนไลน์มากมายที่ฉันสามารถหาได้มีศัพท์แสงทางวิศวกรรมทั่วสถานที่ซึ่งทำให้ฉันพอใจน้อยลง)

2
ทำไมเครือข่ายประสาทถูกหลอกง่าย
ฉันได้อ่านเอกสารเกี่ยวกับการสร้างภาพด้วยตนเองเพื่อ "หลอก" เครือข่ายประสาท (ดูด้านล่าง) นี่เป็นเพราะเครือข่ายเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขเท่านั้นหรือไม่? หากเครือข่ายสามารถจำลองความน่าจะเป็นแบบร่วมกรณีดังกล่าวจะยังคงเกิดขึ้นได้หรือไม่p ( y , x )p(y|x)p(y|x)p(y|x)p(y,x)p(y,x)p(y,x) ฉันเดาภาพที่สร้างขึ้นเทียมดังกล่าวมีความแตกต่างจากข้อมูลการฝึกอบรมเพื่อให้พวกเขามีความน่าจะเป็นที่ต่ำ(x) ดังนั้นควรต่ำแม้ว่าจะสูงสำหรับภาพเหล่านี้p ( y , x ) p ( y | x )p(x)p(x)p(x)p(y,x)p(y,x)p(y,x)p(y|x)p(y|x)p(y|x) ปรับปรุง ฉันลองแบบจำลองทั่วไปแล้วมันกลับกลายเป็นว่าไม่ได้มีประโยชน์ดังนั้นฉันเดาว่านี่น่าจะเป็นผลมาจาก MLE? ฉันหมายถึงในกรณีที่ KL divergence ถูกใช้เป็นฟังก์ชันการสูญเสียค่าของโดยที่มีขนาดเล็กไม่ส่งผลกระทบต่อการสูญเสีย ดังนั้นสำหรับอิมเมจที่วางแผนไว้ซึ่งไม่ตรงกับค่าของสามารถกำหนดเองได้p d a t a ( x ) p d a t a p θpθ(x)pθ(x)p_{\theta}(x)pdata(x)pdata(x)p_{data}(x)pdatapdatap_{data}pθpθp_{\theta} ปรับปรุง ฉันพบบล็อกของ Andrej Karpathy …

3
ทำไมเป็น
ในหน้ากลาง AP นี้ตัวแปรสุ่มเทียบกับตัวแปรเชิงพีชคณิตผู้เขียนปีเตอร์ฟลานาแกน - ไฮด์ดึงดูดความแตกต่างระหว่างตัวแปรพีชคณิตและสุ่ม ในส่วนที่เขาพูดว่า x+x=2xx+x=2xx + x = 2xแต่ X+X≠2XX+X≠2XX + X \neq 2X - ในความเป็นจริงมันเป็นคำบรรยายของบทความ อะไรคือความแตกต่างพื้นฐานระหว่างตัวแปรพีชคณิตและตัวแปรสุ่ม?

3
ทำ MCMC: ใช้ jags / stan หรือใช้ด้วยตนเอง
ฉันใหม่สำหรับการวิจัยสถิติแบบเบย์ ฉันได้ยินจากนักวิจัยว่านักวิจัยชาวเบย์นำเอา MCMC มาใช้ด้วยตัวเองแทนที่จะใช้เครื่องมืออย่าง JAGS / Stan ฉันขอถามว่าประโยชน์ของการใช้อัลกอริทึม MCMC ด้วยตัวเอง (ในภาษา "ไม่ค่อนข้างเร็ว" เช่น R) คืออะไรยกเว้นเพื่อการเรียนรู้?
13 bayesian  mcmc 

2
ข้อมูลอินพุตที่สัมพันธ์กันนำไปสู่การ overfitting กับเครือข่ายประสาทเทียมหรือไม่
ในความคิดของฉันข้อมูลที่สัมพันธ์กันจะต้องนำไปสู่การ overfitting ในเครือข่ายประสาทเพราะเครือข่ายเรียนรู้ความสัมพันธ์เช่นเสียงในข้อมูล ถูกต้องหรือไม่

5
สถิติด้านคณิตศาสตร์ใดบ้างที่มีประโยชน์สูง
ฉันกำลังจะสำเร็จการศึกษาด้านสถิติและฉันต้องการเรียนปริญญาเอกเพราะฉันพบว่าสถิติทางคณิตศาสตร์น่าสนใจอย่างยิ่ง สาขาการวิจัยที่ฉันอยากทำในระดับปริญญาเอกส่วนใหญ่เป็นกระบวนการแบบสุ่มและอนุกรมเวลา อย่างไรก็ตามฉันยังต้องการที่จะประกอบอาชีพในภาคเอกชนหลังจากปริญญาเอกของฉัน ฉันสงสัยว่าส่วนใดของสถิติทางคณิตศาสตร์ที่ใช้มากที่สุดในภาคเอกชนและงานประเภทใด เห็นได้ชัดว่าฉันจะไม่ทำปริญญาเอกเพียงเพราะมันจ้างได้ แต่ฉันรู้สึกว่ามันเป็นสิ่งที่ฉันต้องพิจารณาอย่างแน่นอนและต้องการคำแนะนำ

3
เหตุใดจึงมีค่าสัมประสิทธิ์จำนวนมากสำหรับพหุนามลำดับที่สูงขึ้น
ในหนังสือของบิชอปเกี่ยวกับการเรียนรู้ของเครื่องมันกล่าวถึงปัญหาของการปรับฟังก์ชั่นพหุนามให้เหมาะกับจุดข้อมูล ให้ M เป็นคำสั่งของพหุนามที่พอดี มันระบุว่า เราเห็นว่าเมื่อ M เพิ่มขึ้นขนาดของสัมประสิทธิ์มักจะใหญ่ขึ้น โดยเฉพาะอย่างยิ่งสำหรับ M = 9 พหุนามสัมประสิทธิ์ได้ถูกปรับให้เข้ากับข้อมูลอย่างละเอียดโดยการพัฒนาค่าบวกและลบขนาดใหญ่เพื่อให้ฟังก์ชั่นพหุนามที่ตรงกันจับคู่แต่ละจุดข้อมูลตรง แต่ระหว่างจุดข้อมูล (โดยเฉพาะใกล้จุดสิ้นสุดของ ช่วง) ฟังก์ชั่นการจัดแสดงการสั่นขนาดใหญ่ ฉันไม่เข้าใจว่าทำไมค่าขนาดใหญ่จึงหมายถึงการปรับจุดข้อมูลให้ละเอียดยิ่งขึ้น ฉันคิดว่าค่าจะแม่นยำมากขึ้นหลังจากจุดทศนิยมแทนเพื่อการปรับที่ดีขึ้น

5
ทำไมถึงต้องศึกษาการถดถอยเชิงเส้น
ให้ตัวแปรสุ่มสองตัวและเราสามารถคำนวณ "สัมประสิทธิ์สหสัมพันธ์"และสร้างเส้นที่เหมาะสมที่สุดระหว่างตัวแปรสุ่มสองตัวนี้ คำถามของฉันคือทำไมη คξξ\xiηη\etaคcc 1) มีตัวแปรสุ่มเป็นและซึ่งจะขึ้นอยู่ในทางที่เลวร้ายที่สุดคือและแม้จะมีนี้ 0 ถ้าใครคนหนึ่งคิดตามการถดถอยเชิงเส้นก็จะทำให้คนตาบอดโดยสิ้นเชิงη ξ = F ( η ) C = 0ξξ\xiηη\etaξ= f( η)ξ=f(η)\xi = f(\eta)c = 0c=0c=0 2) ทำไมต้องเป็นเส้นตรง มีความสัมพันธ์ประเภทอื่น ๆ ที่สามารถมีอยู่ระหว่างตัวแปรสุ่ม ทำไมหนึ่งเดียวที่ออกมาจากคนอื่น ๆ ทั้งหมด?
13 regression 

2
ประโยชน์ของการกระจายแบบปกติที่ถูกตัดทอนในการเริ่มต้นน้ำหนักในเครือข่ายประสาทคืออะไร
เมื่อเริ่มต้นน้ำหนักการเชื่อมต่อในเครือข่ายประสาท feedforward เป็นสิ่งสำคัญที่จะเริ่มต้นพวกเขาแบบสุ่มเพื่อหลีกเลี่ยง symmetries ใด ๆ ที่อัลกอริทึมการเรียนรู้จะไม่สามารถทำลาย คำแนะนำที่ฉันได้เห็นในสถานที่ต่าง ๆ (เช่นในการสอน MNIST ของTensorFlow ) คือการใช้การแจกแจงแบบปกติที่ถูกตัดทอนโดยใช้ค่าเบี่ยงเบนมาตรฐานของโดยที่คือจำนวนอินพุตของ รับชั้นเซลล์ประสาท1ยังไม่มีข้อความ--√1N\dfrac{1}{\sqrt{N}}ยังไม่มีข้อความNN ฉันเชื่อว่าสูตรค่าเบี่ยงเบนมาตรฐานช่วยให้มั่นใจว่าการไล่ระดับสีที่ backpropagated ไม่ละลายหรือขยายเร็วเกินไป แต่ฉันไม่รู้ว่าทำไมเราจึงใช้การแจกแจงแบบปกติที่ถูกตัดทอนเมื่อเทียบกับการแจกแจงแบบปกติทั่วไป มันคือการหลีกเลี่ยงน้ำหนักผิดปกติที่หายาก?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.