คำถามติดแท็ก computational-statistics

อ้างถึงอินเทอร์เฟซของสถิติและการคำนวณ การใช้อัลกอริทึมและซอฟต์แวร์เพื่อจุดประสงค์ทางสถิติ

1
วิธีการแก้ปัญหาแบบปิดเพื่อแก้ไขปัญหา lasso เมื่อ data matrix เป็นแนวทแยง
\newcommand{\diag}{\operatorname{diag}}เรามีปัญหา: มีสมมติฐานว่า: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ... , \ sigma_d ^ 2)minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). ในกรณีนี้มีวิธีแก้ปัญหาแบบปิดหรือไม่? ฉันมี: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),ดังนั้นฉันคิดว่าคำตอบคือ : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},สำหรับyj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}แต่ฉันไม่แน่ใจ

7
ทำความเข้าใจกับทฤษฎีสถิติและการใช้งาน
ฉันเพิ่งสำเร็จการศึกษาระดับปริญญาโทด้านการแพทย์และชีวภาพพร้อมกับคณิตศาสตร์วิศวกรรมเป็นพื้นหลัง แม้ว่าโปรแกรมการศึกษาของฉันจะมีหลักสูตรจำนวนมากเกี่ยวกับสถิติทางคณิตศาสตร์ (ดูด้านล่างสำหรับรายการ) ซึ่งฉันจัดการด้วยคะแนนที่ค่อนข้างสูง แต่ฉันก็จบลงด้วยการสูญเสียการจ้องมองทั้งทฤษฎีและการประยุกต์ใช้สถิติ ฉันต้องบอกว่าเมื่อเทียบกับคณิตศาสตร์ "บริสุทธิ์" สถิติจริง ๆ แล้วสมเหตุสมผลสำหรับฉัน โดยเฉพาะอย่างยิ่งสัญลักษณ์และภาษาที่ใช้โดยนักสถิติส่วนใหญ่ (รวมถึงผู้บรรยายที่ผ่านมาของฉัน) นั้นซับซ้อนและน่ารำคาญและแทบไม่มีทรัพยากรใด ๆ ที่ฉันเคยเห็นมาจนถึงตอนนี้ (รวมถึงวิกิพีเดีย) มีตัวอย่างง่าย ๆ .. นี่คือพื้นหลัง; ฉันยังตระหนักถึงความจริงที่ขมขื่นที่ฉันไม่สามารถมีอาชีพในฐานะนักวิจัย / วิศวกรโดยที่ไม่ยึดมั่นกับสถิติโดยเฉพาะอย่างยิ่งในสาขาชีวสารสนเทศศาสตร์ ฉันหวังว่าฉันจะได้รับคำแนะนำจากนักสถิติ / นักคณิตศาสตร์ที่มีประสบการณ์มากขึ้น ฉันจะเอาชนะปัญหาที่ฉันได้กล่าวถึงข้างต้นได้อย่างไร คุณรู้จักแหล่งข้อมูลที่ดีหรือไม่ เช่นหนังสือ e-books หลักสูตรเปิด (ผ่าน iTunes หรือ OpenCourseware สำหรับอดีต) ฯลฯ แก้ไข:ตามที่ฉันได้กล่าวถึงฉันค่อนข้างลำเอียง (ลบ) ต่อวรรณกรรมส่วนใหญ่ภายใต้ชื่อเรื่องทั่วไปของสถิติและเนื่องจากฉันไม่สามารถซื้อหนังสือเรียนขนาดใหญ่ (และแพง) จำนวนมากต่อสาขาของสถิติสิ่งที่ฉันต้องการ ในแง่ของหนังสือเป็นสิ่งที่คล้ายกับสิ่งที่Tipler & Mosca สำหรับฟิสิกส์ แต่สำหรับสถิติ สำหรับผู้ที่ไม่รู้เกี่ยวกับ Tipler มันเป็นตำราเรียนขนาดใหญ่ที่ครอบคลุมเนื้อหาส่วนใหญ่ที่อาจพบได้ในระหว่างการศึกษาระดับสูง …

1
ฉันจะปรับประสิทธิภาพการคำนวณให้เหมาะสมได้อย่างไรเมื่อติดตั้งแบบจำลองที่ซับซ้อนกับชุดข้อมูลขนาดใหญ่ซ้ำ ๆ
ฉันประสบปัญหาประสิทธิภาพการทำงานโดยใช้MCMCglmmแพ็คเกจใน R เพื่อเรียกใช้โมเดลเอฟเฟกต์แบบผสม รหัสมีลักษณะดังนี้: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) มีการสำรวจข้อมูลประมาณ 20,000 ครั้งและมีการรวมกลุ่มกันในโรงเรียนประมาณ 200 แห่ง ฉันลบตัวแปรที่ไม่ได้ใช้ทั้งหมดจากดาต้าเฟรมและลบวัตถุอื่นทั้งหมดออกจากหน่วยความจำก่อนที่จะทำงาน ปัญหาที่ฉันมีคือมันใช้เวลานานมากในการรันยกเว้นว่าฉันจะลดการวนซ้ำให้เหลือน้อยมาก ด้วย 50,000 ซ้ำมันใช้เวลา 5 ชั่วโมงและฉันมีรูปแบบที่แตกต่างกันมากมายในการทำงาน ดังนั้นฉันต้องการทราบว่ามีวิธีเร่งความเร็วในการเรียกใช้รหัสหรือแพ็คเกจอื่น ๆ ที่ฉันสามารถใช้ได้ ฉันใช้MCMCglmmเพราะฉันต้องการช่วงความมั่นใจสำหรับเอฟเฟกต์แบบสุ่ม ในทางกลับกันฉันหวังว่าจะได้รับพีซีเครื่องใหม่ในปีนี้ แต่โชคดีที่ฉันสามารถนำมันไปข้างหน้าได้ดังนั้นฉันจึงสงสัยว่าจะใช้เงินจำนวน จำกัด กับฮาร์ดแวร์ใหม่ได้ดีที่สุด - RAM เพิ่มเติม เร็วกว่าซีพียู ฯลฯ จากการดูตัวจัดการงานฉันไม่เชื่อว่า RAM เป็นปัญหา (ไม่เคยใช้งานเกิน 50% ของการใช้งานจริง) แต่การใช้งาน CPU ไม่ได้สูงกว่า 50% มากซึ่งทำให้ฉันแปลก …

4
การตรวจจับที่ผิดพลาดในอนุกรมเวลา: วิธีลดผลบวกปลอม?
ฉันพยายามที่จะทำงานโดยอัตโนมัติขอบเขตการตรวจสอบในอนุกรมเวลาและฉันใช้การปรับเปลี่ยนของการแก้ปัญหาที่เสนอโดยร็อบ Hyndman ที่นี่ บอกว่าฉันวัดการเข้าชมเว็บไซต์ทุกวันจากหลายประเทศ สำหรับบางประเทศที่การเข้าชมรายวันเป็นสองสามหมื่นหรือหลายพันวิธีการของฉันดูเหมือนจะทำงานได้อย่างสมเหตุสมผล อย่างไรก็ตามในกรณีที่ประเทศหนึ่งนำไปสู่การเยี่ยมชมเพียง 1 หรือ 2 ครั้งต่อวันข้อ จำกัด ของอัลกอริทึมนั้นแคบมาก (เช่น 1 ± 0.001) ดังนั้นการเข้าชม 2 ครั้งจึงถือว่าเป็นค่าที่ผิดปกติ ฉันจะตรวจจับกรณีดังกล่าวโดยอัตโนมัติได้อย่างไรและฉันจะปฏิบัติต่อพวกเขาเพื่อระบุค่าผิดปกติได้อย่างไร ฉันไม่ต้องการตั้งเกณฑ์แบบกำหนดเองเป็น 100 ครั้งต่อวัน ขอบคุณ!

3
การใช้คอมพิวเตอร์จำลองเพื่อเข้าใจแนวคิดทางสถิติในระดับบัณฑิตศึกษา
สวัสดีฉันกำลังเรียนหลักสูตรบัณฑิตศึกษาในสถิติและเราได้ครอบคลุมสถิติการทดสอบและแนวคิดอื่น ๆ อย่างไรก็ตามฉันมักจะสามารถใช้สูตรและพัฒนาสัญชาตญาณเกี่ยวกับวิธีการทำงาน แต่ฉันมักจะรู้สึกว่าถ้าฉันสำรองการศึกษาของฉันด้วยการทดลองจำลองฉันจะพัฒนาสัญชาตญาณเป็นปัญหาที่มือ . ดังนั้นฉันจึงคิดว่าจะเขียนแบบจำลองง่าย ๆ เพื่อให้เข้าใจแนวคิดบางอย่างที่เราพูดถึงในชั้นเรียนได้ดีขึ้น ตอนนี้ฉันสามารถใช้พูด Java เพื่อ: สร้างประชากรสุ่มโดยมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน จากนั้นนำตัวอย่างเล็ก ๆ และลองพยายามคำนวณข้อผิดพลาด Type-I และ Type-II เชิงประจักษ์ ตอนนี้คำถามที่ฉันมีคือ: นี่เป็นวิธีที่ถูกต้องตามกฎหมายในการพัฒนาสัญชาตญาณหรือไม่? มีซอฟต์แวร์ให้ทำเช่นนี้SASหรือRไม่? นี่เป็นวินัยในสถิติที่เกี่ยวข้องกับการเขียนโปรแกรมเช่น: สถิติการทดลองหรือไม่, สถิติการคำนวณ? จำลอง?

1
“ สัมประสิทธิ์สหสัมพันธ์สูงสุด” นี้คืออะไร?
สถิติการประมวลผลรูปภาพทั่วไปคือการใช้คุณสมบัติพื้นผิวของHaralickซึ่งก็คือ 14 ฉันสงสัยเกี่ยวกับคุณลักษณะที่ 14 ของเหล่านี้: เนื่องจากแผนที่ adjacency (ซึ่งเราสามารถดูการกระจายเชิงประจักษ์ของจำนวนเต็มสองจำนวนi , j &lt; 256 ), มันถูกนิยามเป็น: สแควร์รูทของ eigenvalue ที่สองของ , โดยที่คือ:PPPฉัน, j &lt; 256i,j&lt;256i,j < 256QQQQQQ Qฉันเจ= ∑kP( ฉัน, k ) P( j , k )[ ∑xP( x , i ) ] [ ∑YP( k , y) ]Qij=∑kP(i,k)P(j,k)[∑xP(x,i)][∑yP(k,y)]Q_{ij} = \sum_k \frac{ P(i,k) …

1
กำลังค้นหากลุ่มควบคุมเทียบเคียงสำหรับกลุ่มการรักษาหรือไม่?
ฉันมีกลุ่มการรักษาขนาด 30 (30 โรงเรียนในแคลิฟอร์เนีย) ที่ใช้ซอฟต์แวร์เสริมทางคณิตศาสตร์ ในการวิเคราะห์อย่างง่ายฉันต้องการเปรียบเทียบการเจริญเติบโตทางคณิตศาสตร์เฉลี่ยของนักเรียนระหว่างกลุ่มการรักษาของเรากับกลุ่มควบคุมที่เปรียบเทียบกันได้ มีหลายโรงเรียนใน CA ที่ไม่ได้ใช้ซอฟต์แวร์ ฉันต้องการให้กลุ่มควบคุมรวมโรงเรียนที่คล้ายคลึงกัน (คะแนนพื้นฐานของพวกเขาคล้ายกับโรงเรียนสอนบำบัดที่มีข้อผิดพลาดที่สมเหตุสมผล) นอกจากนี้ฉันต้องการให้กลุ่มตัวอย่างเป็นกลุ่มรักษา 3 เท่า (ที่นี่ 90 โรงเรียน) มีตัวเลือกมากมายให้เลือก 90 โรงเรียนจากกว่า 1,000 โรงเรียนในแคลิฟอร์เนีย คุณจะเลือกกลุ่มควบคุมอย่างไร

2
เมทริกซ์ความแปรปรวนร่วมผกผันกับเมทริกซ์ความแปรปรวนร่วมใน PCA
ใน PCA มันสร้างความแตกต่างหรือไม่ถ้าเราเลือกส่วนประกอบหลักของเมทริกซ์ความแปรปรวนร่วมผกผันหรือถ้าเราปล่อยค่าลักษณะเฉพาะความแปรปรวนร่วมของเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกับค่าลักษณะเฉพาะขนาดใหญ่ สิ่งนี้เกี่ยวข้องกับการสนทนาในโพสต์นี้

3
เป็นไปได้ใน R (หรือโดยทั่วไป) เพื่อบังคับให้สัมประสิทธิ์การถดถอยเป็นสัญญาณที่แน่นอน?
ฉันกำลังทำงานกับข้อมูลโลกแห่งความจริงและตัวแบบการถดถอยกำลังให้ผลลัพธ์ที่ตรงข้าม โดยปกติฉันเชื่อถือสถิติ แต่ในความเป็นจริงสิ่งเหล่านี้ไม่สามารถเป็นจริงได้ ปัญหาหลักที่ฉันเห็นคือการเพิ่มขึ้นของตัวแปรหนึ่งทำให้การตอบสนองเพิ่มขึ้นเมื่อในความเป็นจริงในความเป็นจริงพวกเขาจะต้องมีความสัมพันธ์เชิงลบ มีวิธีการบังคับให้ลงชื่อเฉพาะสำหรับแต่ละสัมประสิทธิ์การถดถอยหรือไม่? รหัส R ใด ๆ ในการทำเช่นนี้ก็จะได้รับการชื่นชมเช่นกัน ขอบคุณสำหรับความช่วยเหลือใด ๆ !

1
การคำนวณอย่างรวดเร็ว / การประมาณค่าของระบบเชิงเส้นระดับต่ำ
ระบบเชิงเส้นของสมการเป็นที่แพร่หลายในสถิติการคำนวณ ระบบพิเศษหนึ่งที่ฉันได้พบ (เช่นในการวิเคราะห์ปัจจัย) คือระบบ A x = bAx=bAx=b ที่ นี่คือเมทริกซ์แนวทแยงที่มีเส้นทแยงมุมบวกอย่างเคร่งครัดคือ (กับ ) สมมาตรเมทริกซ์กึ่งแน่นอนกึ่งบวกแน่นอนและเป็นเมทริกซ์โดยพลการ เราถูกขอให้แก้ไขระบบเส้นตรงในแนวทแยง (ง่าย) ที่ได้รับการรบกวนโดยเมทริกซ์ระดับต่ำ วิธีที่ไร้เดียงสาในการแก้ปัญหาดังกล่าวข้างต้นคือการกลับโดยใช้สูตรของฟอร์ด อย่างไรก็ตามนั่นไม่ถูกต้องเนื่องจาก Cholesky และ QR factorizations สามารถเร่งแก้ปัญหาของระบบเชิงเส้น (และสมการปกติ) ได้อย่างรวดเร็ว ฉันเพิ่งมาถึง D n × n Ω เมตร× มม« n B n × เมตรA = D + B Ω BTA=D+BΩBTA=D+ B \Omega B^TDDDn × nn×nn\times nΩΩ\Omegam …

4
การทดสอบซอฟต์แวร์ทางสถิติ
เทคนิค / แนวทางใดที่มีประโยชน์ในการทดสอบซอฟต์แวร์เชิงสถิติ ฉันสนใจโปรแกรมที่ใช้การประมาณค่าพารามิเตอร์โดยใช้โอกาสสูงสุด การเปรียบเทียบผลลัพธ์จากโปรแกรมอื่นหรือแหล่งข้อมูลที่เผยแพร่นั้นไม่สามารถทำได้ตลอดเวลาเพราะส่วนใหญ่เวลาที่ฉันเขียนโปรแกรมของตัวเองเป็นเพราะการคำนวณที่ฉันต้องการไม่ได้นำมาใช้ในระบบที่มีอยู่แล้ว ฉันไม่ได้ยืนยันในวิธีการที่สามารถรับประกันความถูกต้องได้ ฉันยินดีที่จะใช้เทคนิคที่สามารถตรวจจับข้อผิดพลาดบางส่วนได้

4
ทำไมต้องใช้การไล่ระดับสี
เมื่อเราสามารถแยกความแตกต่างของฟังก์ชั่นค่าใช้จ่ายและค้นหาพารามิเตอร์โดยการแก้สมการที่ได้จากความแตกต่างบางส่วนที่เกี่ยวกับพารามิเตอร์ทุกตัวและหาตำแหน่งที่ฟังก์ชั่นค่าใช้จ่ายต่ำสุด นอกจากนี้ฉันคิดว่ามันเป็นไปได้ที่จะหาสถานที่หลายแห่งที่อนุพันธ์เป็นศูนย์ดังนั้นเราจึงสามารถตรวจสอบสถานที่ดังกล่าวทั้งหมดและสามารถหาระดับโลกขั้นต่ำได้ ทำไมการไล่ระดับสีแทนจึงดำเนินการแทน

2
วิธีตัวอย่างจากการกระจายแบบไม่ต่อเนื่องในจำนวนเต็มไม่ลบ
ฉันมีการกระจายแบบไม่ต่อเนื่องโดยที่เป็นค่าคงที่ที่รู้จัก:α,βα,β\alpha,\beta p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,…p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots มีวิธีใดบ้างในการสุ่มตัวอย่างอย่างมีประสิทธิภาพจากการกระจายนี้

3
การตรวจจับความผิดปกติของอนุกรมเวลาด้วย Python
ฉันต้องใช้การตรวจจับความผิดปกติกับชุดข้อมูลอนุกรมเวลาหลายชุด ฉันไม่เคยทำแบบนี้มาก่อนและหวังว่าจะได้รับคำแนะนำ ฉันพอใจกับ python ดังนั้นฉันจึงชอบที่จะใช้งานโซลูชันนี้ (ส่วนใหญ่โค้ดของฉันคือ python สำหรับส่วนอื่น ๆ ของงานของฉัน) คำอธิบายของข้อมูล: เป็นข้อมูลอนุกรมเวลารายเดือนที่เพิ่งเริ่มเก็บในช่วง 2 ปีที่ผ่านมาหรือมากกว่านั้น (เช่นช่วงเวลา 24-36 เท่านั้น) โดยพื้นฐานแล้วมีตัวชี้วัดหลายตัวที่ถูกตรวจสอบเป็นรายเดือนสำหรับลูกค้าหลายราย time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... นี่คือสิ่งที่ฉันกำลังคิด: ดึงข้อมูลลงใน dataframe (pandas) จากนั้นคำนวณค่าเฉลี่ย 6 เดือนสำหรับลูกค้า / คู่เมตริกแต่ละราย หากค่าของช่วงเวลาปัจจุบันเกินขีด จำกัด …

1
ค่าใช้จ่ายตัวอย่างของ
ฉันเจอปัญหาการจำลองต่อไปนี้: เนื่องจากชุดของจำนวนจริงที่รู้จักการแจกแจงถูกกำหนดโดย ที่หมายถึงการเป็นส่วนหนึ่งในเชิงบวกของZในขณะที่ฉันสามารถนึกถึงตัวอย่างของ Metropolis-Hastings ที่กำหนดเป้าหมายการกระจายตัวนี้ฉันสงสัยว่ามีตัวเก็บตัวอย่างโดยตรงที่มีประสิทธิภาพโดยใช้ประโยชน์จากความน่าจะเป็นศูนย์จำนวนมากเพื่อลดลำดับของอัลกอริทึมจากถึงง){ω1, … ,ωd}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\}{ - 1 , 1}d{−1,1}d\{-1,1\}^dP (X)= (x1, … ,xd) ) ∝ (x1ω1+ … +xdωd)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+( z)+(z)+(z)_+Zzzโอ(2d)O(2d)O(2^d)O ( d)O(d)O(d)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.