สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
อะไรคือสิ่งที่เรียกว่า "องค์ประกอบหลัก" ใน PCA
สมมติว่าเป็นเวกเตอร์ที่เพิ่มความแปรปรวนของการประมาณการของข้อมูลที่มีการออกแบบเมทริกซ์XXuuuXXX ตอนนี้ฉันได้เห็นวัสดุที่อ้างถึงว่าเป็นองค์ประกอบหลัก (แรก) ของข้อมูลซึ่งเป็นไอเก็นเวกเตอร์ที่มีค่าลักษณะเฉพาะที่ใหญ่ที่สุดuuu แต่ผมยังได้เห็นว่าองค์ประกอบหลักของข้อมูลที่เป็นยูXuXuX u เห็นได้ชัดว่ากับเป็นคนละเรื่องกัน ใครสามารถช่วยฉันออกจากที่นี่และบอกฉันว่าอะไรคือความแตกต่างระหว่างคำจำกัดความสององค์ประกอบหลักX คุณuuuXuXuXu

3
วิธีการคำนวณข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยโลจิสติก
ฉันใช้ Scikit เรียนรู้ของ Python ในการฝึกอบรมและทดสอบการถดถอยโลจิสติก scikit-Learn จะส่งกลับค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระ แต่ไม่ได้ให้ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ ฉันต้องการข้อผิดพลาดมาตรฐานเหล่านี้เพื่อคำนวณสถิติ Wald สำหรับค่าสัมประสิทธิ์แต่ละค่าและเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้กับแต่ละอื่น ๆ ฉันได้พบคำอธิบายวิธีการคำนวณข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของการถดถอยโลจิสติก ( ที่นี่ ) แต่มันค่อนข้างยากที่จะติดตาม หากคุณรู้วิธีอธิบายง่ายๆเกี่ยวกับการคำนวณข้อผิดพลาดมาตรฐานเหล่านี้และ / หรือสามารถให้ข้อผิดพลาดมาตรฐานกับฉันได้ฉันขอขอบคุณจริงๆ! ฉันไม่ได้หมายถึงรหัสเฉพาะ (แต่โปรดโพสต์รหัสใด ๆ ที่อาจเป็นประโยชน์) แต่เป็นคำอธิบายอัลกอริทึมของขั้นตอนที่เกี่ยวข้อง

2
องค์ประกอบความแปรปรวนต่ำใน PCA พวกเขาเป็นเพียงแค่เสียงรบกวนหรือไม่ มีวิธีทดสอบหรือไม่
ฉันกำลังพยายามตัดสินใจว่าจะรักษาส่วนประกอบของ PCA หรือไม่ มี gazillion ของเกณฑ์ขึ้นอยู่กับขนาดของค่าเฉพาะที่อธิบายและเปรียบเทียบเช่นที่นี่หรือที่นี่ อย่างไรก็ตามในใบสมัครของฉันฉันรู้ว่า eigenvalue ขนาดเล็ก (est) จะมีขนาดเล็กเมื่อเทียบกับ eigenvalue ขนาดใหญ่ (st) และเกณฑ์ตามขนาดจะปฏิเสธคนที่มีขนาดเล็ก นี่ไม่ใช่สิ่งที่ฉันต้องการ สิ่งที่ฉันสนใจ: มีวิธีการใดที่รู้จักกันซึ่งคำนึงถึงองค์ประกอบที่สอดคล้องกันจริงของค่าลักษณะเฉพาะขนาดเล็กในแง่: มันเป็นเสียง "เพียง" จริง ๆ ตามนัยในตำราทั้งหมดหรือมีบางสิ่งที่มีศักยภาพ เหลือดอกเบี้ย ถ้าเป็นเสียงรบกวนให้เอาออกหรือเก็บไว้โดยไม่คำนึงถึงขนาดของค่าลักษณะเฉพาะ มีการสุ่มหรือการทดสอบการกระจายสำหรับส่วนประกอบใน PCA ที่ฉันหาไม่พบหรือไม่? หรือใครรู้เหตุผลที่จะเป็นความคิดที่โง่? ปรับปรุง ฮิสโทแกรม (สีเขียว) และการประมาณค่าปกติ (สีน้ำเงิน) ของส่วนประกอบในสองกรณีการใช้งาน: ครั้งหนึ่งอาจเป็นเสียงจริง, ครั้งหนึ่งอาจไม่ใช่เสียง "แค่" (ใช่, ค่ามีขนาดเล็ก แต่อาจไม่สุ่ม) ค่าเอกพจน์ที่ใหญ่ที่สุดคือ ~ 160 ในทั้งสองกรณีค่าที่เล็กที่สุดนั่นคือค่าเอกพจน์นี้คือ 0.0xx - เล็กเกินไปสำหรับวิธีการตัดค่าใด ๆ สิ่งที่ฉันกำลังมองหาคือวิธีที่จะทำให้เป็นระเบียบนี้ …
18 pca 

1
อัลกอริธึมการทำคลัสเตอร์ที่ทำงานกับข้อมูลที่กระจัดกระจาย [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน5 ปีที่ผ่านมา ฉันพยายามรวบรวมรายการอัลกอริทึมการจัดกลุ่มที่: ดำเนินการใน R ดำเนินการกับเมทริกซ์การกระจัดกระจายข้อมูล (ไม่ใช่ (dis) เมทริกซ์ความเหมือนกัน) เช่นที่สร้างขึ้นโดยฟังก์ชันsparseMatrix มีคำถามอื่น ๆ อีกมากมายเกี่ยวกับประวัติย่อที่กล่าวถึงแนวคิดนี้ แต่ไม่มีคำถามใดที่เชื่อมโยงกับแพ็คเกจ R ที่สามารถใช้งานได้โดยตรงกับการฝึกอบรมแบบกระจัดกระจาย: การทำคลัสเตอร์ชุดข้อมูลขนาดใหญ่และกระจัดกระจาย การทำคลัสเตอร์ข้อมูลไบนารีหร็อมแหร็มมิติสูง กำลังมองหาการใช้การจัดกลุ่มแบบกระจัดกระจายและมิติสูง การจัดกลุ่มที่ประหยัดพื้นที่ จนถึงตอนนี้ฉันพบฟังก์ชันหนึ่งฟังก์ชันใน R ที่สามารถจัดกลุ่มเมทริกซ์กระจัดกระจาย: skmeans : kmeans ทรงกลม จากแพคเกจ skmeans kmeans ใช้ระยะโคไซน์ ทำงานบนวัตถุ dgTMatrix จัดเตรียมอินเตอร์เฟสกับอัลกอริทึม k-mean, pclust, CLUTO, gmeans และ kmndirs ตัวอย่าง: library(Matrix) set.seed(42) nrow <- …
18 r  clustering  sparse 

1
MANOVA เกี่ยวข้องกับ LDA อย่างไร
ในหลาย ๆ ที่ฉันเห็นการกล่าวอ้างว่า MANOVA เป็นเหมือน ANOVA บวกกับการวิเคราะห์จำแนกเชิงเส้น (LDA) แต่มันถูกสร้างขึ้นด้วยวิธีการโบกมือด้วยมือเสมอ ฉันอยากจะรู้ว่ามันควรจะหมายถึงอะไรกันแน่ ผมพบว่าตำราต่างๆที่อธิบายถึงรายละเอียดทั้งหมดของการคำนวณ MANOVA แต่มันดูเหมือนว่าจะเป็นเรื่องยากมากที่จะหาการอภิปรายทั่วไปดี (นับประสาภาพ ) เข้าถึงได้ให้กับคนที่ไม่ได้เป็นสถิติ


4
จะคำนวณจำนวนฟีเจอร์ตามความละเอียดของภาพได้อย่างไร?
เพิ่งครอบคลุมสมมุติฐานของ Neural Netowrks ที่ไม่ใช่เชิงเส้นของ Andrew Ng และเรามีคำถามแบบปรนัยสำหรับกำหนดจำนวนของคุณสมบัติสำหรับภาพความละเอียด100x100ของความเข้มระดับgrescale และคำตอบคือ 50 ล้าน, x10 755510710710^7 อย่างไรก็ตามก่อนหน้านี้สำหรับรูปภาพขนาด 50 x 50 พิกเซลสีเทา จำนวนคุณสมบัติคือ 50x50 (2500) ทำไมมันจะเป็น xแทน ?10 7 10 , 00055510710710^710,00010,00010,000 อย่างไรก็ตามเขาพูดว่ารวมถึงคำที่เป็นกำลังสองทั้งหมด ( xixjxixjx_ix_j ) เป็นคุณสมบัติ สมมติว่าคุณกำลังเรียนรู้ที่จะรับรู้รถยนต์จากภาพ 100 × 100 พิกเซล (โทนสีเทาไม่ใช่ RGB) ปล่อยให้คุณสมบัติเป็นค่าความเข้มของพิกเซล หากคุณฝึกการถดถอยโลจิสติกรวมถึงเงื่อนไขกำลังสองทั้งหมด ( ) เป็นฟีเจอร์คุณจะมีฟีเจอร์จำนวนเท่าใดxixjxixjx_ix_j และในสไลด์ก่อนหน้าเกี่ยวกับ 100x100 นั้นฟีเจอร์สมการกำลังสอง ( x ) …

9
แกลเลอรี่ของแผนภูมิไดอะแกรมและประเภทการพล็อต
คุณอยากแนะนำอะไรในแกลเลอรีเทคนิคการนำเสนอข้อมูลแบบครอบคลุม? แหล่งข้อมูลที่สามารถใช้อ้างถึงในขณะที่คุณกำลังคิดถึงวิธีการนำเสนอข้อมูลของคุณที่ดีกว่า ฉันได้ระบุสิ่งต่อไปนี้ แต่จะดีใจถ้าคุณสามารถเพิ่มของคุณ: แกลเลอรี่ออนไลน์: http://www.mathworks.com/discovery/gallery.html http://www.idlcoyote.com/gallery/ https://developers.google.com/chart/interactive/docs/gallery?csw=1 http://www.walkingrandomly.com/?p=4788 http://en.wikipedia.org/wiki/Category:Statistical_charts_and_diagrams (ไม่มีแกลเลอรีกราฟิกแบบหน้าเดียว) http://docs.ggplot2.org/current/ http://www.itl.nist.gov/div898/handbook/graphgal.htm http://scikit-learn.org/stable/auto_examples/index.html http://www.stata.com/support/faqs/graphics/gph/stata-graphs/ http://shiny.rstudio.com/gallery/ https://bl.ocks.org/ (กราฟิกแบบอินเทอร์แอกทีฟและเวกเตอร์) http://www.texample.net/tikz/examples/ (การสร้างภาพ TikZ และ PGP พร้อมรหัส) หนังสือ (แปลงกระจัดกระจายไปทั่วหน้า): Edward R. Tufte, การแสดงภาพข้อมูลเชิงปริมาณ นาธานเหยาจุดข้อมูล

3
ความสัมพันธ์ระหว่างความน่าจะเป็นของโปรไฟล์และช่วงความมั่นใจคืออะไร
ในการทำให้แผนภูมินี้ฉันสร้างตัวอย่างสุ่มขนาดแตกต่างจากการแจกแจงแบบปกติด้วยค่าเฉลี่ย = 0 และ sd = 1 ช่วงเวลาความเชื่อมั่นถูกคำนวณโดยใช้การตัดอัลฟาตั้งแต่. 001 ถึง. 999 (เส้นสีแดง) ด้วยฟังก์ชั่น t.test () ความน่าจะเป็นของโปรไฟล์ถูกคำนวณโดยใช้รหัสด้านล่างซึ่งฉันพบในบันทึกการบรรยายที่ใส่ไว้ในบรรทัด ไม่พบลิงค์ในขณะนี้แก้ไข: พบเลย ) นี่จะแสดงเป็นเส้นสีฟ้า เส้นสีเขียวแสดงความหนาแน่นปกติโดยใช้ฟังก์ชั่นความหนาแน่น R () และข้อมูลจะแสดงโดยกล่องสี่เหลี่ยมที่ด้านล่างของแต่ละแผนภูมิ ด้านขวาเป็นโครงเรื่องของช่วงความเชื่อมั่น 95% (สีแดง) และ 1/20 ของช่วงเวลาความน่าจะเป็นสูงสุด (สีน้ำเงิน) รหัส R ที่ใช้สำหรับความเป็นไปได้ของโปรไฟล์: #mn=mean(dat) muVals <- seq(low,high, length = 1000) likVals <- sapply(muVals, function(mu){ (sum((dat - mu)^2) / sum((dat …

2
ผลกระทบของขอบเขตของถังขยะที่อิงกับข้อมูลต่อความดีของไคสแควร์พอดีหรือไม่
ออกจากประเด็นที่ชัดเจนของพลังงานต่ำของไคสแควร์ในสถานการณ์แบบนี้ลองจินตนาการถึงการทดสอบความดีของไคสแควร์สำหรับความหนาแน่นบางส่วนด้วยพารามิเตอร์ที่ไม่ระบุโดยการทำข้อมูล สำหรับ concreteness สมมุติว่าการแจกแจงเลขชี้กำลังมีค่าเฉลี่ยไม่ทราบและขนาดตัวอย่างเท่ากับ 100 เพื่อให้ได้จำนวนการสังเกตที่คาดหวังต่อ bin จำนวนบัญชีที่เหมาะสมจะต้องมีการบันทึกข้อมูล (เช่นถ้าเราเลือกที่จะวาง 6 bins ต่ำกว่าค่าเฉลี่ยและ 4 ด้านบนนั้นจะยังคงใช้ขอบเขตของฐานข้อมูล) . แต่การใช้ถังขยะโดยดูจากข้อมูลนี้น่าจะส่งผลต่อการแจกแจงสถิติการทดสอบภายใต้ค่า Null ฉันได้เห็นการสนทนามากมายเกี่ยวกับความจริงที่ว่า - หากพารามิเตอร์ถูกประเมินโดยความน่าจะเป็นสูงสุดจากข้อมูลที่ถูกทำให้เป็นบ้าเป็นหลัง - คุณเสีย 1 df ต่อพารามิเตอร์โดยประมาณ (ปัญหาย้อนหลังไปถึง Fisher vs Karl Pearson) - แต่ฉันจำไม่ได้ อ่านอะไรก็ได้เกี่ยวกับการค้นหาขอบเขตของตัวถังขยะเองตามข้อมูล (หากคุณประเมินจากข้อมูลที่ไม่ได้รวมดังนั้นด้วยkkk bins การกระจายของสถิติการทดสอบจะอยู่ที่ไหนสักแห่งระหว่างและ a )χ2kχk2\chi^2_{k}χ2k−pχk−p2\chi^2_{k-p} การเลือกใช้ถังขยะแบบอิงข้อมูลนี้ส่งผลต่อระดับหรือกำลังสำคัญอย่างมีนัยสำคัญหรือไม่? มีวิธีการบางอย่างที่สำคัญกว่าวิธีอื่น ๆ หรือไม่? หากมีผลมากมันเป็นสิ่งที่หายไปในกลุ่มตัวอย่างขนาดใหญ่หรือไม่? ถ้ามันมีผลกระทบที่สำคัญนี่จะทำให้การทดสอบแบบไคสแควร์เกิดขึ้นเมื่อพารามิเตอร์ไม่เป็นที่รู้จักเกือบไร้ประโยชน์ในหลาย ๆ กรณี (แม้ว่าจะยังคงได้รับการสนับสนุนในตำราค่อนข้างน้อย) เว้นแต่คุณจะมี -priori ของพารามิเตอร์ …

3
t-test กับข้อมูลที่บิดเบือนสูง
ฉันมีชุดข้อมูลที่มีการตรวจสอบข้อมูลค่ารักษาพยาบาลนับหมื่น ข้อมูลนี้เอียงไปทางขวาอย่างมากและมีศูนย์จำนวนมาก ดูเหมือนว่าสำหรับคนสองชุด (ในกรณีนี้มีวงดนตรีสองวงที่มี> 3000 obs ต่อคน): Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 ถ้าฉันทำการทดสอบ t ของ Welch กับข้อมูลนี้ฉันจะได้ผลลัพธ์กลับมา: Welch Two Sample t-test data: x and y t = …

5
นักสถิติสันนิษฐานว่าไม่มีใครสามารถรดน้ำต้นไม้ได้หรือฉันแค่ใช้คำค้นหาที่ผิดสำหรับการถดถอยเชิงเส้นโค้ง?
เกือบทุกอย่างที่ฉันอ่านเกี่ยวกับการถดถอยเชิงเส้นและ GLM จะลดลงถึงสิ่งนี้:โดยที่เป็นฟังก์ชั่นที่ไม่เพิ่มขึ้นหรือลดลงของและเป็นพารามิเตอร์ของคุณ ประมาณการและทดสอบสมมติฐานเกี่ยวกับ มีหลายสิบของฟังก์ชั่นการเชื่อมโยงและการเปลี่ยนแปลงของการเป็นและจะทำให้ฟังก์ชันเชิงเส้นของ\)y=f(x,β)y=f(x,β)y = f(x,\beta)f(x,β)f(x,β)f(x,\beta)xxxββ\betayyyxxxyyyf(x,β)f(x,β)f(x,\beta) ตอนนี้ถ้าคุณลบข้อกำหนดที่ไม่เพิ่ม / ไม่ลดสำหรับฉันรู้เพียงสองทางเลือกสำหรับการปรับโมเดลพาราเมตริกเมทริกซ์ที่ปรับให้เหมาะสม: ฟังก์ชันตรีโกณมิติและพหุนาม ทั้งคู่สร้างการพึ่งพาอาศัยกันระหว่างแต่ละคาดการณ์และทั้งชุดของทำให้พวกเขาพอดีไม่แข็งแรงมากเว้นแต่มีเหตุผลก่อนที่จะเชื่อว่าข้อมูลของคุณถูกสร้างขึ้นจริงโดยกระบวนการวัฏจักรหรือพหุนามy Xf(x,β)f(x,β)f(x,\beta)yyyXXX นี่ไม่ใช่กรณีขอบลึกลับบางอย่าง มันคือความสัมพันธ์ที่เกิดขึ้นจริงและสามัญสำนึกระหว่างน้ำกับผลผลิต (เมื่อแปลงอยู่ลึกพอใต้น้ำผลผลิตของพืชจะเริ่มลดลง) หรือระหว่างแคลอรี่ที่บริโภคในอาหารเช้าและประสิทธิภาพในการตอบคำถามคณิตศาสตร์หรือจำนวนคนงานในโรงงาน และจำนวนของวิดเจ็ตที่พวกเขาสร้าง ... โดยสังเขปเกือบทุกกรณีในชีวิตจริงที่ใช้โมเดลเชิงเส้น แต่ด้วยข้อมูลที่ครอบคลุมช่วงกว้างพอที่คุณไปผ่านการลดขนาดลงของผลตอบแทนเป็นผลตอบแทนติดลบ ฉันพยายามค้นหาคำว่า 'เว้า', 'นูน', 'โค้ง', 'ไม่ใช่โมโนโทนิก', 'อ่างอาบน้ำ' และฉันลืมว่ามีคนอื่นอีกกี่คน คำถามที่เกี่ยวข้องน้อยและคำตอบที่ใช้ได้น้อยลง ดังนั้นในทางปฏิบัติหากคุณมีข้อมูลต่อไปนี้ (รหัส R y เป็นฟังก์ชันของตัวแปร x ต่อเนื่องและกลุ่มตัวแปรแยก): updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); คุณอาจลองใช้การแปลงแบบ Box-Cox ก่อนและดูว่ามันเหมาะสมหรือไม่และคุณอาจจะพอดีกับโมเดลกำลังสองที่ไม่เชิงเส้นด้วยฟังก์ชันลอจิสติกหรือการเชื่อมโยงแบบอะซิมโทติก ดังนั้นทำไมคุณควรเลิกใช้พารามิเตอร์แบบจำลองอย่างสมบูรณ์และถอยกลับด้วยวิธีกล่องดำเหมือนเส้นโค้งเมื่อคุณพบว่าชุดข้อมูลแบบเต็มมีลักษณะเช่นนี้ ... plot(y~x,updown,col=group); คำถามของฉันคือ: ฉันควรค้นหาคำใดเพื่อค้นหาฟังก์ชันลิงก์ที่เป็นตัวแทนของคลาสของความสัมพันธ์การทำงานนี้ หรือ ฉันควรอ่านอะไรและ …

1
ฟรีอินเทอร์เน็ตหรือทรัพยากรที่สามารถดาวน์โหลดได้สำหรับการคำนวณขนาดตัวอย่าง
วันนี้ผมสังเกตเห็นคำถามนี้และผมคิดว่ามันจะเป็นประโยชน์ถ้าเรามีหัวข้อว่าทรัพยากรที่ระบุไว้ว่าคนที่สามารถอำนวยความสะดวกการเข้าถึงสำหรับการวิเคราะห์พลังงาน / การคำนวณขนาดของกลุ่มตัวอย่างอาจจะคล้ายกับกระทู้นี้: ทรัพยากรสำหรับการเรียนรู้ R

9
ระยะทาง Mahalanobis Pairwise
ฉันจำเป็นต้องคำนวณตัวอย่างระยะทาง Mahalanobis ใน R ระหว่างการสังเกตทุกคู่ในเมทริกซ์n×pn×pn \times pของ covariates ฉันต้องการวิธีแก้ปัญหาที่มีประสิทธิภาพเช่นคำนวณระยะทางn(n−1)/2n(n−1)/2n(n-1)/2เท่านั้นและนำไปใช้ใน C / RCpp / Fortran เป็นต้นฉันคิดว่าเมทริกซ์ความแปรปรวนร่วมของประชากรไม่เป็นที่รู้จักและใช้ตัวอย่าง เมทริกซ์ความแปรปรวนร่วมในสถานที่ΣΣ\Sigma ฉันสนใจเป็นพิเศษในคำถามนี้เนื่องจากดูเหมือนจะไม่มีวิธี "ฉันทามติ" สำหรับการคำนวณระยะทาง Mahalanobis ในระดับ R แบบ pairwiseนั่นคือมันไม่ได้ใช้งานในdistฟังก์ชั่นหรือในcluster::daisyฟังก์ชั่น mahalanobisฟังก์ชั่นไม่ได้คำนวณระยะทางจากจำนวนโดยไม่ต้องทำงานเพิ่มขึ้นจากโปรแกรมเมอร์ นี่ถูกถามแล้วที่นี่ระยะทาง Pairwise Mahalanobis ใน Rแต่การแก้ปัญหาที่นั่นดูเหมือนไม่ถูกต้อง นี่คือที่ถูกต้อง แต่ไม่มีประสิทธิภาพชะมัด (ตั้งแต่n×nn×nn \times nระยะทางคำนวณ) วิธีการ: set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) …
18 r  algorithms  distance 

5
ความน่าจะเป็นของการวาดคำที่กำหนดจากถุงตัวอักษรใน Scrabble
สมมติว่าคุณมีถุงที่มีกระเบื้องแต่ละคนมีตัวอักษรบนมัน มีมีตัวอักษร 'A',พร้อมด้วย 'B' และอื่น ๆ และ 'ไวด์การ์ด' (เรามี ) สมมติว่าคุณมีพจนานุกรมที่มีจำนวนคำ จำกัดnnnnAnAn_AnBnBn_Bn∗n∗n_*n=nA+nB+…+nZ+n∗n=nA+nB+…+nZ+n∗n = n_A + n_B + \ldots + n_Z + n_* คุณเลือกไพ่จากกระเป๋าโดยไม่มีการเปลี่ยนkkk คุณจะคำนวณ (หรือประมาณ) ความน่าจะเป็นที่คุณสามารถจัดรูปแบบของคำที่กำหนดความยาว (ด้วย 1 < l = < k ) จากพจนานุกรมที่ให้การเรียงตัวkได้อย่างไรllllllkkkkkk สำหรับผู้ที่ไม่คุ้นเคยกับ Scrabble (TM) สามารถใช้อักขระตัวแทนเพื่อจับคู่กับตัวอักษรใดก็ได้ ดังนั้นคำว่า 'BOOT' อาจเป็น 'สะกด' ด้วย 'B', '*', 'O', 'T' ลำดับที่ตัวอักษรถูกวาดไม่สำคัญ คำแนะนำ: …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.