สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
ความเป็นไปได้ที่บุคคลนี้เป็นเพศหญิงคืออะไร
มีคนอยู่ด้านหลังม่าน - ฉันไม่รู้ว่าคนนั้นเป็นผู้หญิงหรือผู้ชาย ฉันรู้ว่าคนที่มีผมยาวและ 90% ของคนที่มีผมยาวเป็นผู้หญิง ฉันรู้ว่าบุคคลนั้นมีกรุ๊ปเลือด AX3 ที่หายากและ 80% ของคนทั้งหมดที่มีกรุ๊ปเลือดนี้เป็นผู้หญิง ความน่าจะเป็นที่บุคคลนั้นเป็นผู้หญิงคืออะไร หมายเหตุ: สูตรดั้งเดิมนี้ได้ขยายออกไปพร้อมกับสมมติฐานสองข้อเพิ่มเติม: 1. กรุ๊ปเลือดและความยาวผมมีความเป็นอิสระ 2. อัตราส่วนเพศชาย: หญิงในประชากรส่วนใหญ่คือ 50:50 (สถานการณ์ที่เฉพาะเจาะจงที่นี่ไม่เกี่ยวข้อง - แต่ฉันมีโครงการเร่งด่วนที่ต้องการให้ฉันทราบวิธีการที่ถูกต้องในการตอบคำถามนี้ความรู้สึกของฉันคือว่ามันเป็นคำถามของความน่าจะเป็นแบบง่าย กว่าสิ่งที่มีคำตอบที่ถกเถียงกันหลายอย่างตามทฤษฎีทางสถิติที่แตกต่างกัน)

2
เหตุใดจึงไม่มีเครื่องมือการเรียนรู้การเสริมลึกสำหรับหมากรุกคล้ายกับ AlphaGo?
คอมพิวเตอร์มีเวลานานที่จะสามารถเล่นหมากรุกโดยใช้ "กำลังดุร้าย" - เทคนิคค้นหาความลึกระดับหนึ่งแล้วประเมินตำแหน่ง อย่างไรก็ตามคอมพิวเตอร์ AlphaGo ใช้ ANN เพื่อประเมินตำแหน่งเท่านั้น (มันไม่ทำการค้นหาเชิงลึกเท่าที่ฉันรู้) เป็นไปได้ไหมที่จะสร้างเอ็นจิ้นหมากรุกที่เล่นหมากรุกในแบบเดียวกับ AlphaGo เล่น Go? ทำไมไม่มีใครทำอย่างนี้? โปรแกรมนี้จะทำงานได้ดีกว่าโปรแกรมหมากรุกชั้นนำ (และผู้เล่นหมากรุก) ในปัจจุบันหรือไม่?

1
PCA จะช่วยในการวิเคราะห์การจัดกลุ่ม k-mean อย่างไร
ความเป็นมา : ฉันต้องการแบ่งเขตที่อยู่อาศัยของเมืองออกเป็นกลุ่มตามลักษณะทางเศรษฐกิจสังคมรวมถึงความหนาแน่นของที่อยู่อาศัยความหนาแน่นของประชากรพื้นที่สีเขียวราคาที่อยู่อาศัยจำนวนโรงเรียน / ศูนย์สุขภาพ / ศูนย์ดูแลเด็กเล็ก ฯลฯ ฉันต้องการที่จะเข้าใจว่ากลุ่มที่แตกต่างกันสามารถแบ่งออกเป็นพื้นที่ที่อยู่อาศัยและสิ่งที่เป็นเอกลักษณ์ของพวกเขา ข้อมูลนี้สามารถอำนวยความสะดวกในการวางแผนเมือง จากตัวอย่างบางส่วน (เปรียบเทียบบล็อกโพสต์นี้: PCA และ K-mean Clustering ของ Delta Aircraft ) ฉันคิดวิธีการวิเคราะห์: ก่อนทำการวิเคราะห์ PCA กำหนดจำนวนของกลุ่มที่ไม่ซ้ำกัน (กลุ่ม) ขึ้นอยู่กับผล PCA (เช่นใช้วิธี "ข้อศอก" หรืออีกทางหนึ่งจำนวนขององค์ประกอบที่อธิบายถึง 80 ถึง 90% ของความแปรปรวนทั้งหมด) หลังจากพิจารณาจำนวนของคลัสเตอร์ให้ใช้การจัดกลุ่ม k-mean เพื่อทำการจำแนก คำถามของฉัน:ดูเหมือนว่าจำนวนขององค์ประกอบ PCA เกี่ยวข้องกับการวิเคราะห์กลุ่ม นั่นคือความจริงถ้าเราพบ 5 ส่วนประกอบ PCA อธิบายมากกว่า 90% ของการเปลี่ยนแปลงของคุณสมบัติทั้งหมดจากนั้นเราจะใช้การจัดกลุ่ม k-mean และรับ 5 …

1
อะไรคือความแตกต่างระหว่าง“ สัมประสิทธิ์การตัดสินใจ” และ“ หมายถึงข้อผิดพลาดกำลังสอง”?
สำหรับปัญหาการถดถอยฉันเคยเห็นผู้คนใช้ "สัมประสิทธิ์การตัดสินใจ" (aka R squared) เพื่อทำการเลือกแบบจำลองเช่นการค้นหาค่าสัมประสิทธิ์การลงโทษที่เหมาะสมสำหรับการทำให้เป็นมาตรฐาน อย่างไรก็ตามมันเป็นเรื่องธรรมดาที่จะใช้ "mean squared error" หรือ "root Mean squared error" เป็นการวัดความแม่นยำในการถดถอย แล้วความแตกต่างหลักระหว่างสองสิ่งนี้คืออะไร? พวกเขาสามารถใช้แทนกันได้สำหรับงาน "normalization" และ "ถดถอย" หรือไม่? และอะไรคือการใช้งานหลักของแต่ละอย่างในทางปฏิบัติเช่นในการเรียนรู้ของเครื่องจักรงานการขุดข้อมูล

3
PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม: PCA ที่สัมพันธ์กันนั้นสมเหตุสมผลหรือไม่? [ปิด]
ในการวิเคราะห์องค์ประกอบหลัก (PCA) เราสามารถเลือกเมทริกซ์ความแปรปรวนร่วมหรือเมทริกซ์สหสัมพันธ์เพื่อค้นหาส่วนประกอบ (จาก eigenvectors ที่เกี่ยวข้อง) สิ่งเหล่านี้ให้ผลลัพธ์ที่แตกต่าง (การโหลด PC และคะแนน) เนื่องจาก eigenvector ระหว่างเมทริกซ์ทั้งสองไม่เท่ากัน ความเข้าใจของฉันคือว่าสิ่งนี้เกิดจากความจริงที่ว่าเวกเตอร์ข้อมูลดิบและมาตรฐานไม่สามารถเกี่ยวข้องผ่านการแปลงมุมฉาก ศาสตร์คณิตศาสตร์, การฝึกอบรมที่คล้ายกัน (เช่นที่เกี่ยวข้องโดยการเปลี่ยนแปลงมุมฉาก) มีค่าลักษณะเดียวกัน แต่ไม่จำเป็นต้อง eigenvectors เดียวกันZXXXZZZ สิ่งนี้ทำให้เกิดความยุ่งยากในใจของฉัน: PCA เข้าท่าจริงหรือไม่ถ้าคุณได้คำตอบที่ต่างกันสองชุดสำหรับชุดข้อมูลเริ่มต้นเดียวกันทั้งคู่พยายามทำสิ่งเดียวกัน (= ค้นหาทิศทางของความแปรปรวนสูงสุด) เมื่อใช้วิธีเมทริกซ์สหสัมพันธ์ตัวแปรแต่ละตัวจะถูกทำให้เป็นมาตรฐาน (ย่อส่วน) โดยค่าเบี่ยงเบนมาตรฐานของตนเองก่อนที่จะคำนวณพีซี ถ้าเช่นนั้นข้อมูลจะถูกปรับขนาด / บีบอัดให้แตกต่างกันไปก่อนแล้วยังคงเหมาะสมหรือไม่ที่จะหาทิศทางของความแปรปรวนสูงสุด ฉันรู้ว่า PCA ที่ใช้ความสัมพันธ์นั้นสะดวกมาก (ตัวแปรมาตรฐานไม่มีมิติดังนั้นจึงสามารถเพิ่มการผสมเชิงเส้นของพวกเขาข้อดีอื่น ๆ ยังขึ้นอยู่กับลัทธิปฏิบัตินิยม) แต่มันถูกต้องหรือไม่ สำหรับฉันแล้วดูเหมือนว่า PCA ที่ใช้ความแปรปรวนร่วมเป็นสิ่งเดียวที่ถูกต้องอย่างแท้จริง (แม้ว่าความแปรปรวนของตัวแปรจะแตกต่างกันอย่างมาก) และเมื่อใดก็ตามที่ไม่สามารถใช้เวอร์ชันนี้ได้ ฉันรู้ว่ามีหัวข้อนี้: PCA ในความสัมพันธ์หรือความแปรปรวนร่วม? - แต่ดูเหมือนว่าจะมุ่งเน้นเฉพาะในการหาวิธีแก้ปัญหาในทางปฏิบัติซึ่งอาจหรืออาจจะไม่ใช่วิธีที่ถูกต้องเกี่ยวกับพีชคณิต

2
ช่วงการค้นหาใดในการพิจารณาพารามิเตอร์ C และ gamma ที่เหมาะสมที่สุดของ SVM
ฉันกำลังใช้ SVM เพื่อจัดหมวดหมู่และฉันกำลังพยายามหาพารามิเตอร์ที่เหมาะสมที่สุดสำหรับเมล็ดเชิงเส้นและ RBF สำหรับเคอร์เนลเชิงเส้นฉันใช้การเลือกพารามิเตอร์ที่ผ่านการตรวจสอบความถูกต้องเพื่อกำหนด C และสำหรับเคอร์เนล RBF ฉันใช้การค้นหากริดเพื่อกำหนด C และแกมม่า ฉันมีคุณสมบัติ 20 (เป็นตัวเลข) และ 70 ตัวอย่างการฝึกอบรมที่ควรแบ่งออกเป็น 7 คลาส ฉันควรใช้ช่วงการค้นหาใดในการพิจารณาค่าที่เหมาะสมที่สุดสำหรับพารามิเตอร์ C และแกมมา

1
ฟังก์ชันวัตถุประสงค์ PCA: การเชื่อมต่อระหว่างการเพิ่มความแปรปรวนและการลดข้อผิดพลาดคืออะไร?
อัลกอริทึม PCA สามารถกำหนดได้ในรูปของเมทริกซ์สหสัมพันธ์ (สมมติว่าข้อมูลได้ถูกทำให้เป็นมาตรฐานแล้วและเรากำลังพิจารณาการฉายภาพบนพีซีเครื่องแรกเท่านั้น) ฟังก์ชั่นวัตถุประสงค์สามารถเขียนได้เป็น:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. นี่เป็นเรื่องปกติและเราใช้ตัวคูณแบบลากรองจ์เพื่อแก้ปัญหานั่นคือเขียนใหม่เป็น: maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], ซึ่งเทียบเท่ากับ maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, \max_w \frac{ (Xw)^T(Xw) }{w^Tw}, และด้วยเหตุนี้ ( ดูที่นี่ใน Mathworld ) ดูเหมือนจะเท่ากับmaxw∑i=1n(distance from point xi to line w)2.maxw∑i=1n(distance from point xi to line w)2.\max_w \sum_{i=1}^n \text{(distance from point $x_i$ …
32 pca  optimization 

3
มี Project Euler- เหมือนกันสำหรับการเรียนรู้ของเครื่อง?
ฉันพบว่า Project Euler http://projecteuler.net/มีประโยชน์อย่างมากในการเรียนรู้ภาษาการเขียนโปรแกรม มีไซต์ที่คล้ายกันสำหรับการเรียนรู้ของเครื่องหรือไม่ ฉันเห็นhttp://www.kaggle.com/แต่ไม่สามารถเข้าถึงได้โดยผู้เริ่มต้นในฐานะ Project Euler
32 teaching 

4
วิธีการคำนวณข้อผิดพลาดสัมพัทธ์เมื่อค่าจริงเป็นศูนย์?
ฉันจะคำนวณข้อผิดพลาดสัมพัทธ์เมื่อค่าจริงเป็นศูนย์ได้อย่างไร ว่าฉันมีและ{} ถ้าฉันกำหนดข้อผิดพลาดที่เกี่ยวข้องเป็น:xtrue=0xtrue=0x_{true} = 0xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} จากนั้นข้อผิดพลาดที่เกี่ยวข้องจะไม่ได้กำหนดเสมอ ถ้าฉันใช้คำนิยามแทน: relative error=xtrue−xtestxtestrelative error=xtrue−xtestxtest\text{relative error} = \frac{x_{true}-x_{test}}{x_{test}} จากนั้นข้อผิดพลาดสัมพัทธ์จะเป็น 100% เสมอ ทั้งสองวิธีดูเหมือนไร้ประโยชน์ มีทางเลือกอื่นหรือไม่?

3
R จัดการค่าที่ขาดหายไปใน lm ได้อย่างไร
ฉันต้องการถดถอยเวกเตอร์ B เทียบกับแต่ละคอลัมน์ในเมทริกซ์ A นี่เป็นเรื่องไม่สำคัญหากไม่มีข้อมูลที่หายไป แต่ถ้าเมทริกซ์ A มีค่าที่ขาดหายไปการถดถอยของฉันกับ A นั้นถูก จำกัด ให้รวมแถวเท่านั้น ค่าที่มีอยู่ ( พฤติกรรมna.omitเริ่มต้น) สิ่งนี้สร้างผลลัพธ์ที่ไม่ถูกต้องสำหรับคอลัมน์ที่ไม่มีข้อมูลขาดหายไป ฉันสามารถถอยหลังเมทริกซ์คอลัมน์ B กับคอลัมน์แต่ละคอลัมน์ของเมทริกซ์ A แต่ฉันมีการถดถอยนับพันที่ต้องทำและนี่เป็นการห้ามช้าและไม่เหมาะสม na.excludeฟังก์ชั่นที่ดูเหมือนว่าจะได้รับการออกแบบสำหรับกรณีนี้ แต่ฉันไม่สามารถทำให้การทำงาน ฉันทำอะไรผิดที่นี่ ใช้ R 2.13 บน OSX หากมีความสำคัญ A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) …

3
เกณฑ์การหยุดสำหรับการจัดกลุ่มแบบลำดับชั้นแบบ agglomerative ในการฝึกใช้คืออะไร?
ฉันได้พบวรรณกรรมมากมายที่เสนอเกณฑ์ทุกประเภท (เช่นGlenn et al. 1985 (pdf) และJung et al. 2002 (pdf)) อย่างไรก็ตามสิ่งเหล่านี้ส่วนใหญ่ไม่ง่ายที่จะใช้ (อย่างน้อยจากมุมมองของฉัน) ฉันกำลังใช้scipy.cluster.hierarchyเพื่อรับลำดับชั้นของคลัสเตอร์และตอนนี้ฉันกำลังพยายามตัดสินใจว่าจะสร้างกลุ่มแบบแฟลตจากนั้น เป้าหมายของฉันคือการค้นพบรูปแบบทั่วไปในการสังเกตของฉันดังนั้นฉันจึงไม่มีการอ้างอิงเพื่อเปรียบเทียบการจัดกลุ่มที่ได้รับ ใครสามารถแนะนำวิธีแก้ปัญหาอย่างจริงจัง?
32 clustering 

4
ฉันจะพอดีกับโมเดลหลายระดับสำหรับผลลัพธ์ปัวส์ซองที่กระจายอยู่ทั่วได้อย่างไร
ฉันต้องการติดตั้ง GLMM หลายระดับพร้อมการกระจายแบบปัวซอง (ด้วยการกระจายตัวมากเกินไป) โดยใช้ R ในขณะนี้ฉันกำลังใช้lme4แต่ฉันสังเกตเห็นว่าเมื่อเร็ว ๆ นี้quasipoissonครอบครัวถูกลบออก ฉันเคยเห็นที่อื่นว่าคุณสามารถสร้างแบบจำลองการกระจายตัวเกินสำหรับการแจกแจงทวินามโดยการเพิ่มการสกัดกั้นแบบสุ่มด้วยระดับหนึ่งต่อการสังเกต สิ่งนี้ใช้ได้กับการแจกแจงแบบปัวซองด้วยหรือไม่ มีวิธีที่ดีกว่าที่จะทำหรือไม่ มีแพ็คเกจอื่น ๆ ที่คุณอยากแนะนำอีกไหม?

2
คำจำกัดความของ "แผนที่คุณลักษณะ" (aka "แผนที่เปิดใช้งาน") ในเครือข่ายประสาทเทียมคืออะไร
พื้นหลัง Intro ภายในเครือข่ายประสาทเทียมเรามักจะมีโครงสร้าง / การไหลทั่วไปที่มีลักษณะดังนี้: ภาพอินพุต (เช่นเวกเตอร์ 2D x) (เลเยอร์ Convolutional ที่ 1 (Conv1) เริ่มที่นี่ ... ) ตั้งค่าฟิลเตอร์ ( w1) ตามภาพ 2D (เช่นการz1 = w1*x + b1คูณผลิตภัณฑ์ดอท) ที่z13D และb1เป็นอคติ ใช้ฟังก์ชั่นการเปิดใช้งาน (เช่น ReLu) เพื่อสร้างแบบz1ไม่เป็นเชิงเส้น (เช่นa1 = ReLu(z1)) โดยที่a1เป็น 3D (เลเยอร์ Convolutional ที่สอง (Conv2) เริ่มที่นี่ ... ) โน้มน้าวชุดของตัวกรองตามการเปิดใช้งานที่คำนวณใหม่ (เช่นการz2 = w2*a1 + …

4
วิธีการทดสอบสองตัวอย่างใน R โดยการใส่สถิติตัวอย่างมากกว่าข้อมูลดิบ
สมมติว่าเรามีสถิติที่ระบุด้านล่าง gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 คุณทำการทดสอบสองตัวอย่าง (เพื่อดูว่ามีความแตกต่างอย่างมีนัยสำคัญระหว่างค่าเฉลี่ยของผู้ชายและผู้หญิงในบางตัวแปร) โดยใช้สถิติเช่นนี้แทนที่จะเป็นข้อมูลจริงหรือไม่ ฉันหาที่ใดบนอินเทอร์เน็ตไม่พบ บทเรียนส่วนใหญ่และแม้กระทั่งคู่มือจัดการกับการทดสอบด้วยชุดข้อมูลจริงเท่านั้น
32 r  t-test 

6
ทำไมเอนโทรปีถึงใหญ่ที่สุดเมื่อการกระจายความน่าจะเป็นแบบเดียวกัน?
ฉันรู้ว่าเอนโทรปีคือการวัดแบบแผนของกระบวนการ / ตัวแปรและสามารถกำหนดได้ดังนี้ สำหรับตัวแปรสุ่มX ∈X∈X \inชุด: - H ( X ) = Σ x ฉัน ∈ - P ( x ฉัน ) เข้าสู่ระบบ( P ( x ฉัน ) ) ในหนังสือเกี่ยวกับเอนโทรปีและทฤษฎีข้อมูลโดยแมคเคย์เขาได้ให้ถ้อยแถลงนี้ใน Ch2AAH(X)=∑xi∈A−p(xi)log(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) เอนโทรปีจะถูกขยายให้มากที่สุดถ้า p เป็นชุด ฉันสามารถเข้าใจได้เช่นถ้าดาต้าพอยน์ทั้งหมดในชุดAAAถูกเลือกด้วยความน่าจะเป็น1 / m1/m1/m ( mmmเป็นความสำคัญของเซตAAA ) จากนั้นการสุ่มหรือเอนโทรปีจะเพิ่มขึ้น แต่ถ้าเรารู้ว่าบางจุดในเซตAAAจะเกิดขึ้นโดยมีความน่าจะเป็นมากกว่าคนอื่น ๆ (พูดในกรณีของการแจกแจงแบบปกติที่ความเข้มข้นสูงสุดของจุดข้อมูลอยู่รอบค่าเฉลี่ยและพื้นที่เบี่ยงเบนมาตรฐานขนาดเล็กรอบมัน …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.