สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
จะประมาณค่าพารามิเตอร์การหดตัวใน Lasso หรือการถดถอยสันด้วยตัวแปร> 50K ได้อย่างไร?
ฉันต้องการใช้ Lasso หรือการถดถอยสันสำหรับโมเดลที่มีตัวแปรมากกว่า 50,000 ตัว ฉันต้องการทำเช่นนั้นโดยใช้แพคเกจซอฟต์แวร์ในอาร์ฉันสามารถประมาณการพารามิเตอร์การหดตัว ( )?λλ\lambda การแก้ไข: นี่คือจุดที่ฉันตื่นขึ้นมา: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) คำถามของฉันคือ: …

3
สิ่งที่ต้องพิจารณาเกี่ยวกับโปรแกรมต้นแบบในสถิติ
เป็นฤดูกาลรับสมัครนักศึกษาระดับบัณฑิตศึกษา ฉัน (และนักเรียนหลายคนอย่างฉัน) กำลังพยายามตัดสินใจเลือกโปรแกรมสถิติที่จะเลือก ผู้ที่ทำงานกับสถิติแนะนำอะไรเราแนะนำให้คุณพิจารณาเกี่ยวกับโปรแกรมปริญญาโทในสถิติ มีข้อผิดพลาดหรือข้อผิดพลาดทั่วไปที่นักเรียนทำ (อาจเกี่ยวกับชื่อเสียงของโรงเรียน) หรือไม่? สำหรับการจ้างงานเราควรมองที่จะมุ่งเน้นไปที่สถิติที่นำไปใช้หรือการผสมผสานของสถิติที่นำมาใช้และทางทฤษฎี แก้ไข:นี่คือข้อมูลเพิ่มเติมบางอย่างเกี่ยวกับสถานการณ์ส่วนบุคคลของฉัน: โปรแกรมทั้งหมดที่ฉันกำลังพิจารณาอยู่ในสหรัฐอเมริกา บางคนมุ่งเน้นไปที่การประยุกต์ใช้มากขึ้นและให้ปริญญาโทใน "สถิติที่ใช้" ในขณะที่คนอื่นมีการเรียนการสอนเชิงทฤษฎีมากขึ้นและให้องศาใน "สถิติ" โดยส่วนตัวแล้วฉันไม่ได้ตั้งใจที่จะทำงานในอุตสาหกรรมเดียวกัน ฉันมีพื้นหลังการเขียนโปรแกรมบางส่วนและรู้ว่าอุตสาหกรรมเทคโนโลยีดีขึ้นกว่าเดิมเล็กน้อยเช่นอุตสาหกรรมจีโนมิกหรือชีวสารสนเทศศาสตร์ อย่างไรก็ตามฉันกำลังมองหาอาชีพที่มีปัญหาที่น่าสนใจเป็นหลัก แก้ไข : พยายามทำให้คำถามมีผลบังคับใช้มากกว่าปกติ

4
อยู่ที่ไหน
ทฤษฎีบทกลาง จำกัด แบบง่ายมาก ซึ่งก็คือ Lindeberg – Lévy CLT ฉันไม่เข้าใจว่าทำไมมีทางด้านซ้ายมือ และ Lyapunov CLT บอกว่า แต่ทำไม ไม่ใช่ ? ทุกคนจะบอกฉันว่าเป็นปัจจัยเหล่านี้เช่นและ ? เราจะรับพวกเขาในทฤษฎีบทได้อย่างไรn−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) n−−√n\sqrt{n}1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) sn−−√sn\sqrt{s_n}n−−√n\sqrt{n}1sn1sn\frac{1}{s_n}

4
ฉันจะพอดีกับการถดถอยที่ จำกัด ใน R เพื่อให้สัมประสิทธิ์รวม = 1 ได้อย่างไร
ฉันเห็นการถดถอยที่มีข้อ จำกัด คล้ายกันที่นี่: จำกัด การถดถอยเชิงเส้นผ่านจุดที่ระบุ แต่ความต้องการของฉันแตกต่างกันเล็กน้อย ฉันต้องการค่าสัมประสิทธิ์ในการเพิ่มเป็น 1 โดยเฉพาะฉันกำลังถดถอยผลตอบแทนของ 1 ชุดแลกเปลี่ยนเงินตราต่างประเทศกับ 3 ชุดแลกเปลี่ยนเงินตราต่างประเทศอื่น ๆ เพื่อให้นักลงทุนสามารถแทนที่การสัมผัสกับชุดนั้นด้วยการรวมกันของชุดที่ 3 การจ่ายเงินสดจะต้องไม่เปลี่ยนแปลงและโดยเฉพาะอย่างยิ่ง (แต่ไม่บังคับ) ค่าสัมประสิทธิ์ควรเป็นค่าบวก ฉันพยายามค้นหาการถดถอยแบบ จำกัด ใน R และ Google แต่โชคดีเล็กน้อย
36 r  regression 

2
การกระจายของผลรวมของตัวแปรที่ไม่ใช่ iid gaussian คืออะไร?
ถ้ากระจายN ( μ X , σ 2 X ) , YกระจายN ( μ Y , σ 2 Y ) และZ = X + Y , ฉันรู้ว่าZกระจายN ( μ X + μ Y , σ 2 X + σ 2 Y )ถ้า X และ Y เป็นอิสระXXXยังไม่มีข้อความ( μX, σ2X)N(μX,σX2)N(\mu_X, \sigma^2_X)YYYยังไม่มีข้อความ( μY, σ2Y)N(μY,σY2)N(\mu_Y, …

4
แพลตฟอร์มการประมวลผลแบบคลาวด์สำหรับการเรียนรู้ของเครื่อง [ปิด]
ฉันมีรายชื่อ บริษัท เล็ก ๆ ที่ให้บริการแพลตฟอร์มสำหรับการรันสคริปต์ R, python หรืออ็อกเทฟบนคลัสเตอร์ที่สร้างขึ้นบน amazon EC2 มีชื่ออื่นที่ฉันควรเพิ่มหรือไม่ Cloudnumbers Opani crdata

5
ยกมาตรการในการขุดข้อมูล
ฉันค้นหาเว็บไซต์จำนวนมากเพื่อทราบว่าการยกจะทำอย่างไร ผลลัพธ์ที่ฉันพบทั้งหมดเกี่ยวกับการใช้ในแอปพลิเคชันไม่ใช่ตัวเอง ฉันรู้เกี่ยวกับฟังก์ชั่นการสนับสนุนและความมั่นใจ จากวิกิพีเดียในการขุดข้อมูลการยกเป็นตัวชี้วัดประสิทธิภาพของแบบจำลองในการทำนายหรือจำแนกกรณีการวัดเทียบกับตัวเลือกแบบสุ่ม แต่อย่างไร การสนับสนุนความเชื่อมั่น * คือค่าของการยกที่ฉันค้นหาสูตรอื่นด้วย แต่ฉันไม่เข้าใจว่าทำไมแผนภูมิของลิฟต์จึงมีความสำคัญในความแม่นยำของค่าที่คาดการณ์ฉันหมายถึงฉันต้องการทราบว่านโยบายและเหตุผลคืออะไร

3
สร้าง "คะแนนความมั่นใจ" จากคะแนนในป่าสุ่ม?
ฉันกำลังมองหาในการฝึกอบรมลักษณนามที่จะแยกแยะระหว่างType AและType Bวัตถุที่มีชุดการฝึกอบรมที่มีขนาดใหญ่พอสมควรประมาณ 10,000 วัตถุประมาณครึ่งหนึ่งของที่มีและครึ่งหนึ่งของที่มีType A Type Bชุดข้อมูลประกอบด้วย 100 คุณสมบัติอย่างต่อเนื่องซึ่งมีรายละเอียดคุณสมบัติทางกายภาพของเซลล์ (ขนาด, รัศมีเฉลี่ย, ฯลฯ ) การแสดงข้อมูลในสปิตเตอร์แพล็ตฟอร์มและแผนการแปลงความหนาแน่นบอกเราว่ามีการทับซ้อนกันอย่างมีนัยสำคัญในการแจกแจงของเซลล์มะเร็งและเซลล์ปกติในคุณลักษณะหลายอย่าง ขณะนี้ฉันกำลังสำรวจป่าสุ่มเป็นวิธีการจำแนกสำหรับชุดข้อมูลนี้และฉันได้เห็นผลลัพธ์ที่ดี การใช้ R ป่าแบบสุ่มสามารถจำแนกวัตถุได้อย่างถูกต้องประมาณ 90% หนึ่งในสิ่งที่เราต้องการลองทำคือการสร้าง "คะแนนความเชื่อมั่น" ที่จะบอกปริมาณว่าเรามีความมั่นใจในการจำแนกประเภทของวัตถุอย่างไร เรารู้ว่าลักษณนามของเราจะไม่ถูกต้อง 100% และแม้ว่าความแม่นยำสูงในการคาดการณ์ที่จะประสบความสำเร็จเราจะต้องการเทคนิคการฝึกอบรมที่จะระบุว่าวัตถุอย่างแท้จริงและType A Type Bดังนั้นแทนที่จะให้การคาดการณ์ที่แน่วแน่ของType AหรือType Bเราต้องการที่จะนำเสนอคะแนนสำหรับแต่ละวัตถุที่จะอธิบายถึงวิธีการAหรือBวัตถุ ตัวอย่างเช่นถ้าเรากำหนดคะแนนที่มีช่วงตั้งแต่ 0 ถึง 10 คะแนน 0 อาจบ่งบอกว่าวัตถุนั้นคล้ายกับType Aวัตถุมากในขณะที่คะแนน 10 จะบ่งบอกว่าวัตถุนั้นมีลักษณะคล้ายType Bกันมาก ฉันคิดว่าฉันสามารถใช้คะแนนภายในป่าสุ่มเพื่อคิดคะแนนเช่นนี้ เนื่องจากการจำแนกในป่าสุ่มจะกระทำโดยการโหวตส่วนใหญ่ภายในป่าของต้นไม้ที่สร้างขึ้นฉันจะสมมติว่าวัตถุที่ได้รับการโหวต 100% ของต้นไม้Type Aจะแตกต่างจากวัตถุที่ได้รับการโหวตโดยพูดว่า 51% ของต้นไม้ Type …

5
ฟังก์ชั่นจับเวลาใน R [ปิด]
ฉันต้องการวัดเวลาที่ใช้ในการเรียกใช้ฟังก์ชันซ้ำ มีreplicate()และใช้ for-loops ที่เทียบเท่าหรือไม่ ตัวอย่างเช่น: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); ซึ่งเป็นวิธีที่ต้องการ ในเอาต์พุตของsystem.time(), sys+userเวลา CPU จริงสำหรับการรันโปรแกรมคืออะไร? เป็นelapsedมาตรการที่ดีของการทำงานช่วงเวลาของโปรแกรมได้หรือไม่
36 r 

8
ภายใต้เงื่อนไขใดที่เราควรใช้การวิเคราะห์หลายระดับ / ลำดับชั้น?
ภายใต้เงื่อนไขใดที่บางคนควรพิจารณาใช้การวิเคราะห์หลายระดับ / ลำดับชั้นเมื่อเทียบกับการวิเคราะห์ขั้นพื้นฐาน / แบบดั้งเดิม (เช่น ANOVA, OLS regression, ฯลฯ ) มีสถานการณ์ใดบ้างที่สิ่งนี้อาจถูกพิจารณาว่าเป็นข้อบังคับ? มีสถานการณ์ที่ใช้การวิเคราะห์หลายระดับ / ลำดับชั้นไม่เหมาะสมหรือไม่? สุดท้ายอะไรคือแหล่งข้อมูลที่ดีสำหรับผู้เริ่มต้นในการเรียนรู้การวิเคราะห์หลายระดับ / ลำดับชั้น?

10
คำอธิบายของคนธรรมดาที่คุณชื่นชอบสำหรับแนวคิดทางสถิติที่ยากคืออะไร?
ฉันสนุกกับการฟังคำอธิบายง่ายๆเกี่ยวกับปัญหาที่ซับซ้อน การเปรียบเทียบหรือเรื่องเล็ก ๆ น้อยที่คุณชื่นชอบที่อธิบายแนวคิดทางสถิติที่ยากคืออะไร สิ่งที่ฉันชอบคือคำอธิบายของเมอเรย์ต่อการใช้เครื่องดื่มเมาและสุนัขของเธอ เมอร์เรย์อธิบายว่ากระบวนการสุ่มสองแบบ (เมาค้างและสุนัขโอลิเวอร์) สามารถมีรากของหน่วยได้ แต่ยังคงมีความเกี่ยวข้อง เมาออกจากบาร์กำลังจะเร่ร่อนอย่างไม่มีจุดหมายในการเดินแบบสุ่ม แต่บางครั้งเธอก็พูดว่า "โอลิเวอร์คุณอยู่ที่ไหน" และโอลิเวอร์ก็ขัดจังหวะการเห่าของเขาอย่างไร้จุดหมาย เขาได้ยินเธอ; เธอได้ยินเขา เขาคิดว่า "โอ้ฉันไม่สามารถปล่อยให้เธอออกไปไกลเกินไปเธอจะล็อกฉันไว้" เธอคิดว่า "โอ้ฉันไม่สามารถปล่อยให้เขาไปไกลเกินไปเขาจะปลุกฉันในตอนกลางคืนด้วยเสียงเห่าของเขา" แต่ละคนประเมินว่าอีกฝ่ายอยู่ห่างกันมากแค่ไหนและย้ายไปที่ช่องว่างนั้นเพียงบางส่วน

4
ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่สามารถพูดคุยได้ดี
ฉันกำลังฝึกอบรมโครงข่ายประสาทและการสูญเสียการฝึกอบรมลดลง แต่การสูญเสียการตรวจสอบไม่ได้หรือลดลงน้อยกว่าที่ฉันคาดไว้มากขึ้นอยู่กับการอ้างอิงหรือการทดลองกับสถาปัตยกรรมและข้อมูลที่คล้ายคลึงกันมาก ฉันจะแก้ไขสิ่งนี้ได้อย่างไร สำหรับคำถาม ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่ได้เรียนรู้ คำถามนี้ได้รับการดลใจคำถามก็คือจงใจทิ้งไว้โดยทั่วไปเพื่อให้คำถามอื่น ๆ เกี่ยวกับวิธีการลดความผิดพลาดในการวางนัยทั่วไปของโครงข่ายใยประสาทเทียมลงไปถึงระดับที่พิสูจน์แล้วว่าสามารถบรรลุได้ ดูเพิ่มเติมที่เธรดเฉพาะบน Meta: มีคำถามทั่วไปที่เราสามารถเปลี่ยนเส้นทางคำถามประเภท "ทำไมเครือข่ายประสาทของฉันถึงไม่พูดคุยได้ดี?"

1
ฉันควรทำให้เวกเตอร์คำของ word2vec เป็นปกติก่อนที่จะใช้หรือไม่
หลังการฝึกอบรมคำเวกเตอร์ด้วย word2vec จะดีกว่าหรือไม่ที่จะทำให้ปกติก่อนใช้สำหรับแอพพลิเคชั่นดาวน์สตรีม คืออะไร pros / cons ของ normalizing พวกเขาคืออะไร?

2
วิธีการตีความ glmnet?
ฉันกำลังพยายามปรับตัวแบบการถดถอยเชิงเส้นหลายตัวแปรที่มีตัวแปรทำนาย 60 ตัวและการสังเกต 30 ครั้งดังนั้นฉันจึงใช้แพ็คเกจglmnetสำหรับการถดถอยแบบปกติเพราะ p> n ฉันได้อ่านเอกสารและคำถามอื่น ๆ แล้ว แต่ฉันก็ยังไม่สามารถตีความผลลัพธ์ได้นี่คือตัวอย่างโค้ด (ที่มีตัวทำนาย 20 ตัวและตัวสังเกต 10 ข้อเพื่อลดความซับซ้อน): ฉันสร้างเมทริกซ์ x พร้อมแถว num = การสังเกต num และ num cols = ตัวทำนาย NUM และเวกเตอร์ y ซึ่งแสดงถึงตัวแปรตอบสนอง > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) ฉันพอดีกับรูปแบบ glmnet ที่ปล่อยให้อัลฟาเป็นค่าเริ่มต้น (= 1 สำหรับการลงโทษบ่วงบาศ) > fit1=glmnet(x,y) > print(fit1) ฉันเข้าใจว่าฉันได้รับการทำนายที่แตกต่างจากการลดค่าแลมบ์ดา (เช่นการลงโทษ) Call: glmnet(x …

1
ทำไมการทดสอบของ Mantel จึงเป็นที่ต้องการมากกว่า Moran I
การทดสอบของ Mantelใช้กันอย่างแพร่หลายในการศึกษาทางชีววิทยาเพื่อตรวจสอบความสัมพันธ์ระหว่างการกระจายของพื้นที่ของสัตว์ (ตำแหน่งในอวกาศ) ด้วยเช่นความสัมพันธ์ทางพันธุกรรมอัตราการรุกรานหรือคุณลักษณะอื่น ๆ มีวารสารที่ดีมากมายที่ใช้มัน ( PNAS, พฤติกรรมสัตว์, นิเวศวิทยาโมเลกุล ... ) ฉันประดิษฐ์รูปแบบบางอย่างที่อาจเกิดขึ้นตามธรรมชาติ แต่การทดสอบของ Mantel ดูเหมือนว่าไม่มีประโยชน์เลยที่จะตรวจจับพวกมัน บนมืออื่น ๆ , โมแรนฉันได้ผลลัพธ์ที่ดีกว่า(ดูหน้าค่าในแต่ละล็อต) ทำไมนักวิทยาศาสตร์ไม่ใช้โมแรนฉันแทน? มีเหตุผลซ่อนเร้นที่ฉันไม่เห็นหรือไม่? และถ้ามีเหตุผลบางอย่างฉันจะรู้ได้อย่างไร (จะต้องสร้างสมมติฐานต่างกันอย่างไร) เพื่อใช้การทดสอบของ Mantel หรือ Moran I อย่างเหมาะสม? ตัวอย่างในชีวิตจริงจะเป็นประโยชน์ ลองนึกภาพสถานการณ์นี้:มีสวนผลไม้ (17 x 17 ต้น) ที่มีอีกากำลังนั่งอยู่บนต้นไม้แต่ละต้น ระดับของ "เสียงรบกวน" สำหรับแต่ละอีกานั้นมีให้บริการและคุณต้องการทราบว่าการกระจายของอีกาในอวกาศนั้นถูกกำหนดโดยเสียงรบกวนหรือไม่ มี (อย่างน้อย) 5 ความเป็นไปได้: "นกขนนกแห่กันไป" กาที่คล้ายกันมากขึ้นมีขนาดเล็กของระยะทางระหว่างพวกเขา(กลุ่มเดียว) "นกขนนกแห่กันไป" อีกครั้งที่อีกาที่คล้ายกันคือระยะทางทางภูมิศาสตร์ที่เล็กกว่า(หลายกลุ่ม)แต่กลุ่มที่มีเสียงดังกาไม่มีความรู้เกี่ยวกับการมีอยู่ของกระจุกดาวที่สอง "แนวโน้มแบบโมโนโทนิก" "ตรงกันข้ามดึงดูด" …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.