สถิติและข้อมูลขนาดใหญ่

4

ฉันกำลังทำงานกับชุดข้อมูลขนาดเล็ก (21 ข้อสังเกต) และมีพล็อต QQ ปกติต่อไปนี้ใน R: เมื่อเห็นว่าพล็อตไม่รองรับความเป็นมาตรฐานฉันจะสรุปอะไรเกี่ยวกับการแจกแจงพื้นฐาน สำหรับฉันแล้วดูเหมือนว่าการแจกแจงที่เบ้ไปทางขวาจะเหมาะกว่าดีกว่าใช่มั้ย นอกจากนี้เราสามารถสรุปอะไรอีกจากข้อมูล

172 r data-visualization inference qq-plot

9

ทำไมความหลงใหลอย่างฉับพลันกับเทนเซอร์?

ฉันได้สังเกตเห็นเมื่อเร็ว ๆ นี้ว่าผู้คนจำนวนมากกำลังพัฒนาเทนเซอร์เทียบเท่าวิธีการหลายอย่าง (การแยกตัวประกอบเทนเซอร์, เมล็ดเทนเซอร์, เทนเซอร์สำหรับการสร้างแบบจำลองหัวข้อ ฯลฯ ) ฉันสงสัยว่าทำไมโลกถึงหลงใหลเทนเซอร์ มีเอกสาร / ผลมาตรฐานล่าสุดที่น่าประหลาดใจเป็นพิเศษหรือไม่ มันคำนวณได้ถูกกว่าที่คาดไว้มากก่อนหน้านี้ไหม? ฉันไม่ได้เป็นคนที่มีเสน่ห์ฉันมีความสนใจอย่างจริงใจและหากมีคำแนะนำใด ๆ เกี่ยวกับเรื่องนี้ฉันก็อยากอ่าน

171 machine-learning references matrix linear-algebra tensor

3

เมื่อใดที่ฉันควรใช้บ่วงบาศกับสันเขา?

กล่าวว่าฉันต้องการประมาณค่าพารามิเตอร์จำนวนมากและฉันต้องการลงโทษบางส่วนเพราะฉันเชื่อว่าพวกเขาควรมีผลเพียงเล็กน้อยเมื่อเทียบกับคนอื่น ฉันจะตัดสินใจว่าจะใช้รูปแบบการลงโทษได้อย่างไร การถดถอยของสันเขาจะเหมาะสมกว่าเมื่อใด เมื่อใดที่ฉันควรใช้บ่วงบาศ

167 regression lasso ridge-regression

30

เรื่องตลกสถิติ

ทีนี้เรามีสถิติราคาโปรด เรื่องสถิติเป็นเรื่องตลก?

165 references humor

8

ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง

ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?

164 regression distributions data-transformation logarithm regression-strategies

8

วิธีการจัดการกับการแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก?

หากคุณมีตัวแปรที่แยกศูนย์และตัวแปรในเป้าหมายได้อย่างสมบูรณ์ R จะให้ข้อความเตือน "การแยกแบบสมบูรณ์แบบหรือกึ่งสมบูรณ์แบบ" ดังต่อไปนี้: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred เรายังได้โมเดล แต่การประมาณค่าสัมประสิทธิ์สูงเกินจริง คุณจัดการกับสิ่งนี้ได้อย่างไรในทางปฏิบัติ?

163 r regression logistic separation

21

จูเลียมีความหวังใด ๆ หรือไม่ที่จะติดอยู่ในชุมชนทางสถิติ?

ฉันเพิ่งอ่านโพสต์จาก R-บล็อกที่เชื่อมโยงกับการโพสต์บล็อกนี้จากจอห์นไมลส์สีขาวเกี่ยวกับภาษาใหม่ที่เรียกว่าจูเลีย จูเลียใช้ประโยชน์จากคอมไพเลอร์ทันเวลาที่ให้เวลาการรันที่รวดเร็วและทำให้มันมีความเร็วเท่ากันกับ C / C ++ ( ลำดับเดียวกันไม่เร็วเท่ากัน) นอกจากนี้ยังใช้กลไกการวนลูปดั้งเดิมที่พวกเราที่เริ่มเขียนโปรแกรมเกี่ยวกับภาษาดั้งเดิมคุ้นเคยกับแทนที่จะใช้คำสั่ง R และการดำเนินการเวกเตอร์ R จะไม่หายไปด้วยวิธีการใด ๆ แม้จะมีการกำหนดเวลาที่ยอดเยี่ยมเช่นนี้จากจูเลียก็ตาม มีการสนับสนุนอย่างกว้างขวางในอุตสาหกรรมและแพ็คเกจที่ยอดเยี่ยมมากมายที่จะทำอะไรก็ได้ ความสนใจของฉันคือ Bayesian ในธรรมชาติซึ่งมักจะเป็นไปไม่ได้ที่ vectorizing แน่นอนว่างานอนุกรมต้องทำโดยใช้ลูปและเกี่ยวข้องกับการคำนวณหนักในแต่ละการทำซ้ำ R อาจช้ามากในงานวนลูปอนุกรมเหล่านี้และ C / ++ ไม่ใช่การเดินในสวนเพื่อเขียน จูเลียดูเหมือนเป็นทางเลือกที่ยอดเยี่ยมสำหรับการเขียนใน C / ++ แต่มันยังอยู่ในช่วงเริ่มต้นและขาดฟังก์ชั่นมากมายที่ฉันชอบเกี่ยวกับอาร์มันน่าจะเหมาะที่จะเรียนรู้ว่าจูเลียเป็นสถิติทางคอมพิวเตอร์ จากชุมชนสถิติและผู้คนเริ่มเขียนแพ็คเกจที่เป็นประโยชน์สำหรับมัน คำถามของฉันเป็นไปตาม: จูเลียจำเป็นต้องมีฟีเจอร์อะไรเพื่อให้มีเสน่ห์ที่ทำให้ R เป็นภาษาของสถิติอย่างแท้จริง? อะไรคือข้อดีและข้อเสียของการเรียนรู้ Julia ในการทำงานหนักเชิงคำนวณเทียบกับการเรียนรู้ภาษาระดับต่ำเช่น C / ++?

161 r computational-statistics software computing julia

3

แผ่นโกงของ Lmer

มีจำนวนมากของการสนทนาที่เกิดขึ้นบนเวทีนี้เกี่ยวกับวิธีการที่เหมาะสมในการระบุรูปแบบลำดับชั้นต่าง ๆ lmerโดยใช้เป็น ฉันคิดว่ามันจะเป็นการดีหากมีข้อมูลทั้งหมดในที่เดียว คำถามสองสามข้อที่จะเริ่ม: วิธีการระบุหลายระดับที่กลุ่มหนึ่งซ้อนอยู่ในอื่น ๆ : มันเป็น(1|group1:group2)หรือ(1+group1|group2)? ความแตกต่างระหว่าง(~1 + ....)และ(1 | ...)และ(0 | ...)อื่น ๆ คืออะไร? จะระบุการโต้ตอบระดับกลุ่มได้อย่างไร

160 r mixed-model random-effects-model fixed-effects-model lme4-nlme

3

ROC กับเส้นโค้งความแม่นยำและความทรงจำ

ฉันเข้าใจความแตกต่างอย่างเป็นทางการระหว่างพวกเขาสิ่งที่ฉันอยากรู้ก็คือเมื่อมันเกี่ยวข้องกับการใช้อย่างใดอย่างหนึ่งกับอีก พวกเขาให้ข้อมูลเชิงลึกที่สมบูรณ์เกี่ยวกับประสิทธิภาพของระบบการจำแนกประเภท / การตรวจจับที่ให้มาหรือไม่? เมื่อใดที่มีเหตุผลที่จะให้พวกเขาทั้งสองพูดในกระดาษ? แทนที่จะเป็นเพียงหนึ่ง? มีคำอธิบายอื่น ๆ (อาจทันสมัยกว่า) ที่จับประเด็นที่เกี่ยวข้องของทั้ง ROC และการเรียกคืนที่แม่นยำสำหรับระบบการจำแนกประเภทหรือไม่? ฉันสนใจในการโต้แย้งสำหรับทั้งสองกรณีและไบนารี (เช่นเดียวกับทุกกรณี)

159 machine-learning roc precision-recall

2

ฉันจะรับจำนวนแถวของ data.frame ใน R ได้อย่างไร [ปิด]

หลังจากอ่านชุดข้อมูลแล้ว: dataset <- read.csv("forR.csv") ฉันจะได้รับ R เพื่อให้จำนวนกรณีมันมี? นอกจากนี้ค่าที่ส่งคืนจะรวมถึงกรณียกเว้นที่ไม่รวมด้วยna.omit(dataset)หรือไม่

157 r

2

กำเนิดกับการเลือกปฏิบัติ

ฉันรู้ว่ากำเนิดหมายถึง "ตามP(x,y)P(x,y)P(x,y) " และหมายถึงการเลือกปฏิบัติ "ตามP(y|x)P(y|x)P(y|x) ," แต่ฉันสับสนในหลายจุด: Wikipedia (+ เพลงฮิตอื่น ๆ อีกมากมายบนเว็บ) จัดประเภทสิ่งต่าง ๆ เช่น SVMs และแผนผังการตัดสินใจว่าเป็นการเลือกปฏิบัติ แต่สิ่งเหล่านี้ไม่มีการตีความความน่าจะเป็น การเลือกปฏิบัติหมายความว่าอะไรที่นี่ การเลือกปฏิบัติเพียงมาหมายถึงสิ่งที่ไม่ได้กำเนิด? Naive Bayes (NB) มีกำเนิดเนื่องจากจับP(x|y)P(x|y)P(x|y)และP(y)P(y)P(y)และทำให้คุณมีP(x,y)P(x,y)P(x,y) (เช่นเดียวกับP(y|x)P(y|x)P(y|x) ) มันไม่สำคัญที่จะพูดพูดว่าการถดถอยโลจิสติก (เด็กโปสเตอร์ของแบบจำลองการเลือกปฏิบัติ) "กำเนิด" โดยการคำนวณP(x)P(x)P(x)ในรูปแบบที่คล้ายกัน (สมมติฐานความเป็นอิสระเดียวกันกับ NB เช่นP(x)=P(x0)P(x1)...P(xd)P(x)=P(x0)P(x1)...P(xd)P(x) = P(x_0) P(x_1) ... P(x_d)ที่ไหน MLE สำหรับP(xi)P(xi)P(x_i)เป็นเพียงความถี่)? ฉันรู้ว่าแบบจำลองที่มีการเลือกปฏิบัตินั้นมีแนวโน้มที่จะดีกว่าตัวแบบกำเนิด การใช้ประโยชน์จากการทำงานกับแบบจำลองทั่วไปได้อย่างไร ความสามารถในการสร้าง / จำลองข้อมูลได้ถูกอ้างถึง แต่เมื่อไหร่จะเกิดขึ้น? โดยส่วนตัวแล้วฉันมีประสบการณ์เกี่ยวกับการถดถอยการจัดประเภทความร่วมมือ การกรองข้อมูลที่มีโครงสร้างดังนั้นการใช้งานที่ไม่เกี่ยวข้องกับฉันที่นี่จะเป็นอย่างไร "การข้อมูลที่หายไป" อาร์กิวเมนต์ …

153 machine-learning generative-models

7

PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม?

อะไรคือความแตกต่างที่สำคัญระหว่างการวิเคราะห์องค์ประกอบหลัก (PCA) ในเมทริกซ์สหสัมพันธ์และเมทริกซ์ความแปรปรวนร่วม? พวกเขาให้ผลลัพธ์เดียวกันหรือไม่

153 correlation pca covariance factor-analysis

6

มูลค่าการแจกแจงความน่าจะเป็นที่เกิน 1 สามารถเป็นได้หรือไม่?

ในหน้า Wikipedia เกี่ยวกับตัวแยกประเภทซื่อๆ Bayesมีบรรทัดนี้: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (การกระจายความน่าจะเป็นที่มากกว่า 1 คือ OK มันคือพื้นที่ใต้เส้นโค้งระฆังที่เท่ากับ 1) ค่าจะตกลงได้อย่างไร? ผมคิดว่าน่าจะเป็นค่าทั้งหมดถูกแสดงในช่วง1 นอกจากนี้หากเป็นไปได้ที่จะมีค่าเช่นนั้นค่าที่ได้จากตัวอย่างที่แสดงในหน้าเป็นอย่างไร>1>1>10≤p≤10≤p≤10 \leq p \leq 1

149 distributions probability normal-distribution pdf

6

วิธีการเลือกแบบจำลองการทำนายหลังจากการตรวจสอบความถูกต้องข้ามของ k-fold?

ฉันสงสัยว่าจะเลือกแบบจำลองการทำนายได้อย่างไรหลังจากทำการตรวจสอบความถูกต้องข้ามแบบ K-fold นี่อาจเป็นประโยคที่เชื่องช้าดังนั้นให้ฉันอธิบายรายละเอียดเพิ่มเติม: เมื่อใดก็ตามที่ฉันรันการตรวจสอบความถูกต้องข้าม K-fold ฉันใช้ K ชุดย่อยของข้อมูลการฝึกอบรมและจบลงด้วย K โมเดลที่แตกต่างกัน ฉันอยากรู้วิธีเลือกหนึ่งในรุ่น K เพื่อที่ฉันจะได้นำเสนอให้ใครบางคนและพูดว่า "นี่เป็นรุ่นที่ดีที่สุดที่เราสามารถผลิตได้" ตกลงไหมที่จะเลือกรุ่นใดรุ่นหนึ่ง K? หรือมีแนวปฏิบัติที่ดีที่สุดบางประเภทที่เกี่ยวข้องเช่นการเลือกแบบจำลองที่ทำให้เกิดข้อผิดพลาดในการทดสอบค่ามัธยฐาน?

148 cross-validation model-selection

6

การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานของตัวแปรแบบต่อเนื่องและหมวดหมู่ได้หรือไม่?

ฉันมีชุดข้อมูลที่มีทั้งข้อมูลแบบต่อเนื่องและหมวดหมู่ ฉันกำลังวิเคราะห์โดยใช้ PCA และฉันสงสัยว่ามันดีที่จะรวมตัวแปรเด็ดขาดเป็นส่วนหนึ่งของการวิเคราะห์ ความเข้าใจของฉันคือ PCA สามารถใช้ได้กับตัวแปรต่อเนื่องเท่านั้น ถูกต้องไหม หากไม่สามารถใช้กับข้อมูลที่เป็นหมวดหมู่ได้มีทางเลือกอะไรบ้างในการวิเคราะห์?

147 categorical-data pca correspondence-analysis mixed-type-data