สถิติและข้อมูลขนาดใหญ่

5

การใช้ LASSO จากแพ็คเกจ lars (หรือ glmnet) ใน R เพื่อเลือกตัวแปร

ขออภัยถ้าคำถามนี้เจอพื้นฐานเล็กน้อย ฉันกำลังมองหาที่จะใช้การเลือกตัวแปร LASSO สำหรับตัวแบบการถดถอยเชิงเส้นหลายแบบในอาร์ฉันมีตัวทำนาย 15 ตัวซึ่งหนึ่งในนั้นคือหมวดหมู่ (นั่นจะทำให้เกิดปัญหาหรือไม่) หลังจากตั้งค่าและฉันฉันใช้คำสั่งต่อไปนี้:xxxyyy model = lars(x, y) coef(model) coef(model)ปัญหาของฉันคือเมื่อฉันใช้ สิ่งนี้จะส่งกลับเมทริกซ์ที่มี 15 แถวโดยเพิ่มตัวทำนายพิเศษหนึ่งตัวในแต่ละครั้ง อย่างไรก็ตามไม่มีข้อเสนอแนะว่าควรเลือกรุ่นใด ฉันพลาดอะไรไปหรือเปล่า มีวิธีที่ฉันจะได้รับแพคเกจ lars เพื่อส่งกลับแบบ " ดีที่สุด " เพียงหนึ่งรุ่นหรือไม่? มีโพสต์อื่น ๆ ที่แนะนำให้ใช้glmnetแทน แต่ดูเหมือนจะซับซ้อนกว่านี้ ความพยายามดังต่อไปนี้โดยใช้และเดียวกัน ฉันพลาดอะไรที่นี่ไหม: xxxyyy cv = cv.glmnet(x, y) model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min) predict(model, type="coefficients") คำสั่งสุดท้ายส่งกลับรายการตัวแปรของฉันส่วนใหญ่มีค่าสัมประสิทธิ์แม้ว่าบาง = 0 นี่เป็นตัวเลือกที่ถูกต้องของรุ่น " …

39 feature-selection lasso glmnet lars

3

ทำไมกฎหมายจำนวนมากถึงไม่สามารถใช้งานได้ในกรณีราคาหุ้นของ Apple?

นี่คือบทความในครั้งนิวยอร์กที่เรียกว่า"แอปเปิ้ล confronts กฎหมายของตัวเลขที่มีขนาดใหญ่" พยายามอธิบายการเพิ่มขึ้นของราคาหุ้นของ Apple โดยใช้กฎหมายจำนวนมาก บทความนี้มีข้อผิดพลาดทางสถิติ (หรือทางคณิตศาสตร์) อะไรบ้าง

39 probability central-limit-theorem law-of-large-numbers statistics-in-media

2

การจำลองการวิเคราะห์กำลังถดถอยของโลจิสติกส์ - การทดลองที่ออกแบบมา

คำถามนี้เป็นคำถามในการตอบสนองต่อคำตอบที่ได้รับจาก @ Greg หิมะในเรื่องที่เกี่ยวกับคำถามที่Proc GLMPOWERผมถามเกี่ยวกับการวิเคราะห์การใช้พลังงานที่มีการถดถอยโลจิสติกและเอสเอ ถ้าฉันออกแบบการทดลองและวิเคราะห์ผลลัพธ์ในการถดถอยแบบลอจิสติกแบบแฟคทอเรียลฉันจะใช้การจำลอง (และที่นี่ ) เพื่อทำการวิเคราะห์พลังงานได้อย่างไร นี่คือตัวอย่างง่ายๆที่มีตัวแปรสองตัวตัวแรกใช้กับค่าที่เป็นไปได้สามค่าคือ {0.03, 0.06, 0.09} และตัวที่สองคือตัวบ่งชี้จำลอง {0,1} สำหรับแต่ละครั้งเราประเมินอัตราการตอบกลับสำหรับแต่ละชุดค่าผสม (จำนวนผู้ตอบ / จำนวนผู้ที่ทำการตลาด) นอกจากนี้เราต้องการให้มีการรวมกันครั้งแรกหลายเท่าของปัจจัยอื่น ๆ (ซึ่งถือได้ว่ามีค่าเท่ากัน) เนื่องจากชุดค่าผสมครั้งแรกนี้เป็นรุ่นทดลองและจริงของเรา นี่คือการตั้งค่าที่กำหนดไว้ในหลักสูตร SAS ที่กล่าวถึงในคำถามที่เชื่อมโยง รูปแบบที่จะใช้ในการวิเคราะห์ผลลัพธ์จะเป็นการถดถอยโลจิสติกโดยมีเอฟเฟกต์หลักและการโต้ตอบ (การตอบสนองคือ 0 หรือ 1) mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) ฉันจะจำลองชุดข้อมูลที่ใช้กับรุ่นนี้เพื่อทำการวิเคราะห์พลังงานได้อย่างไร เมื่อฉันรันสิ่งนี้ผ่าน SAS Proc GLMPOWER(การใช้STDDEV =0.05486016 ซึ่งสอดคล้องกับsqrt(p(1-p))ตำแหน่ง p คือค่าเฉลี่ยถ่วงน้ำหนักของอัตราการตอบกลับที่แสดง): data …

39 r logistic generalized-linear-model simulation power-analysis

1

วิธีการตีความและรายงานกทพ. กำลังสอง / กทพ. บางส่วนในการวิเคราะห์ที่มีนัยสำคัญทางสถิติและไม่มีนัยสำคัญ?

ฉันมีข้อมูลที่มีค่ากทพ. และค่ากทพ. ส่วนที่คำนวณได้เป็นการคำนวณขนาดของเอฟเฟกต์สำหรับความแตกต่างของค่าเฉลี่ยกลุ่ม อะไรคือความแตกต่างระหว่างกทพ. กับสแควร์และกทพ. บางส่วน พวกเขาสามารถตีความโดยใช้แนวทางของโคเฮนเดียวกันได้หรือไม่ (1988 ฉันคิดว่า: 0.01 = เล็ก, 0.06 = ปานกลาง, 0.13 = ใหญ่)? นอกจากนี้ยังมีการใช้ขนาดรายงานผลกระทบหรือไม่หากการทดสอบเปรียบเทียบ (เช่น t-test หรือ one-way ANOVA) ไม่มีความหมาย? ในหัวของฉันนี่ก็เหมือนกับการพูดว่า "ความแตกต่างเฉลี่ยไม่ถึงนัยสำคัญทางสถิติ แต่ยังคงเป็นข้อความที่เจาะจงเพราะขนาดของเอฟเฟกต์ที่ระบุจากกทพ. กำลังปานกลาง" หรือขนาดของเอฟเฟกต์เป็นค่าทดแทนสำหรับการทดสอบอย่างมีนัยสำคัญแทนที่จะเป็นส่วนประกอบเสริมหรือไม่

39 anova statistical-significance effect-size

4

ความหมายของ“.” (dot) ใน R คืออะไร?

ฉันแค่อ่านหนังสือ "R in a Nutshell" และดูเหมือนว่าฉันข้ามส่วนที่ "." เช่นเดียวกับใน "sample.formula" ถูกอธิบาย > sample.formula <- as.formula(y~x1+x2) ตัวอย่างวัตถุที่มีสูตรสนามเป็นภาษาอื่นหรือไม่? และถ้าเป็นเช่นนั้นฉันจะรู้ได้อย่างไรว่ามีวัตถุ / ฟังก์ชั่นอื่น ๆ อีกบ้าง (ประกาศประเภท) แก้ไข: ฉันเพิ่งพบการใช้ "." ที่สับสนอีกครั้ง: > svm(formula = is_spam~., data = spambase.training) (จุดระหว่าง ~.,)

39 r

2

แบบจำลองการถดถอยโลจิสติกไม่ได้มาบรรจบกัน

ฉันได้รับข้อมูลบางอย่างเกี่ยวกับเที่ยวบินของสายการบิน (ในกรอบข้อมูลที่เรียกว่าflights) และฉันต้องการดูว่าเวลาเที่ยวบินมีผลต่อความน่าจะเป็นของการมาถึงล่าช้าหรือไม่ (หมายถึง 10 นาทีหรือมากกว่า) ฉันคิดว่าฉันใช้การถดถอยโลจิสติกโดยมีเวลาเที่ยวบินเป็นตัวทำนายและไม่ว่าแต่ละเที่ยวบินจะล่าช้าหรือไม่ (กลุ่มเบอร์นูลิส) เป็นคำตอบ ฉันใช้รหัสต่อไปนี้ ... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ... แต่ได้ผลลัพธ์ต่อไปนี้ > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, …

39 r logistic separation

6

การถดถอยมุมต่ำกับบ่วง

การถดถอยแบบมุมต่ำและบ่วงนั้นมีแนวโน้มที่จะสร้างเส้นทางการทำให้เป็นมาตรฐานที่คล้ายกันมาก (เหมือนกันยกเว้นเมื่อค่าสัมประสิทธิ์กากบาทเป็นศูนย์) พวกเขาทั้งสองสามารถปรับได้อย่างมีประสิทธิภาพโดยอัลกอริทึมที่เหมือนจริง มีเหตุผลเชิงปฏิบัติหรือไม่ที่จะชอบวิธีหนึ่งมากกว่าอีกวิธี?

39 regression lasso

3

โหมดคลาสและประเภทของวัตถุ R

ฉันสงสัยว่าอะไรคือความแตกต่างระหว่างวัตถุ Mode, Class และ Type of R? ประเภทของวัตถุ R สามารถรับได้โดย typeof () ฟังก์ชั่น, โหมดโดยโหมด () และระดับชั้นโดยคลาส () นอกจากนี้ยังมีฟังก์ชั่นและแนวคิดอื่น ๆ ที่คล้ายกันที่ฉันพลาดไปไหม ขอบคุณและขอแสดงความนับถือ!

39 r

8

จะทดสอบสมมติฐานที่ไม่มีความแตกต่างของกลุ่มได้อย่างไร?

ลองนึกภาพคุณมีการศึกษาที่มีสองกลุ่ม (เช่นชายและหญิง) ดูตัวแปรตามตัวเลข (เช่นคะแนนการทดสอบสติปัญญา) และคุณมีสมมติฐานว่าไม่มีความแตกต่างของกลุ่ม คำถาม: วิธีที่ดีในการทดสอบว่าไม่มีความแตกต่างของกลุ่มคืออะไร คุณจะกำหนดขนาดตัวอย่างที่จำเป็นในการทดสอบอย่างเพียงพอโดยไม่มีความแตกต่างของกลุ่มอย่างไร ความคิดเริ่มต้น: มันจะไม่เพียงพอที่จะทำแบบทดสอบ t-test เพราะความล้มเหลวในการปฏิเสธสมมติฐานว่างไม่ได้หมายความว่าพารามิเตอร์ของดอกเบี้ยมีค่าเท่ากับหรือใกล้เคียงกับศูนย์ โดยเฉพาะอย่างยิ่งกรณีที่มีตัวอย่างขนาดเล็ก ฉันสามารถดูช่วงความมั่นใจ 95% และตรวจสอบว่าค่าทั้งหมดอยู่ในช่วงที่มีขนาดเล็กพอสมควร อาจบวกหรือลบ 0.3 ส่วนเบี่ยงเบนมาตรฐาน

39 hypothesis-testing t-test equivalence tost

3

Clojure กับ R: ข้อดีและข้อเสียสำหรับการวิเคราะห์ข้อมูล

ฉันมีแผนการเรียนรู้ R ในอนาคตอันใกล้ อ่านคำถามอื่นฉันพบเกี่ยวกับ Clojure ตอนนี้ฉันไม่รู้จะทำยังไง ฉันคิดว่าข้อได้เปรียบที่ยิ่งใหญ่ของ Rสำหรับฉันคือบางคนในสาขาเศรษฐศาสตร์ใช้มันรวมถึงหนึ่งในหัวหน้างานของฉัน (แม้ว่าอีกคนหนึ่งพูดว่า: อยู่ห่างจาก R!) ข้อดีอย่างหนึ่งของ Clojureก็คือมันเป็นเสียงกระเพื่อมและเมื่อฉันเริ่มเรียนรู้ Emacs และฉันกระตือรือร้นที่จะเขียนการปรับแต่งของตัวเองมันจะมีประโยชน์ (ใช่ฉันรู้ว่า Clojure และ Elisp เป็นภาษาถิ่นที่แตกต่างกันของ Lisp แต่พวกเขา ทั้งเสียงกระเพื่อมและคล้ายกันฉันจะจินตนาการ) ฉันไม่สามารถถามได้ว่าอันไหนดีกว่าเพราะฉันรู้ว่านี่เป็นเรื่องส่วนตัว แต่ใครบางคนสามารถให้ข้อดี (หรือข้อดี) ของ Clojure x R โดยเฉพาะอย่างยิ่งในแง่ของการใช้งานจริง? ตัวอย่างเช่นสิ่งใดที่ควรเรียนรู้ได้ง่ายกว่าอันใดอันใดยืดหยุ่นกว่าหรือทรงพลังยิ่งกว่าอันใดอันใดมีห้องสมุดมากขึ้นสนับสนุนมากขึ้นผู้ใช้มากขึ้น ฯลฯ การใช้งานที่ฉันตั้งใจ : การประเมินจำนวนมากของฉันควรทำโดยใช้ Matlab ดังนั้นฉันไม่ได้มองหาอะไรที่ลึกเกินไปในแง่ของการวิเคราะห์ทางสถิติ แต่เป็นซอฟต์แวร์ที่ใช้แทน Excel สำหรับการจัดการข้อมูลและการมองเห็นเริ่มต้นสถิติสรุปและการสร้างแผนภูมิ แต่ยังมีการวิเคราะห์ทางสถิติขั้นพื้นฐานหรือความพยายามครั้งแรกที่การประเมินของฉัน

39 r

8

ฟังก์ชันภาพรวมข้อมูลกราฟิก (สรุป) ใน R

ฉันแน่ใจว่าฉันเจอฟังก์ชั่นแบบนี้ในแพ็คเกจ R มาก่อน แต่หลังจาก Googling ที่กว้างขวางฉันดูเหมือนจะไม่สามารถหาได้ทุกที่ ฟังก์ชั่นที่ฉันคิดว่าจะสร้างบทสรุปกราฟิกสำหรับตัวแปรที่กำหนดให้กับมันสร้างผลลัพธ์ด้วยกราฟ (ฮิสโตแกรมและอาจเป็นกล่องและพล็อตมัสสุ) และข้อความบางส่วนที่ให้รายละเอียดเช่นค่าเฉลี่ย SD เป็นต้น ฉันค่อนข้างมั่นใจว่าฟังก์ชั่นนี้ไม่รวมอยู่ใน base R แต่ฉันไม่สามารถหาแพ็คเกจที่ฉันใช้ ไม่มีใครรู้ถึงฟังก์ชั่นเช่นนี้และถ้าเป็นเช่นนั้นมันเป็นแพคเกจอะไร?

39 r data-visualization descriptive-statistics eda

1

ทำไมเราใช้ Kullback-Leibler divergence แทนที่จะข้ามเอนโทรปีในฟังก์ชันวัตถุประสงค์ t-SNE

ในใจของฉัน KL แตกต่างจากการกระจายตัวอย่างไปจนถึงการแจกแจงที่แท้จริงเป็นเพียงความแตกต่างระหว่างเอนโทรปีและเอนโทรปี เหตุใดเราใช้ cross entropy เป็นฟังก์ชั่นค่าใช้จ่ายในแบบจำลองการเรียนรู้ของเครื่องหลายเครื่อง แต่ใช้ Kullback-Leibler divergence ใน t-sne ความเร็วในการเรียนรู้แตกต่างกันหรือไม่?

39 kullback-leibler tsne cross-entropy

5

LDA กับ word2vec

ฉันพยายามที่จะเข้าใจความคล้ายคลึงกันระหว่างLatent Dirichlet Allocationและword2vecสำหรับการคำนวณความคล้ายคลึงกันของคำ ดังที่ฉันเข้าใจ LDA จับคู่คำกับเวกเตอร์ของความน่าจะเป็นของหัวข้อแฝงในขณะที่ word2vec จับคู่คำกับเวกเตอร์ของจำนวนจริง (เกี่ยวข้องกับการสลายตัวตามตัวอักษรเอกพจน์ของข้อมูลร่วมกันแบบพอยต์ดูO. Levy, Y. Goldberg) ตามตัวประกอบเมทริกซ์โดยนัย " ; ดูเพิ่มเติมที่word2vec ทำงานอย่างไร? ) ฉันสนใจทั้งในด้านความสัมพันธ์ทางทฤษฎี (สามารถพิจารณาได้ว่าเป็นลักษณะทั่วไปหรือการเปลี่ยนแปลงอื่น ๆ ) และในทางปฏิบัติ (เมื่อใช้อย่างใดอย่างหนึ่ง แต่ไม่ใช่แบบอื่น) ที่เกี่ยวข้อง: อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร - DataScience.SE

39 machine-learning self-study natural-language latent-variable word2vec

3

จำเป็นต้องมีมาตรฐานก่อนการถดถอยโลจิสติกที่เหมาะสมหรือไม่

คำถามของฉันคือเราจำเป็นต้องสร้างมาตรฐานให้กับชุดข้อมูลเพื่อให้แน่ใจว่าตัวแปรทั้งหมดมีขนาดเท่ากันระหว่าง [0,1] ก่อนการถดถอยโลจิสติกที่เหมาะสม สูตรคือ: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} ชุดข้อมูลของฉันมี 2 ตัวแปรพวกเขาอธิบายสิ่งเดียวกันสำหรับสองช่องทาง แต่ปริมาณนั้นแตกต่างกัน สมมติว่าเป็นจำนวนการเข้าชมของลูกค้าในร้านค้าสองแห่งและที่นี่คือว่าลูกค้าซื้อหรือไม่ เพราะลูกค้าสามารถเยี่ยมชมร้านค้าทั้งสองหรือร้านค้าครั้งแรกสองครั้งร้านค้าที่สองก่อนที่เขาจะทำการซื้อ แต่จำนวนการเข้าชมของลูกค้าทั้งหมดสำหรับร้านค้าที่ 1 นั้นใหญ่กว่าร้านที่สองถึง 10 เท่า เมื่อฉันเหมาะสมกับการถดถอยโลจิสติกนี้โดยไม่มีมาตรฐาน, coef(store1)=37, coef(store2)=13; coef(store1)=133, coef(store2)=11ถ้าฉันมาตรฐานข้อมูลแล้ว บางสิ่งเช่นนี้ วิธีใดที่เหมาะสมกว่า ถ้าฉันทำโมเดลต้นไม้ตัดสินใจให้เหมาะสมล่ะ ฉันรู้ว่าโมเดลโครงสร้างแบบต้นไม้ไม่จำเป็นต้องมีมาตรฐานเพราะตัวแบบเองจะปรับมันอย่างใด แต่การตรวจสอบกับคุณทุกคน

39 regression logistic standardization

7

การทำข้อมูลให้เป็นมาตรฐานและมาตรฐานในเครือข่ายประสาทเทียม

ฉันพยายามทำนายผลลัพธ์ของระบบที่ซับซ้อนโดยใช้โครงข่ายประสาท (ANN's) ค่าผลลัพธ์ขึ้นอยู่กับช่วงระหว่าง 0 ถึง 10,000 ตัวแปรอินพุตที่ต่างกันมีช่วงที่แตกต่างกัน ตัวแปรทั้งหมดมีการแจกแจงแบบปกติประมาณ ฉันพิจารณาตัวเลือกต่าง ๆ เพื่อปรับขนาดข้อมูลก่อนการฝึกอบรม ทางเลือกหนึ่งคือการปรับขนาดตัวแปรอินพุต (อิสระ) และเอาต์พุต (ขึ้นอยู่กับ) เป็น [0, 1] โดยการคำนวณฟังก์ชันการแจกแจงสะสมโดยใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของแต่ละตัวแปรอย่างอิสระ ปัญหาของวิธีนี้คือถ้าฉันใช้ฟังก์ชั่นการเปิดใช้งาน sigmoid ที่เอาต์พุตฉันจะพลาดข้อมูลมากโดยเฉพาะที่ไม่ได้เห็นในชุดฝึกอบรม อีกทางเลือกหนึ่งคือใช้คะแนน z ในกรณีนี้ฉันไม่มีปัญหาข้อมูลมาก อย่างไรก็ตามฉัน จำกัด ฟังก์ชั่นการเปิดใช้งานเชิงเส้นที่เอาต์พุต เทคนิคการทำให้เป็นมาตรฐานที่ยอมรับอื่น ๆ ที่ใช้กับ ANN คืออะไร ฉันพยายามค้นหาคำวิจารณ์ในหัวข้อนี้ แต่ไม่พบสิ่งที่มีประโยชน์

39 machine-learning neural-networks multidimensional-scaling