สถิติและข้อมูลขนาดใหญ่ r

2

การจำลองการวิเคราะห์กำลังถดถอยของโลจิสติกส์ - การทดลองที่ออกแบบมา

คำถามนี้เป็นคำถามในการตอบสนองต่อคำตอบที่ได้รับจาก @ Greg หิมะในเรื่องที่เกี่ยวกับคำถามที่Proc GLMPOWERผมถามเกี่ยวกับการวิเคราะห์การใช้พลังงานที่มีการถดถอยโลจิสติกและเอสเอ ถ้าฉันออกแบบการทดลองและวิเคราะห์ผลลัพธ์ในการถดถอยแบบลอจิสติกแบบแฟคทอเรียลฉันจะใช้การจำลอง (และที่นี่ ) เพื่อทำการวิเคราะห์พลังงานได้อย่างไร นี่คือตัวอย่างง่ายๆที่มีตัวแปรสองตัวตัวแรกใช้กับค่าที่เป็นไปได้สามค่าคือ {0.03, 0.06, 0.09} และตัวที่สองคือตัวบ่งชี้จำลอง {0,1} สำหรับแต่ละครั้งเราประเมินอัตราการตอบกลับสำหรับแต่ละชุดค่าผสม (จำนวนผู้ตอบ / จำนวนผู้ที่ทำการตลาด) นอกจากนี้เราต้องการให้มีการรวมกันครั้งแรกหลายเท่าของปัจจัยอื่น ๆ (ซึ่งถือได้ว่ามีค่าเท่ากัน) เนื่องจากชุดค่าผสมครั้งแรกนี้เป็นรุ่นทดลองและจริงของเรา นี่คือการตั้งค่าที่กำหนดไว้ในหลักสูตร SAS ที่กล่าวถึงในคำถามที่เชื่อมโยง รูปแบบที่จะใช้ในการวิเคราะห์ผลลัพธ์จะเป็นการถดถอยโลจิสติกโดยมีเอฟเฟกต์หลักและการโต้ตอบ (การตอบสนองคือ 0 หรือ 1) mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) ฉันจะจำลองชุดข้อมูลที่ใช้กับรุ่นนี้เพื่อทำการวิเคราะห์พลังงานได้อย่างไร เมื่อฉันรันสิ่งนี้ผ่าน SAS Proc GLMPOWER(การใช้STDDEV =0.05486016 ซึ่งสอดคล้องกับsqrt(p(1-p))ตำแหน่ง p คือค่าเฉลี่ยถ่วงน้ำหนักของอัตราการตอบกลับที่แสดง): data …

39 r logistic generalized-linear-model simulation power-analysis

4

ความหมายของ“.” (dot) ใน R คืออะไร?

ฉันแค่อ่านหนังสือ "R in a Nutshell" และดูเหมือนว่าฉันข้ามส่วนที่ "." เช่นเดียวกับใน "sample.formula" ถูกอธิบาย > sample.formula <- as.formula(y~x1+x2) ตัวอย่างวัตถุที่มีสูตรสนามเป็นภาษาอื่นหรือไม่? และถ้าเป็นเช่นนั้นฉันจะรู้ได้อย่างไรว่ามีวัตถุ / ฟังก์ชั่นอื่น ๆ อีกบ้าง (ประกาศประเภท) แก้ไข: ฉันเพิ่งพบการใช้ "." ที่สับสนอีกครั้ง: > svm(formula = is_spam~., data = spambase.training) (จุดระหว่าง ~.,)

39 r

2

แบบจำลองการถดถอยโลจิสติกไม่ได้มาบรรจบกัน

ฉันได้รับข้อมูลบางอย่างเกี่ยวกับเที่ยวบินของสายการบิน (ในกรอบข้อมูลที่เรียกว่าflights) และฉันต้องการดูว่าเวลาเที่ยวบินมีผลต่อความน่าจะเป็นของการมาถึงล่าช้าหรือไม่ (หมายถึง 10 นาทีหรือมากกว่า) ฉันคิดว่าฉันใช้การถดถอยโลจิสติกโดยมีเวลาเที่ยวบินเป็นตัวทำนายและไม่ว่าแต่ละเที่ยวบินจะล่าช้าหรือไม่ (กลุ่มเบอร์นูลิส) เป็นคำตอบ ฉันใช้รหัสต่อไปนี้ ... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ... แต่ได้ผลลัพธ์ต่อไปนี้ > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, …

39 r logistic separation

3

โหมดคลาสและประเภทของวัตถุ R

ฉันสงสัยว่าอะไรคือความแตกต่างระหว่างวัตถุ Mode, Class และ Type of R? ประเภทของวัตถุ R สามารถรับได้โดย typeof () ฟังก์ชั่น, โหมดโดยโหมด () และระดับชั้นโดยคลาส () นอกจากนี้ยังมีฟังก์ชั่นและแนวคิดอื่น ๆ ที่คล้ายกันที่ฉันพลาดไปไหม ขอบคุณและขอแสดงความนับถือ!

39 r

3

Clojure กับ R: ข้อดีและข้อเสียสำหรับการวิเคราะห์ข้อมูล

ฉันมีแผนการเรียนรู้ R ในอนาคตอันใกล้ อ่านคำถามอื่นฉันพบเกี่ยวกับ Clojure ตอนนี้ฉันไม่รู้จะทำยังไง ฉันคิดว่าข้อได้เปรียบที่ยิ่งใหญ่ของ Rสำหรับฉันคือบางคนในสาขาเศรษฐศาสตร์ใช้มันรวมถึงหนึ่งในหัวหน้างานของฉัน (แม้ว่าอีกคนหนึ่งพูดว่า: อยู่ห่างจาก R!) ข้อดีอย่างหนึ่งของ Clojureก็คือมันเป็นเสียงกระเพื่อมและเมื่อฉันเริ่มเรียนรู้ Emacs และฉันกระตือรือร้นที่จะเขียนการปรับแต่งของตัวเองมันจะมีประโยชน์ (ใช่ฉันรู้ว่า Clojure และ Elisp เป็นภาษาถิ่นที่แตกต่างกันของ Lisp แต่พวกเขา ทั้งเสียงกระเพื่อมและคล้ายกันฉันจะจินตนาการ) ฉันไม่สามารถถามได้ว่าอันไหนดีกว่าเพราะฉันรู้ว่านี่เป็นเรื่องส่วนตัว แต่ใครบางคนสามารถให้ข้อดี (หรือข้อดี) ของ Clojure x R โดยเฉพาะอย่างยิ่งในแง่ของการใช้งานจริง? ตัวอย่างเช่นสิ่งใดที่ควรเรียนรู้ได้ง่ายกว่าอันใดอันใดยืดหยุ่นกว่าหรือทรงพลังยิ่งกว่าอันใดอันใดมีห้องสมุดมากขึ้นสนับสนุนมากขึ้นผู้ใช้มากขึ้น ฯลฯ การใช้งานที่ฉันตั้งใจ : การประเมินจำนวนมากของฉันควรทำโดยใช้ Matlab ดังนั้นฉันไม่ได้มองหาอะไรที่ลึกเกินไปในแง่ของการวิเคราะห์ทางสถิติ แต่เป็นซอฟต์แวร์ที่ใช้แทน Excel สำหรับการจัดการข้อมูลและการมองเห็นเริ่มต้นสถิติสรุปและการสร้างแผนภูมิ แต่ยังมีการวิเคราะห์ทางสถิติขั้นพื้นฐานหรือความพยายามครั้งแรกที่การประเมินของฉัน

39 r

8

ฟังก์ชันภาพรวมข้อมูลกราฟิก (สรุป) ใน R

ฉันแน่ใจว่าฉันเจอฟังก์ชั่นแบบนี้ในแพ็คเกจ R มาก่อน แต่หลังจาก Googling ที่กว้างขวางฉันดูเหมือนจะไม่สามารถหาได้ทุกที่ ฟังก์ชั่นที่ฉันคิดว่าจะสร้างบทสรุปกราฟิกสำหรับตัวแปรที่กำหนดให้กับมันสร้างผลลัพธ์ด้วยกราฟ (ฮิสโตแกรมและอาจเป็นกล่องและพล็อตมัสสุ) และข้อความบางส่วนที่ให้รายละเอียดเช่นค่าเฉลี่ย SD เป็นต้น ฉันค่อนข้างมั่นใจว่าฟังก์ชั่นนี้ไม่รวมอยู่ใน base R แต่ฉันไม่สามารถหาแพ็คเกจที่ฉันใช้ ไม่มีใครรู้ถึงฟังก์ชั่นเช่นนี้และถ้าเป็นเช่นนั้นมันเป็นแพคเกจอะไร?

39 r data-visualization descriptive-statistics eda

1

อันดับใน R - ลำดับจากน้อยไปมาก [ปิด]

ฉันต้องการจัดอันดับข้อมูลที่ในบางกรณีค่าที่มากกว่านั้นมีอันดับที่ 1 ฉันค่อนข้างใหม่กับ R แต่ฉันไม่เห็นว่าฉันสามารถปรับการตั้งค่านี้ในฟังก์ชันอันดับได้อย่างไร x <- c(23,45,12,67,34,89) rank(x) สร้าง: [1] 2 4 1 5 3 6 เมื่อฉันต้องการที่จะเป็น: [1] 5 3 6 2 4 1 ฉันถือว่านี่เป็นพื้นฐานมาก แต่ความช่วยเหลือใด ๆ ที่คุณสามารถให้จะได้รับการชื่นชมอย่างมาก

39 r

4

สำหรับการวางแผนด้วย R ฉันควรเรียนรู้ ggplot2 หรือ ggvis หรือไม่

สำหรับการวางแผนด้วย R ฉันควรเรียนรู้ ggplot2 หรือ ggvis หรือไม่ ฉันไม่ต้องการเรียนรู้ทั้งสองอย่างถ้าหนึ่งในนั้นดีกว่าไม่ว่าในเรื่องใด เหตุใดชุมชน R จึงยังคงสร้างแพ็คเกจใหม่ด้วยฟังก์ชันที่ทับซ้อนกันอยู่ โพสต์แนะนำบล็อกไม่ได้พูดถึงคำว่าทำไม ggvis ถูกสร้างขึ้นให้ว่าพล็อตที่มีความซับซ้อนแพคเกจ ggplot2 มีอยู่แล้ว

38 r data-visualization software

4

การจำลองตัวเลือก“ แข็งแกร่ง” ของ Stata ใน R

ฉันพยายามทำซ้ำผลลัพธ์ของตัวเลือก Stata robustใน R ฉันได้ใช้rlmคำสั่งในรูปแบบแพ็คเกจ MASS และคำสั่งlmrobจากแพคเกจ "robustbase" ในทั้งสองกรณีผลลัพธ์จะค่อนข้างแตกต่างจากตัวเลือก "ที่มีประสิทธิภาพ" ใน Stata ใครช่วยกรุณาแนะนำบางสิ่งในบริบทนี้ได้บ้าง นี่คือผลลัพธ์ที่ฉันได้รับเมื่อฉันรันตัวเลือกที่แข็งแกร่งใน Stata: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ …

38 r stata robust robust-standard-error

7

มีเบราว์เซอร์ / ตัวแสดงที่ดีในการดูชุดข้อมูล R (ไฟล์. rda) หรือไม่

ฉันต้องการเรียกดูไฟล์. rda (ชุดข้อมูล R) ฉันรู้เกี่ยวกับView(datasetname)คำสั่ง R.app เริ่มต้นที่มาสำหรับ Mac ไม่มีเบราว์เซอร์ที่ดีมากสำหรับข้อมูล (เปิดหน้าต่างใน X11) ฉันชอบเบราว์เซอร์ข้อมูล RStudio ที่เปิดด้วยViewคำสั่ง อย่างไรก็ตามมันจะแสดงเพียง 1,000 แถวและละเว้นส่วนที่เหลือ ( อัพเดท: ตอนนี้โปรแกรมดู RStudio จะแสดงแถวทั้งหมด ) มีเบราว์เซอร์ที่ดีที่จะแสดงแถวทั้งหมดในชุดข้อมูลและคุณชอบ / ใช้

38 r

5

อนุกรมเวลา 'การจัดกลุ่ม' ใน R

ฉันมีชุดข้อมูลอนุกรมเวลา แต่ละซีรี่ส์ครอบคลุมช่วงเวลาเดียวกันแม้ว่าวันที่ที่เกิดขึ้นจริงในแต่ละช่วงเวลาอาจไม่ตรงกับ กล่าวคือถ้าหากต้องอ่านอนุกรมเวลาในเมทริกซ์ 2D มันจะมีลักษณะดังนี้: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc ฉันต้องการเขียนสคริปต์ R ที่จะแยกอนุกรมเวลา {T1, T2, ... TN} …

38 r time-series clustering cointegration

9

ฉันจะจำลองผลรวมของตัวแปรสุ่มของเบอร์นูลลี่อย่างมีประสิทธิภาพได้อย่างไร

ฉันกำลังสร้างแบบจำลองตัวแปรสุ่ม ( ) ซึ่งเป็นผลรวมของตัวแปรสุ่ม Bernoulli อิสระบางตัว ( ) บาง ~ 15-40k แต่ละคนมีโอกาสประสบความสำเร็จที่แตกต่างกัน ( ) อย่างเป็นทางการที่และ\ Pr (x_i = 0) = 1 p_iYYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i ฉันสนใจที่จะตอบคำถามอย่างรวดเร็วเช่นPr(Y<=k)Pr(Y<=k)\Pr(Y<=k) (โดยที่ได้รับkkk ) ขณะนี้ฉันใช้การจำลองแบบสุ่มเพื่อตอบคำถามดังกล่าว ผมสุ่มวาดแต่ละXiXiX_iตามมันpipip_iแล้วรวมทั้งหมดXiXiX_iค่าที่จะได้รับY'Y′Y′Y'ฉันทำซ้ำขั้นตอนนี้ไม่กี่พันครั้งและกลับส่วนครั้งที่Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k)k) เห็นได้ชัดว่านี่ไม่ถูกต้องทั้งหมด (แม้ว่าความแม่นยำจะเพิ่มขึ้นอย่างมากเมื่อจำนวนการจำลองเพิ่มขึ้น) นอกจากนี้ดูเหมือนว่าฉันมีข้อมูลเพียงพอเกี่ยวกับการแจกจ่ายเพื่อหลีกเลี่ยงการจำลองการใช้งาน คุณคิดวิธีที่สมเหตุสมผลในการรับความน่าจะเป็นPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)หรือไม่? PS ฉันใช้ Perl & R แก้ไข ฉันคิดว่าอาจจำเป็นต้องมีคำอธิบายเพิ่มเติม ฉันจะอธิบายการตั้งค่าของปัญหาของฉันในไม่ช้า รับเป็นจีโนมวงกลมที่มีเส้นรอบวงcและชุดของnช่วงแมปกับมัน ยกตัวอย่างเช่นและc=3*10^9 ranges={[100,200],[50,1000],[3*10^9-1,1000],...}หมายเหตุช่วงทั้งหมดถูกปิด (รวมปลายทั้งสอง) โปรดทราบว่าเราจัดการเฉพาะจำนวนเต็ม (หน่วยทั้งหมด) ฉันกำลังมองหาภูมิภาคบนวงกลมที่มีการซ่อนเร้นโดยnช่วงที่กำหนด ดังนั้นเพื่อทดสอบว่าช่วงความยาวxที่กำหนดบนวงกลมนั้นมีการปกปิดหรือไม่ฉันทดสอบสมมติฐานที่nช่วงนั้นมีการแมปแบบสุ่ม …

38 r distributions binomial random-variable poisson-binomial

1

คำนวณด้วยตนเอง

ฉันรู้ว่านี่เป็นRคำถามที่ค่อนข้างเฉพาะแต่ฉันอาจกำลังคิดถึงความแปรปรวนสัดส่วนที่อธิบายว่าไม่ถูกต้อง นี่ไงR2R2R^2 ฉันพยายามที่จะใช้แพคเกจR randomForestฉันมีข้อมูลการฝึกอบรมและข้อมูลการทดสอบ เมื่อฉันพอดีกับโมเดลฟอเรสต์แบบสุ่มrandomForestฟังก์ชันจะอนุญาตให้คุณป้อนข้อมูลการทดสอบใหม่เพื่อทดสอบ จากนั้นจะบอกเปอร์เซ็นต์ความแปรปรวนที่อธิบายไว้ในข้อมูลใหม่นี้ เมื่อฉันดูสิ่งนี้ฉันจะได้หมายเลขหนึ่ง เมื่อฉันใช้predict()ฟังก์ชั่นเพื่อทำนายค่าผลลัพธ์ของข้อมูลการทดสอบตามแบบจำลองที่พอดีกับข้อมูลการฝึกอบรมและฉันใช้ค่าสัมประสิทธิ์สหสัมพันธ์กำลังสองระหว่างค่าเหล่านี้กับค่าผลลัพธ์จริงสำหรับข้อมูลการทดสอบฉันได้ตัวเลขที่แตกต่างกัน ค่าเหล่านี้ไม่ตรงกัน นี่คือRรหัสบางส่วนเพื่อแสดงปัญหา # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a …

38 r correlation predictive-models random-forest r-squared

2

การตีความเอาท์พุทของ R สำหรับการถดถอยแบบทวินาม

ฉันค่อนข้างใหม่กับการทดสอบข้อมูลทวินาม แต่จำเป็นต้องทำและตอนนี้ฉันไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ตัวแปร y คือตัวแปรตอบสนองเป็นแบบทวินามและปัจจัยที่อธิบายได้นั้นมีความต่อเนื่อง นี่คือสิ่งที่ฉันได้รับเมื่อสรุปผลลัพธ์: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- …

38 r regression logistic binomial interpretation

1

ทำไม Glmer ไม่ได้รับโอกาสสูงสุด (ตรวจสอบโดยใช้การเพิ่มประสิทธิภาพทั่วไปเพิ่มเติม)

ตัวเลขที่ได้จากMLE s ของGLMMนั้นยากและในทางปฏิบัติฉันรู้ว่าเราไม่ควรใช้การเพิ่มประสิทธิภาพกำลังดุร้าย (เช่นใช้optimในวิธีที่ง่าย) แต่เพื่อจุดประสงค์ทางการศึกษาของฉันฉันต้องการลองเพื่อให้แน่ใจว่าฉันเข้าใจโมเดลอย่างถูกต้อง (ดูรหัสด้านล่าง) ฉันพบว่าฉันได้รับผลลัพธ์ที่ไม่สอดคล้องกันglmer()เสมอ โดยเฉพาะอย่างยิ่งแม้ว่าฉันจะใช้ MLEs glmerเป็นค่าเริ่มต้นตามฟังก์ชั่นความน่าจะเป็นที่ฉันเขียน ( negloglik) พวกเขาไม่ใช่ MLEs ( opt1$valueเล็กกว่าopt2) ฉันคิดว่าสองเหตุผลที่เป็นไปได้คือ: negloglik เขียนได้ไม่ดีเพื่อให้มีข้อผิดพลาดทางตัวเลขมากเกินไปและ ข้อมูลจำเพาะรุ่นไม่ถูกต้อง สำหรับสเปคโมเดลรุ่นที่ต้องการคือ: L=∏i=1n(∫∞−∞f(yi|N,a,b,ri)g(ri|s)dri)L=∏i=1n(∫−∞∞f(yi|N,a,b,ri)g(ri|s)dri)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation} โดยที่คือทวินามทวินามและเป็นไฟล์ PDF ปกติ ฉันพยายามที่จะประเมิน,และsโดยเฉพาะอย่างยิ่งฉันต้องการทราบว่าสเปคโมเดลผิดหรือไม่สเปคที่ถูกต้องคืออะไรfffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 …

37 r maximum-likelihood optimization lme4-nlme

คำถามติดแท็ก r