สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
การตรวจจับค่าผิดปกติในอนุกรมเวลา (LS / AO / TC) โดยใช้แพ็คเกจ tsoutliers ใน R จะแสดงค่าผิดปกติในรูปแบบสมการได้อย่างไร
ความคิดเห็นที่: ประการแรกผมอยากจะบอกว่าใหญ่ขอบคุณไปยังผู้เขียนของใหม่tsoutliersแพคเกจซึ่งดำเนินเฉินและหลิวการตรวจสอบอนุกรมเวลาค่าผิดปกติซึ่งได้รับการตีพิมพ์ในวารสารของสมาคมอเมริกันสถิติในปี 1993 อยู่ในซอฟต์แวร์โอเพนซอร์สRRRR แพ็คเกจตรวจจับค่าผิดปกติ 5 ประเภทที่ซ้ำกันในข้อมูลอนุกรมเวลา: สารเติมแต่ง (AO) นวัตกรรมล้ำหน้า (IO) Level Shift (LS) การเปลี่ยนแปลงชั่วคราว (TC) การเลื่อนระดับตามฤดูกาล (SLS) สิ่งที่ดียิ่งกว่าคือแพคเกจนี้ใช้ auto.arima จากแพ็คเกจพยากรณ์เพื่อตรวจจับค่าผิดปกติได้อย่างราบรื่น นอกจากนี้แพ็กเกจยังสร้างพล็อตที่ดีเพื่อความเข้าใจที่ดีขึ้นของข้อมูลอนุกรมเวลา ด้านล่างเป็นคำถามของฉัน: ฉันลองใช้งานตัวอย่างโดยใช้แพ็คเกจนี้และมันก็ใช้งานได้ดี ค่าผิดปกติเพิ่มเติมและการเลื่อนระดับนั้นใช้งานง่าย อย่างไรก็ตามฉันมีคำถาม 2 ข้อเกี่ยวกับการส่งค่าผิดปกติชั่วคราวและค่าผิดปกติทางนวัตกรรมซึ่งฉันไม่สามารถเข้าใจได้ ตัวอย่างการเปลี่ยนแปลงค่าผิดพลาดชั่วคราว: ลองพิจารณาตัวอย่างต่อไปนี้: library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) โปรแกรมตรวจพบการเลื่อนระดับอย่างถูกต้องและการเปลี่ยนแปลงชั่วคราวที่ตำแหน่งต่อไปนี้ Outliers: type ind time coefhat tstat 1 LS 12 …

8
สุ่มเดินบนขอบของลูกบาศก์
วางมดไว้ที่มุมของลูกบาศก์และไม่สามารถเคลื่อนที่ได้ แมงมุมจะเริ่มต้นจากมุมตรงข้ามและสามารถย้ายไปตามขอบของก้อนในทิศทางใดด้วยความน่าจะเท่ากับ1/3โดยเฉลี่ยแมงมุมจะต้องก้าวไปกี่ก้าว?1 / 3(x,y,z)(x,y,z)(x,y,z)1/31/31/3 (นี่ไม่ใช่การบ้านมันเป็นคำถามสัมภาษณ์)

1
การถดถอยโลจิสติก: การทดสอบ anova ไคสแควร์กับความสำคัญของค่าสัมประสิทธิ์ (anova () เทียบกับสรุป () ใน R)
ฉันมีโมเดล GLM โลจิสติกส์พร้อมตัวแปร 8 ตัว ฉันรันการทดสอบไคสแควร์ใน R anova(glm.model,test='Chisq')และตัวแปร 2 ตัวกลายเป็นการคาดการณ์เมื่อสั่งที่ด้านบนของการทดสอบและไม่มากเมื่อสั่งที่ด้านล่าง summary(glm.model)แสดงให้เห็นว่าค่าสัมประสิทธิ์ของพวกเขาจะไม่มีนัยสำคัญสูง (p-value) ในกรณีนี้ดูเหมือนว่าตัวแปรจะไม่สำคัญ ฉันอยากถามว่าการทดสอบความสำคัญของตัวแปรใดดีขึ้น - ค่าสัมประสิทธิ์นัยสำคัญในการสรุปแบบจำลองหรือการทดสอบไคสแควanova()ร์ นอกจากนี้ - เมื่อใดอย่างใดอย่างหนึ่งดีกว่าอีก ฉันเดาว่ามันเป็นคำถามที่กว้างขวาง แต่พอยน์เตอร์ใด ๆ เกี่ยวกับสิ่งที่ต้องพิจารณาจะได้รับการชื่นชม

3
ความขัดแย้งที่มีนัยสำคัญในการถดถอยเชิงเส้น: t-test อย่างมีนัยสำคัญสำหรับสัมประสิทธิ์เทียบกับ F-statistic โดยรวมที่ไม่สำคัญ
ฉันเหมาะสมกับโมเดลการถดถอยเชิงเส้นหลายแบบระหว่างตัวแปรเด็ดขาด 4 อัน (แต่ละระดับมี 4 ระดับ) และเอาต์พุตตัวเลข ชุดข้อมูลของฉันมีข้อสังเกต 43 ข้อ การถดถอยทำให้ผมมีดังต่อไปนี้ -values จาก -test สำหรับทุกค่าสัมประสิทธิ์ความลาดชัน:0.02 ดังนั้นสัมประสิทธิ์สำหรับตัวทำนายที่ 4 จึงมีนัยสำคัญที่ระดับความเชื่อมั่นpppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 ในทางกลับกันการถดถอยให้จากการทดสอบโดยรวมของสมมติฐานว่างที่สัมประสิทธิ์ความชันของฉันทั้งหมดเท่ากับศูนย์ สำหรับชุดข้อมูลของฉันนี้คือ.pppFFFppp.11.11.11 คำถามของฉัน: ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ซึ่ง -value ฉันควรใช้และทำไม? สัมประสิทธิ์สำหรับตัวแปรที่ 4 แตกต่างจากที่ระดับความเชื่อมั่นหรือไม่?ppp000α=.05α=.05\alpha = .05 ผมเคยเห็นคำถามที่เกี่ยวข้อง,และสถิติในการถดถอยแต่มีสถานการณ์ตรงข้าม: สูง -test -values และต่ำ -test -value จริง ๆ แล้วฉันไม่เข้าใจว่าทำไมเราถึงต้องการการทดสอบแบบนอกเหนือจากการทดสอบแบบเพื่อดูว่าสัมประสิทธิ์การถดถอยเชิงเส้นแตกต่างจากศูนย์อย่างมีนัยสำคัญหรือไม่FFFttttttpppFFFpppFFFttt


4
จะตีความค่าเฉลี่ยของพล็อต Silhouette ได้อย่างไร?
ฉันกำลังพยายามใช้รูปเงาดำเพื่อกำหนดจำนวนของคลัสเตอร์ในชุดข้อมูลของฉัน รับชุดข้อมูลTrainฉันใช้รหัส matlab ต่อไปนี้ Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` พล็อตผลที่จะได้รับด้านล่างด้วย xaxis เป็นจำนวนคลัสเตอร์และ yaxis ค่าเฉลี่ยของความเงา ฉันจะตีความกราฟนี้ได้อย่างไร ฉันจะกำหนดจำนวนของคลัสเตอร์จากสิ่งนี้ได้อย่างไร?

5
ชุดข้อมูลฟรีสำหรับการจำแนกมิติที่สูงมาก [ปิด]
อะไรคือข้อมูลที่มีอยู่ได้อย่างอิสระที่กำหนดไว้สำหรับการจัดหมวดหมู่ที่มีมากกว่า 1000 คุณสมบัติ (หรือจุดตัวอย่างถ้ามีเส้นโค้ง)? มีวิกิชุมชนเกี่ยวกับชุดข้อมูลฟรีอยู่แล้ว: การ ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ แต่ที่นี่จะเป็นการดีหากมีรายการที่เน้นที่สามารถใช้งานได้สะดวกยิ่งขึ้นนอกจากนี้ฉันขอเสนอกฎต่อไปนี้: หนึ่งโพสต์ต่อชุดข้อมูล ไม่มีลิงก์ไปยังชุดของชุดข้อมูล แต่ละชุดข้อมูลจะต้องเชื่อมโยงกับ ชื่อ (จะคิดออกว่ามันเป็นเรื่องเกี่ยว) และเชื่อมโยงไปยังชุดที่ (R ชุดข้อมูลสามารถตั้งชื่อที่มีชื่อแพคเกจ) จำนวนฟีเจอร์ (สมมติว่ามันคือp ) ขนาดของชุดข้อมูล (สมมุติว่ามันคือn ) และจำนวนเลเบล / คลาส (สมมติว่ามันคือk ) อัตราความผิดพลาดทั่วไปจากประสบการณ์ของคุณ (ระบุอัลกอริธึมที่ใช้เป็นคำ) หรือจากครอก (ในกรณีนี้ลิงก์กระดาษ)

3
ข้อผิดพลาดมาตรฐานที่เหลือคืออะไร
เมื่อรันโมเดลการถดถอยหลายแบบใน R เอาต์พุตหนึ่งในนั้นคือข้อผิดพลาดมาตรฐานที่เหลืออยู่ที่ 0.0589 กับองศาอิสระ 95,161 องศา ฉันรู้ว่าอิสรภาพ 95,161 ดีกรีนั้นมาจากความแตกต่างระหว่างจำนวนการสังเกตในตัวอย่างของฉันกับจำนวนตัวแปรในแบบจำลองของฉัน ข้อผิดพลาดมาตรฐานที่เหลือคืออะไร

4
ผลรวมทั่วไปของตัวแปรสุ่มแกมมา
ฉันได้อ่านแล้วว่าผลรวมของตัวแปรสุ่มแกมมาที่มีพารามิเตอร์ระดับเดียวกันเป็นตัวแปรสุ่มแกมมาอีกตัว ฉันยังได้เห็นกระดาษโดยMoschopoulosอธิบายวิธีการรวมของชุดสุ่มของตัวแปรสุ่มแกมมา ฉันได้ลองใช้วิธีการของ Moschopoulosแต่ยังไม่ประสบความสำเร็จ การสรุปชุดตัวแปรสุ่มแบบทั่วไปของแกมมามีลักษณะอย่างไร ในการทำให้คำถามนี้เป็นรูปธรรมสิ่งที่ดูเหมือนจะเป็น: Gamma(3,1)+Gamma(4,2)+Gamma(5,1)Gamma(3,1)+Gamma(4,2)+Gamma(5,1)\text{Gamma}(3,1) + \text{Gamma}(4,2) + \text{Gamma}(5,1) หากพารามิเตอร์ด้านบนไม่แสดงเป็นพิเศษโปรดแนะนำผู้อื่น

5
จะเกิดอะไรขึ้นถ้าข้อมูลการถดถอยเชิงเส้นของฉันมีความสัมพันธ์เชิงเส้นแบบร่วมหลายตัว
สมมติว่าฉันกำลังศึกษาว่าดอกแดฟโฟดิลตอบสนองต่อสภาพดินต่าง ๆ อย่างไร ฉันได้รวบรวมข้อมูลเกี่ยวกับค่าความเป็นกรดของดินกับความสูงของดอกแดฟโฟดิล ฉันคาดว่าจะมีความสัมพันธ์เชิงเส้นดังนั้นฉันจะดำเนินการเกี่ยวกับการถดถอยเชิงเส้น อย่างไรก็ตามฉันไม่ได้ตระหนักถึงเมื่อฉันเริ่มการศึกษาของฉันว่าประชากรมีดอกแดฟโฟดิลสองพันธุ์ซึ่งแต่ละชนิดตอบสนองต่อค่า pH ของดินต่างกันมาก ดังนั้นกราฟจึงมีความสัมพันธ์เชิงเส้นที่แตกต่างกันสองแบบ: ฉันสามารถคัดแยกและแยกมันด้วยตนเองได้แน่นอน แต่ฉันสงสัยว่ามีวิธีการที่เข้มงวดกว่านี้หรือไม่ คำถาม: มีการทดสอบทางสถิติเพื่อพิจารณาว่าชุดข้อมูลจะเหมาะสมกว่าโดยใช้เพียงบรรทัดเดียวหรือ N บรรทัดหรือไม่? ฉันจะรันการถดถอยเชิงเส้นเพื่อให้พอดีกับเส้น N ได้อย่างไร กล่าวอีกนัยหนึ่งฉันจะคลี่คลายข้อมูลร่วมกันได้อย่างไร ฉันคิดว่าวิธีการผสมผสานบางอย่างอาจมีราคาแพง ชี้แจง: การมีอยู่ของสองสายพันธุ์นั้นไม่เป็นที่รู้จักในเวลาที่ทำการรวบรวมข้อมูล ไม่พบความหลากหลายของแดฟโฟดิลแต่ละชนิดไม่สังเกตและไม่บันทึก ไม่สามารถกู้คืนข้อมูลนี้ได้ แดฟโฟดิลเสียชีวิตตั้งแต่เวลารวบรวมข้อมูล ฉันมีความประทับใจว่าปัญหานี้เป็นสิ่งที่คล้ายกับการใช้อัลกอริทึมการจัดกลุ่มซึ่งคุณเกือบจะต้องรู้จำนวนกลุ่มก่อนที่จะเริ่ม ฉันเชื่อว่าด้วยชุดข้อมูลใด ๆ การเพิ่มจำนวนบรรทัดจะลดข้อผิดพลาด rms ทั้งหมด ในสุดขีดคุณสามารถแบ่งชุดข้อมูลของคุณเป็นคู่โดยพลการและวาดเส้นผ่านแต่ละคู่ (เช่นถ้าคุณมี 1,000 จุดข้อมูลคุณสามารถแบ่งพวกมันออกเป็น 500 คู่โดยพลการและวาดเส้นผ่านแต่ละคู่) ความพอดีจะแน่นอนและข้อผิดพลาด rms จะเป็นศูนย์อย่างแน่นอน แต่นั่นไม่ใช่สิ่งที่เราต้องการ เราต้องการจำนวนบรรทัด "ถูกต้อง"

4
เหตุใดการถดถอยของโลจิสติกจึงไม่เสถียรเมื่อมีการแยกคลาสอย่างชัดเจน
ทำไมการถดถอยโลจิสติกจึงไม่เสถียรเมื่อชั้นเรียนถูกแยกออกจากกัน คลาสที่แยกกันอย่างดีหมายถึงอะไร ฉันจะขอบคุณจริง ๆ ถ้ามีคนอธิบายตัวอย่างได้

3
คะแนน Akaike Information Criterion (AIC) ของแบบจำลองหมายถึงอะไร
ฉันได้เห็นคำถามบางอย่างที่นี่เกี่ยวกับความหมายในแง่คนธรรมดา แต่สิ่งเหล่านี้มันธรรมดาเกินไปสำหรับวัตถุประสงค์ของฉันที่นี่ ฉันกำลังพยายามที่จะเข้าใจทางคณิตศาสตร์ว่าคะแนน AIC หมายถึงอะไร แต่ในเวลาเดียวกันฉันไม่ต้องการหลักฐานที่เข้มงวดซึ่งจะทำให้ฉันไม่เห็นประเด็นที่สำคัญกว่านี้ ตัวอย่างเช่นถ้านี่คือแคลคูลัสฉันจะมีความสุขกับ infinitesimals และถ้านี่เป็นทฤษฎีความน่าจะเป็น ความพยายามของฉัน โดยอ่านที่นี่และสัญกรณ์น้ำตาลของฉันเองเป็นเกณฑ์ AIC ของรุ่นบนชุดข้อมูลดังนี้: ที่เป็นจำนวนพารามิเตอร์ของแบบจำลองและเป็นค่าฟังก์ชั่นความน่าจะเป็นสูงสุดของรุ่นบนชุดDAICm,DAICm,D\text{AIC}_{m,D}mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD นี่คือความเข้าใจของฉันในสิ่งที่ข้างต้นหมายถึง: m=arg maxθPr(D|θ)m=arg maxθPr(D|θ) m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta) ทางนี้: kmkmk_mเป็นจำนวนพารามิเตอร์ของม.mmm Lm,D=Pr(D|m)=L(m|D)Lm,D=Pr(D|m)=L(m|D)L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)D) ตอนนี้ลองเขียน AIC: AICm,D===2km−2ln(Lm,D)2km−2ln(Pr(D|m))2km−2loge(Pr(D|m))AICm,D=2km−2ln⁡(Lm,D)=2km−2ln⁡(Pr(D|m))=2km−2loge⁡(Pr(D|m))\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2k_m - 2 …

3
R - สับสนในคำศัพท์ที่เหลือ
รูทหมายความว่าข้อผิดพลาดกำลังสอง ผลรวมที่เหลือของกำลังสอง ข้อผิดพลาดมาตรฐานที่เหลือ หมายถึงข้อผิดพลาดกำลังสอง ข้อผิดพลาดในการทดสอบ ฉันคิดว่าฉันเคยเข้าใจเงื่อนไขเหล่านี้ แต่ยิ่งฉันมีปัญหาทางสถิติมากเท่าไหร่ฉันก็ยิ่งสับสนมากขึ้น ฉันต้องการความมั่นใจอีกครั้ง & เป็นตัวอย่างที่ชัดเจน ฉันสามารถหาสมการได้อย่างง่ายดายพอออนไลน์ แต่ฉันมีปัญหาในการอธิบาย 'อธิบายเหมือนฉัน 5' ของคำศัพท์เหล่านี้เพื่อให้ฉันสามารถตกผลึกในหัวของฉันความแตกต่างและวิธีหนึ่งนำไปสู่อีก หากใครสามารถใช้รหัสนี้ด้านล่างและชี้ให้เห็นว่าฉันจะคำนวณเงื่อนไขเหล่านี้ได้อย่างไรฉันจะขอบคุณมัน รหัส R จะดีมาก .. ใช้ตัวอย่างนี้ด้านล่าง: summary(lm(mpg~hp, data=mtcars)) แสดงให้ฉันในรหัส R วิธีการค้นหา: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ คะแนนโบนัสสำหรับการอธิบายเช่นฉัน …

11
ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยกับส่วนเบี่ยงเบนมาตรฐาน
ในหนังสือข้อความ"คณิตศาสตร์ที่ครอบคลุมแบบใหม่สำหรับระดับ O"โดยเกรียร์ (1983) ฉันเห็นการเบี่ยงเบนเฉลี่ยที่คำนวณดังนี้: สรุปความแตกต่างที่แน่นอนระหว่างค่าเดียวกับค่าเฉลี่ย จากนั้นรับค่าเฉลี่ย ตลอดบทที่ระยะเบี่ยงเบนเฉลี่ยจะใช้ แต่ฉันเพิ่งเห็นการอ้างอิงหลายอย่างที่ใช้ค่าเบี่ยงเบนมาตรฐานของคำศัพท์และนี่คือสิ่งที่พวกเขาทำ: คำนวณกำลังสองของความแตกต่างระหว่างค่าเดียวกับค่าเฉลี่ย จากนั้นรับค่าเฉลี่ยและในที่สุดก็เป็นรากของคำตอบ ฉันลองทั้งสองวิธีในชุดข้อมูลทั่วไปและคำตอบต่างกัน ฉันไม่ใช่นักสถิติ ฉันสับสนในขณะที่พยายามสอนการเบี่ยงเบนให้กับลูก ๆ ของฉัน ดังนั้นในระยะสั้นค่าเบี่ยงเบนมาตรฐานของคำศัพท์และค่าเบี่ยงเบนเฉลี่ยเท่ากันหรือเป็นตำราตำราเก่าของฉันหรือไม่

2
รูปแบบเอฟเฟกต์ผสมกับการทำรัง
ฉันมีข้อมูลที่รวบรวมจากการทดสอบที่จัดระเบียบดังนี้: สองไซต์แต่ละแห่งมีต้นไม้ 30 ต้น ได้รับการปฏิบัติ 15, 15 คือการควบคุมในแต่ละเว็บไซต์ จากต้นไม้แต่ละต้นเราสุ่มตัวอย่างก้านสามชิ้นและรากสามชิ้นดังนั้น 6 ระดับ 1 ตัวอย่างต่อต้นซึ่งแสดงโดยหนึ่งในสองระดับปัจจัย (รากลำต้น) จากนั้นตัวอย่างต้นกำเนิด / รากเราใช้สองตัวอย่างโดยการผ่าเนื้อเยื่อต่าง ๆ ภายในตัวอย่างซึ่งแสดงโดยหนึ่งในสองระดับปัจจัยสำหรับประเภทเนื้อเยื่อ (ประเภทเนื้อเยื่อ A, ประเภทเนื้อเยื่อ B) ตัวอย่างเหล่านี้วัดเป็นตัวแปรต่อเนื่อง จำนวนการสังเกตทั้งหมดคือ 720; 2 ไซต์ * ต้นไม้ 30 ต้น * (ตัวอย่างลำต้นสามชิ้น + ตัวอย่างรากสามต้น) * (เนื้อเยื่อหนึ่งตัวอย่าง + เนื้อเยื่อหนึ่งตัวอย่าง B) ข้อมูลมีลักษณะเช่นนี้ ... ï..Site Tree Treatment Organ Sample Tissue Total_Length …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.