สถิติและข้อมูลขนาดใหญ่ dataset

14

ชุดข้อมูลขนาดใหญ่ไม่เหมาะสมสำหรับการทดสอบสมมติฐานหรือไม่?

ในบทความล่าสุดของAmstat Newsผู้เขียน (Mark van der Laan และ Sherri Rose) ระบุว่า "เรารู้ว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่เพียงพอทุกการศึกษารวมถึงที่สมมติฐานว่างเปล่าไม่มีผลจริง - จะประกาศ ผลกระทบอย่างมีนัยสำคัญทางสถิติ ". ฉันก็ไม่รู้เหมือนกัน มันเป็นเรื่องจริงเหรอ? หมายความว่าการทดสอบสมมติฐานไม่มีประโยชน์สำหรับชุดข้อมูลขนาดใหญ่หรือไม่?

129 hypothesis-testing sample-size dataset large-data

25

ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ

ฉันกำลังทำงานกับวิธีการใหม่สำหรับการวิเคราะห์และการแยกชุดข้อมูลเพื่อระบุและแยกกลุ่มย่อยของประชากรโดยไม่ทราบล่วงหน้าถึงลักษณะของกลุ่มย่อยใด ๆ ในขณะที่วิธีการทำงานได้ดีพอกับตัวอย่างข้อมูลเทียม (เช่นชุดข้อมูลที่สร้างขึ้นโดยเฉพาะเพื่อจุดประสงค์ในการระบุและแยกกลุ่มย่อยของประชากร) ฉันต้องการลองทดสอบด้วยข้อมูลจริง สิ่งที่ฉันกำลังมองหาคือแหล่งข้อมูลที่พร้อมใช้งานได้ฟรี (เช่นไม่เป็นความลับไม่ใช่กรรมสิทธิ์) หนึ่งที่มีการแจกแจง bimodal หรือ multimodal หรือชัดเจนประกอบด้วยหลายส่วนย่อยที่ไม่สามารถดึงออกจากกันได้อย่างง่ายดายผ่านวิธีการแบบดั้งเดิม ฉันจะไปหาข้อมูลดังกล่าวที่ไหน?

98 dataset sample population teaching

6

การทดสอบการตรวจสอบข้อมูลที่สำคัญ

ในบทบาทงานของฉันฉันมักจะทำงานกับชุดข้อมูลของคนอื่นไม่ใช่ผู้เชี่ยวชาญนำข้อมูลทางคลินิกมาให้ฉันและฉันช่วยให้พวกเขาสรุปและดำเนินการทดสอบทางสถิติ ปัญหาที่ฉันมีอยู่คือชุดข้อมูลที่ฉันนำมานั้นมักจะเต็มไปด้วยความผิดพลาดความไม่สอดคล้องกันและปัญหาอื่น ๆ อีกมากมาย ฉันสนใจที่จะรู้ว่าคนอื่นมีการทดสอบมาตรฐานที่พวกเขาทำเพื่อพยายามตรวจสอบชุดข้อมูลใด ๆ ที่เข้ามา ฉันเคยวาดฮิสโทแกรมของตัวแปรแต่ละตัวเพื่อดู แต่ตอนนี้ฉันรู้แล้วว่ามีข้อผิดพลาดที่น่ากลัวมากมายที่สามารถอยู่รอดได้จากการทดสอบนี้ ตัวอย่างเช่นฉันมีชุดข้อมูลที่ทำซ้ำในวันอื่น ๆ ซึ่งสำหรับบางคนการวัดซ้ำนั้นเหมือนกันที่เวลา 2 เหมือนเดิมที่เวลา 1 นี่เป็นการพิสูจน์ว่าไม่ถูกต้องตามที่คุณคาดหวัง ชุดข้อมูลอีกชุดหนึ่งมีบุคคลที่เปลี่ยนจากการมีความไม่เป็นระเบียบอย่างรุนแรง (แสดงด้วยคะแนนสูง) เป็นไร้ปัญหาโดยมี 0 ชุดทั่วกระดาน นี่เป็นไปไม่ได้แม้ว่าฉันจะไม่สามารถพิสูจน์ได้อย่างแน่นอน ดังนั้นการทดสอบขั้นพื้นฐานใดที่ฉันสามารถใช้กับชุดข้อมูลแต่ละชุดเพื่อให้แน่ใจว่าไม่มีชุดตัวพิมพ์ผิดและไม่มีค่าที่เป็นไปไม่ได้ ขอบคุณล่วงหน้า!

93 dataset outliers checking

8

วิธีจำลองข้อมูลที่เป็นไปตามข้อ จำกัด เฉพาะเช่นมีค่าเฉลี่ยเฉพาะและค่าเบี่ยงเบนมาตรฐาน

คำถามนี้กระตุ้นโดยคำถามของฉันในการวิเคราะห์อภิมาน แต่ฉันคิดว่ามันจะมีประโยชน์ในการสอนบริบทที่คุณต้องการสร้างชุดข้อมูลที่สะท้อนชุดข้อมูลที่มีอยู่เดิม ฉันรู้วิธีสร้างข้อมูลแบบสุ่มจากการแจกแจงที่กำหนด ตัวอย่างเช่นถ้าฉันอ่านเกี่ยวกับผลลัพธ์ของการศึกษาที่มี: ค่าเฉลี่ย 102 ค่าเบี่ยงเบนมาตรฐานเท่ากับ 5.2 และ ขนาดตัวอย่าง 72 ฉันสามารถสร้างข้อมูลที่คล้ายกันโดยใช้rnormใน R ตัวอย่างเช่น set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) แน่นอนค่าเฉลี่ยและ SD จะไม่เท่ากับ 102 และ 5.2 ตามลำดับ: round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 โดยทั่วไปฉันสนใจที่จะจำลองข้อมูลที่เป็นไปตามข้อ จำกัด ในกรณีข้างต้นค่าคงที่คือขนาดตัวอย่างค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ในกรณีอื่น ๆ อาจมีข้อ จำกัด เพิ่มเติม ตัวอย่างเช่น, ขั้นต่ำและสูงสุดในข้อมูลหรือตัวแปรพื้นฐานอาจเป็นที่รู้จัก ตัวแปรอาจทราบว่าใช้กับค่าจำนวนเต็มเท่านั้นหรือเฉพาะค่าที่ไม่เป็นลบ …

56 r dataset simulation random-generation

3

APIs / ฟีดข้อมูลพร้อมใช้งานเป็นแพ็คเกจใน R

แก้ไข: มุมมองงานเว็บเทคโนโลยีและบริการ CRAN มีรายการที่ครอบคลุมมากขึ้นของแหล่งข้อมูลและ APIs ที่มีอยู่ในอาร์คุณสามารถส่งคำขอดึงบน GitHubถ้าคุณต้องการที่จะเพิ่มแพคเกจไปที่มุมมองงาน ฉันกำลังสร้างรายการฟีดข้อมูลต่าง ๆ ที่ติดเข้ากับ R แล้วหรือติดตั้งง่าย นี่คือรายการแพ็คเกจเริ่มต้นของฉันและฉันก็สงสัยว่ามีอะไรอีกที่ขาดหายไป ฉันพยายาม จำกัด รายการนี้เป็น "เรียลไทม์" หรือ "ใกล้เคียงกับเรียลไทม์" ฟีดข้อมูล / API ที่ข้อมูลพื้นฐานอาจมีการเปลี่ยนแปลงระหว่างการดาวน์โหลด มีรายการมากมายสำหรับชุดข้อมูลแบบสแตติกซึ่งต้องการการดาวน์โหลดเพียงครั้งเดียว ขณะนี้รายการนี้มีอคติต่อข้อมูลชุดข้อมูลทางการเงิน / เวลาและฉันสามารถใช้ความช่วยเหลือบางอย่างเพื่อขยายเข้าไปในโดเมนอื่น ข้อมูลฟรี: แหล่งข้อมูล - แพ็คเกจ ข้อมูลย้อนหลัง ของ Google Finance - quantmod งบดุลของ Google Finance - Quantmod Yahoo Historical Finance - Quantmod Yahoo Historical Finance …

53 r references dataset

3

การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง

ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

9

ชุดข้อมูลจิ๋ว (ของจริง) สำหรับยกตัวอย่างในชั้นเรียน

เมื่อสอนชั้นเรียนระดับเบื้องต้นครูที่ฉันรู้จักมักจะประดิษฐ์ตัวเลขและเรื่องราวเพื่อเป็นตัวอย่างวิธีการสอนของพวกเขา สิ่งที่ฉันต้องการคือการบอกเรื่องจริงกับตัวเลขจริง อย่างไรก็ตามเรื่องราวเหล่านี้จำเป็นต้องเกี่ยวข้องกับชุดข้อมูลขนาดเล็กมากซึ่งช่วยให้การคำนวณด้วยตนเอง ข้อเสนอแนะสำหรับชุดข้อมูลดังกล่าวจะได้รับการต้อนรับมาก ตัวอย่างหัวข้อบางหัวข้อสำหรับชุดข้อมูลขนาดเล็ก: สหสัมพันธ์ / การถดถอย (พื้นฐาน) ANOVA (1/2 วิธี) การทดสอบ z / t - หนึ่ง / สองตัวอย่าง un / จับคู่ การเปรียบเทียบสัดส่วน - ตารางสองทาง / หลายทาง

43 dataset references teaching

8

ฉันจะให้ผู้คนดูแลข้อมูลได้ดีขึ้นได้อย่างไร

สถานที่ทำงานของฉันมีพนักงานจากหลากหลายสาขาดังนั้นเราจึงสร้างข้อมูลในรูปแบบที่แตกต่างกันมากมาย ดังนั้นแต่ละทีมจึงได้พัฒนาระบบของตัวเองเพื่อเก็บข้อมูล บางคนใช้ฐานข้อมูล Access หรือ SQL บางทีม (กับความสยองขวัญของฉัน) พึ่งพาสเปรดชีต Excel เกือบทั้งหมด บ่อยครั้งที่รูปแบบข้อมูลเปลี่ยนจากโครงการเป็นโครงการ ในบางกรณีเรียกมันว่า 'ระบบ' ใจดีเกินไป ปัญหาที่เกิดขึ้นคือฉันต้องเขียนโค้ดใหม่เพื่อล้างข้อมูลสำหรับทุกโครงการซึ่งมีราคาแพง ผู้คนทำการแก้ไขสเปรดชีตด้วยตนเองทำให้สามารถทำซ้ำได้และตรวจสอบข้อมูลไม่ได้ และยิ่งแย่ลงไปกว่านั้นมีโอกาสที่ข้อมูลจะสูญหายหรือทำให้ข้อมูลไม่ถูกต้อง ฉันได้รับโอกาสในการหารือเกี่ยวกับปัญหาเหล่านี้กับสมาชิกคณะกรรมการของ บริษัท และฉันต้องอธิบายสิ่งที่จะบอกเขา ฉันคิดว่าฉันได้ชักชวนเขาว่าเรามีปัญหาและการได้รับสิทธินี้จะช่วยให้วิทยาศาสตร์ดีขึ้นและประหยัดเงินได้ คำถามคือเราควรจะตั้งเป้าหมายอะไรและเราจะไปที่นั่นได้อย่างไร โดยเฉพาะอย่างยิ่ง: เราควรเก็บข้อมูลอย่างไรในแบบที่ทำให้เราสามารถติดตามได้ตั้งแต่การสร้างไปจนถึงการเผยแพร่ในกระดาษ (ฐานข้อมูลเก็บไว้ในเซิร์ฟเวอร์กลางหรือไม่?) คุณจะทำอย่างไรเกี่ยวกับรูปแบบฐานข้อมูลมาตรฐาน? มีแหล่งข้อมูลที่ดีสำหรับการให้การศึกษาแก่ผู้คนเกี่ยวกับวิธีการดูแลข้อมูลหรือไม่ (ตามกฎทั่วไปนักสุขอนามัยและวิศวกรวัตถุระเบิดไม่ใช่ผู้เชี่ยวชาญด้านข้อมูลดังนั้นควรเลือกเนื้อหาที่ไม่ใช่ด้านเทคนิค)

42 dataset reproducible-research quality-control

2

วิธีการสรุปที่ถูกต้องจาก "ข้อมูลขนาดใหญ่"?

"ข้อมูลขนาดใหญ่" มีอยู่ทุกหนทุกแห่งในสื่อ ทุกคนบอกว่า "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ยิ่งใหญ่สำหรับปี 2012 เช่นKDNuggets การสำรวจความคิดเห็นในหัวข้อที่ร้อนสำหรับปี 2012 อย่างไรก็ตามฉันมีความกังวลอย่างลึกซึ้งที่นี่ ด้วยข้อมูลขนาดใหญ่ทุกคนดูเหมือนจะมีความสุขที่จะได้รับอะไรเลย แต่เราไม่ได้ละเมิดหลักการทางสถิติแบบคลาสสิกทั้งหมดเช่นการทดสอบสมมติฐานและการสุ่มตัวอย่างตัวแทน? ตราบใดที่เราคาดการณ์เฉพาะชุดข้อมูลเดียวกันสิ่งนี้ควรจะดี ดังนั้นถ้าฉันใช้ข้อมูล Twitter เพื่อทำนายพฤติกรรมของผู้ใช้ Twitter นั่นอาจไม่เป็นไร อย่างไรก็ตามการใช้ข้อมูล Twitter เพื่อคาดการณ์เช่นการเลือกตั้งละเลยความจริงที่ว่าผู้ใช้ Twitter ไม่ใช่ตัวอย่างตัวอย่างสำหรับประชากรทั้งหมด นอกจากนี้วิธีการส่วนใหญ่จะไม่สามารถแยกความแตกต่างระหว่างอารมณ์ "รากหญ้า" ที่แท้จริงและการรณรงค์ และทวิตเตอร์เต็มไปด้วยแคมเปญ ดังนั้นเมื่อวิเคราะห์ Twitter คุณจะจบลงอย่างรวดเร็วเพียงวัดการรณรงค์และบอท (ดูตัวอย่าง"Yahoo คาดการณ์ผู้ชนะทางการเมืองของอเมริกา"ซึ่งเต็มไปด้วยการสำรวจความคิดเห็นทุบตีและ "การวิเคราะห์ความเชื่อมั่นดีกว่ามาก" พวกเขาทำนายว่า "รอมนีย์มีโอกาสชนะการเสนอชื่อมากกว่า 90% และชนะเซาท์แคโรไลนาหลัก" (เขามี 28% ในขณะที่ Gingrich มี 40% ในปฐมภูมินี้) คุณรู้หรือไม่ว่าข้อมูลขนาดใหญ่อื่น ๆล้มเหลว ? ฉันจำได้คร่าวๆว่านักวิทยาศาสตร์คนหนึ่งทำนายว่าคุณไม่สามารถรักษามิตรภาพมากกว่า 150 คนได้ …

40 data-mining dataset large-data validation

2

จะทำให้ข้อมูลเป็นมาตรฐานระหว่าง -1 ถึง 1 ได้อย่างไร

ฉันเคยเห็นสูตรการปรับสภาพ min-max แล้ว แต่นั่นทำให้ค่าปกติอยู่ระหว่าง 0 ถึง 1 ฉันจะทำให้ข้อมูลของฉันเป็นมาตรฐานระหว่าง -1 ถึง 1 ได้อย่างไร ฉันมีทั้งค่าลบและค่าบวกในเมทริกซ์ข้อมูลของฉัน

36 dataset normalization

5

ชุดข้อมูลฟรีสำหรับการจำแนกมิติที่สูงมาก [ปิด]

อะไรคือข้อมูลที่มีอยู่ได้อย่างอิสระที่กำหนดไว้สำหรับการจัดหมวดหมู่ที่มีมากกว่า 1000 คุณสมบัติ (หรือจุดตัวอย่างถ้ามีเส้นโค้ง)? มีวิกิชุมชนเกี่ยวกับชุดข้อมูลฟรีอยู่แล้ว: การ ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ แต่ที่นี่จะเป็นการดีหากมีรายการที่เน้นที่สามารถใช้งานได้สะดวกยิ่งขึ้นนอกจากนี้ฉันขอเสนอกฎต่อไปนี้: หนึ่งโพสต์ต่อชุดข้อมูล ไม่มีลิงก์ไปยังชุดของชุดข้อมูล แต่ละชุดข้อมูลจะต้องเชื่อมโยงกับ ชื่อ (จะคิดออกว่ามันเป็นเรื่องเกี่ยว) และเชื่อมโยงไปยังชุดที่ (R ชุดข้อมูลสามารถตั้งชื่อที่มีชื่อแพคเกจ) จำนวนฟีเจอร์ (สมมติว่ามันคือp ) ขนาดของชุดข้อมูล (สมมุติว่ามันคือn ) และจำนวนเลเบล / คลาส (สมมติว่ามันคือk ) อัตราความผิดพลาดทั่วไปจากประสบการณ์ของคุณ (ระบุอัลกอริธึมที่ใช้เป็นคำ) หรือจากครอก (ในกรณีนี้ลิงก์กระดาษ)

35 machine-learning classification dataset large-data

5

จะเกิดอะไรขึ้นถ้าข้อมูลการถดถอยเชิงเส้นของฉันมีความสัมพันธ์เชิงเส้นแบบร่วมหลายตัว

สมมติว่าฉันกำลังศึกษาว่าดอกแดฟโฟดิลตอบสนองต่อสภาพดินต่าง ๆ อย่างไร ฉันได้รวบรวมข้อมูลเกี่ยวกับค่าความเป็นกรดของดินกับความสูงของดอกแดฟโฟดิล ฉันคาดว่าจะมีความสัมพันธ์เชิงเส้นดังนั้นฉันจะดำเนินการเกี่ยวกับการถดถอยเชิงเส้น อย่างไรก็ตามฉันไม่ได้ตระหนักถึงเมื่อฉันเริ่มการศึกษาของฉันว่าประชากรมีดอกแดฟโฟดิลสองพันธุ์ซึ่งแต่ละชนิดตอบสนองต่อค่า pH ของดินต่างกันมาก ดังนั้นกราฟจึงมีความสัมพันธ์เชิงเส้นที่แตกต่างกันสองแบบ: ฉันสามารถคัดแยกและแยกมันด้วยตนเองได้แน่นอน แต่ฉันสงสัยว่ามีวิธีการที่เข้มงวดกว่านี้หรือไม่ คำถาม: มีการทดสอบทางสถิติเพื่อพิจารณาว่าชุดข้อมูลจะเหมาะสมกว่าโดยใช้เพียงบรรทัดเดียวหรือ N บรรทัดหรือไม่? ฉันจะรันการถดถอยเชิงเส้นเพื่อให้พอดีกับเส้น N ได้อย่างไร กล่าวอีกนัยหนึ่งฉันจะคลี่คลายข้อมูลร่วมกันได้อย่างไร ฉันคิดว่าวิธีการผสมผสานบางอย่างอาจมีราคาแพง ชี้แจง: การมีอยู่ของสองสายพันธุ์นั้นไม่เป็นที่รู้จักในเวลาที่ทำการรวบรวมข้อมูล ไม่พบความหลากหลายของแดฟโฟดิลแต่ละชนิดไม่สังเกตและไม่บันทึก ไม่สามารถกู้คืนข้อมูลนี้ได้ แดฟโฟดิลเสียชีวิตตั้งแต่เวลารวบรวมข้อมูล ฉันมีความประทับใจว่าปัญหานี้เป็นสิ่งที่คล้ายกับการใช้อัลกอริทึมการจัดกลุ่มซึ่งคุณเกือบจะต้องรู้จำนวนกลุ่มก่อนที่จะเริ่ม ฉันเชื่อว่าด้วยชุดข้อมูลใด ๆ การเพิ่มจำนวนบรรทัดจะลดข้อผิดพลาด rms ทั้งหมด ในสุดขีดคุณสามารถแบ่งชุดข้อมูลของคุณเป็นคู่โดยพลการและวาดเส้นผ่านแต่ละคู่ (เช่นถ้าคุณมี 1,000 จุดข้อมูลคุณสามารถแบ่งพวกมันออกเป็น 500 คู่โดยพลการและวาดเส้นผ่านแต่ละคู่) ความพอดีจะแน่นอนและข้อผิดพลาด rms จะเป็นศูนย์อย่างแน่นอน แต่นั่นไม่ใช่สิ่งที่เราต้องการ เราต้องการจำนวนบรรทัด "ถูกต้อง"

34 regression linear-model dataset

3

ชุดข้อมูลที่สร้างขึ้นเพื่อวัตถุประสงค์คล้ายกับชุดของ Anscombe

ฉันเพิ่งเจอชุดสี่ของ Anscombe (สี่ชุดข้อมูลที่มีสถิติเชิงพรรณนาเกือบจะแยกไม่ออก แต่ดูแตกต่างกันมากเมื่อถูกวางแผน) และฉันอยากรู้ว่ามีชุดข้อมูลที่รู้จักกันดีอื่น ๆ อีกมากหรือน้อยที่สร้างขึ้นเพื่อแสดงให้เห็นถึง ของการวิเคราะห์ทางสถิติ

32 regression data-visualization dataset

2

กำลังทำการทดสอบทางสถิติหลังจากแสดงข้อมูลเป็นภาพ - การขุดลอกข้อมูลหรือไม่

ฉันจะเสนอคำถามนี้โดยใช้ตัวอย่าง สมมติว่าฉันมีชุดข้อมูลเช่นชุดข้อมูลราคาบ้านบอสตันซึ่งฉันมีตัวแปรแบบต่อเนื่องและหมวดหมู่ ที่นี่เรามีตัวแปร "คุณภาพ" ตั้งแต่ 1 ถึง 10 และราคาขาย ฉันสามารถแยกข้อมูลออกเป็นบ้านคุณภาพ "ต่ำ", "ปานกลาง" และ "สูง" โดย (โดยพลการ) สร้างการตัดเพื่อคุณภาพ จากนั้นใช้การจัดกลุ่มเหล่านี้ฉันสามารถพล็อตฮิสโตแกรมของราคาขายต่อกันได้ ชอบมาก ที่นี่ "ต่ำ" คือและ "สูง" คือในคะแนน "คุณภาพ" ตอนนี้เรามีการกระจายของราคาขายสำหรับแต่ละกลุ่ม เป็นที่ชัดเจนว่ามีความแตกต่างในศูนย์กลางของที่ตั้งสำหรับบ้านขนาดกลางและคุณภาพสูง ตอนนี้เมื่อทำสิ่งนี้ทั้งหมดเสร็จฉันคิดว่า "หืมดูเหมือนว่าจะมีความแตกต่างในจุดศูนย์กลางของที่ตั้ง! จากนั้นฉันได้รับค่า p ที่ดูเหมือนว่าจะปฏิเสธสมมติฐานว่างที่ถูกต้องว่าไม่มีความแตกต่างในค่าเฉลี่ย≤ 3≤3\leq 3> 7>7>7 ทีนี้สมมติว่าฉันไม่มีอะไรในใจที่จะทดสอบสมมติฐานนี้จนกว่าฉันจะพล็อตข้อมูล ข้อมูลนี้ขุดลอกหรือไม่ มันยังคงเป็นข้อมูลที่ขุดขึ้นมาหรือไม่ถ้าฉันคิดว่า: "หืมฉันว่าบ้านคุณภาพสูงราคาแพงกว่าเพราะฉันเป็นมนุษย์ที่เคยอาศัยอยู่ในบ้านก่อนหน้านี้ฉันจะลงจุดข้อมูลอาฮ่า! เพื่อทดสอบ t! " ตามธรรมชาติแล้วมันไม่ใช่การขุดลอกข้อมูลถ้าชุดข้อมูลถูกเก็บรวบรวมด้วยความตั้งใจที่จะทดสอบสมมติฐานนี้จากการเดินทาง แต่บ่อยครั้งที่เราต้องทำงานกับชุดข้อมูลที่เรามอบให้และบอกให้ "มองหารูปแบบ" บางคนหลีกเลี่ยงการขุดข้อมูลด้วยงานที่คลุมเครือในใจ สร้างชุดค้างไว้สำหรับการทดสอบข้อมูลหรือไม่ การสร้างภาพข้อมูล "นับ" เป็นการสอดแนมโอกาสที่จะทดสอบสมมติฐานที่เสนอโดยข้อมูลหรือไม่

31 hypothesis-testing data-visualization p-value dataset inference

3

การแสดงจุดแยกของหลาย ๆ ชุด

มีรูปแบบการสร้างภาพข้อมูลที่ดีสำหรับการแสดงจุดตัดทับซ้อนของหลาย ๆ ชุดหรือไม่? ฉันกำลังคิดอะไรบางอย่างเช่นเวนไดอะแกรม แต่อย่างใดอาจทำให้ตัวเองดีขึ้นสำหรับชุดจำนวนมากเช่น 10 หรือมากกว่า Wikipedia แสดงชุด Venn diagrams ที่สูงขึ้น แต่แม้กระทั่งแผนภาพ 4 ชุดนั้นมีความจำเป็นอย่างมาก ฉันเดาว่าผลลัพธ์สุดท้ายของข้อมูลคือชุดจำนวนมากจะไม่ทับซ้อนกันดังนั้นจึงเป็นไปได้ที่ไดอะแกรมของ Venn จะใช้ได้ แต่ฉันต้องการหาเครื่องมือคอมพิวเตอร์ที่สามารถสร้างสิ่งนั้นได้ ดูเหมือนว่าฉันจะเหมือนกับชาร์ตของ Google ไม่อนุญาตให้มีหลายชุด

30 data-visualization dataset

คำถามติดแท็ก dataset