ความแตกต่างระหว่างข้อมูลที่ไม่ต่อเนื่องและข้อมูลต่อเนื่องคืออะไร?
ความแตกต่างระหว่างข้อมูลที่ไม่ต่อเนื่องและข้อมูลต่อเนื่องคืออะไร?
คำตอบ:
ข้อมูลที่ไม่ต่อเนื่องสามารถใช้ค่าเฉพาะได้ อาจมีค่าเหล่านั้นเป็นจำนวนอนันต์ แต่แต่ละค่านั้นแตกต่างกันและไม่มีพื้นที่สีเทาอยู่ระหว่างนั้น ข้อมูลที่ไม่ต่อเนื่องอาจเป็นตัวเลขเช่นจำนวนแอปเปิ้ล แต่ก็สามารถจัดหมวดหมู่ได้เช่นสีแดงหรือสีน้ำเงินหรือชายหรือหญิงหรือดีหรือไม่ดี
ข้อมูลต่อเนื่องไม่ได้ จำกัด อยู่ที่ค่าที่แยกต่างหาก แต่สามารถครอบครองค่าใด ๆ ในช่วงต่อเนื่อง ระหว่างค่าข้อมูลต่อเนื่องสองค่าใด ๆ อาจมีจำนวนไม่สิ้นสุดของค่าอื่น ๆ ข้อมูลต่อเนื่องมักเป็นตัวเลข
บางครั้งมันก็สมเหตุสมผลที่จะปฏิบัติกับข้อมูลตัวเลขที่มีประเภทเดียวกับประเภทอื่น ตัวอย่างเช่นอะไรบางอย่างเช่นความสูงต่อเนื่อง แต่บ่อยครั้งเราไม่สนใจมากเกินไปเกี่ยวกับความแตกต่างเล็ก ๆ น้อย ๆ และแทนที่จะจัดกลุ่มความสูงเป็นถังขยะจำนวนมาก ในทางกลับกันหากเรานับจำนวนเอนทิตี้ที่แยกกันจำนวนหนึ่ง - ข้าวหรือปลวกหรือเพนนีในระบบเศรษฐกิจ - เราอาจเลือกที่จะไม่คิดว่า 2,000,006 และ 2,000,008 เป็นค่าที่แตกต่างอย่างมาก ประมาณต่อเนื่อง
บางครั้งมันยังมีประโยชน์ในการรักษาข้อมูลตัวเลขเป็นหมวดหมู่เช่น: น้ำหนักน้อย, ปกติ, เป็นโรคอ้วน โดยปกติแล้วจะเป็นเพียงการทำอาหารอีกประเภทหนึ่ง
มันไม่ค่อยสมเหตุสมผลที่จะพิจารณาข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง
ข้อมูลไม่ต่อเนื่องเสมอ ได้รับตัวอย่างของค่าในตัวแปรจำนวนสูงสุดของค่าที่แตกต่างกันตัวแปรสามารถใช้เท่ากับn
n
ดูคำพูดนี้
พื้นที่ตัวอย่างที่แท้จริงทั้งหมดไม่ต่อเนื่องและตัวแปรสุ่มที่สังเกตได้ทั้งหมดจะมีการแจกแจงแบบไม่ต่อเนื่อง การกระจายอย่างต่อเนื่องคือการสร้างทางคณิตศาสตร์ที่เหมาะสำหรับการรักษาทางคณิตศาสตร์ แต่ไม่สามารถสังเกตได้จริง EJG Pitman (1979, p. 1)
โดยทั่วไปข้อมูลบนตัวแปรจะถือว่ามาจากตัวแปรสุ่ม ตัวแปรสุ่มจะดำเนินการอย่างต่อเนื่องในช่วงถ้ามีจำนวนค่าที่เป็นไปได้ที่ไม่สิ้นสุดที่ตัวแปรสามารถใช้ระหว่างจุดสองจุดที่แตกต่างกันในช่วง ตัวอย่างเช่นความสูงน้ำหนักและเวลาโดยทั่วไปจะถือว่าต่อเนื่อง แน่นอนว่าการวัดตัวแปรเหล่านี้จะมีความถูกต้องแม่นยำและในบางแง่มุม
มันจะมีประโยชน์ในการแยกแยะความแตกต่างระหว่างคำสั่ง (เช่นลำดับ), unordered (เช่นชื่อ)
และตัวแปรที่ไม่ต่อเนื่องแบบไบนารี
หนังสือแนะนำบางเล่มทำให้เกิดความสับสนกับตัวแปรต่อเนื่องกับตัวแปรที่เป็นตัวเลข ตัวอย่างเช่นคะแนนในเกมคอมพิวเตอร์นั้นไม่ต่อเนื่องแม้ว่าจะเป็นตัวเลข
ตำราเบื้องต้นบางเล่มสร้างความสับสนให้กับตัวแปรอัตราส่วนกับตัวแปรต่อเนื่อง ตัวแปรนับเป็นตัวแปรอัตราส่วน แต่ไม่ต่อเนื่อง
ในการปฏิบัติจริงตัวแปรมักได้รับการปฏิบัติอย่างต่อเนื่องเมื่อสามารถรับค่าต่าง ๆ จำนวนมากพอสมควร
อุณหภูมิมีความต่อเนื่อง สามารถเป็น 23 องศา, 23.1 องศา, 23.100004 องศา
เพศไม่ต่อเนื่อง คุณสามารถเป็นได้ทั้งชายหรือหญิงเท่านั้น สิ่งที่คุณสามารถแทนด้วยจำนวนเต็มเช่น 1, 2, ฯลฯ
ความแตกต่างมีความสำคัญเนื่องจากอัลกอริทึมการทำเหมืองทางสถิติและข้อมูลจำนวนมากสามารถจัดการประเภทหนึ่งได้ แต่ไม่ใช่ประเภทอื่น ตัวอย่างเช่นในการถดถอยปกติ Y จะต้องต่อเนื่อง ในการถดถอยโลจิสติก Y จะไม่ต่อเนื่อง
ข้อมูลที่ไม่ต่อเนื่องสามารถใช้ค่าบางอย่างเท่านั้น
ตัวอย่าง: จำนวนนักเรียนในชั้นเรียน (คุณไม่มีนักเรียนครึ่งคน)
Data แบบต่อเนื่องคือข้อมูลที่สามารถรับค่าใด ๆ (ภายในช่วง)
ตัวอย่าง:
ในกรณีของฐานข้อมูลเรามักจะเก็บข้อมูลในลักษณะไม่ต่อเนื่องแม้ลักษณะของข้อมูลจะต่อเนื่อง เหตุใดฉันจึงควรเน้นลักษณะของข้อมูล เราควรกระจายข้อมูลที่สามารถช่วยเราวิเคราะห์ข้อมูลได้ หากลักษณะของข้อมูลเป็นแบบต่อเนื่องฉันแนะนำให้คุณใช้มันโดยการวิเคราะห์อย่างต่อเนื่อง
ยกตัวอย่างแบบต่อเนื่องและไม่ต่อเนื่อง: MP3 แม้แต่ชนิดของ "เสียง" ก็คล้ายคลึงกันหากเก็บไว้ในรูปแบบดิจิตอล เราควรวิเคราะห์ด้วยวิธีการเปรียบเทียบเสมอ
ในแง่หนึ่งจากมุมมองเชิงปฏิบัติฉันเห็นด้วยกับคำตอบของ Jeromy Anglim ในตอนท้ายเราเป็นส่วนใหญ่เวลาที่เกี่ยวข้องกับตัวแปรที่แยกจากกัน - แม้ว่าจากมุมมองทางทฤษฎีพวกเขาจะต่อเนื่อง - และที่มีผลกระทบที่แท้จริงเช่นการจำแนก กระดาษของ Recall Strobl ระบุว่าป่าสุ่มนั้นมีความเอนเอียงไปทางตัวแปรที่มีจุดตัดหลายจุด (ความแม่นยำสูงกว่า แต่มีลักษณะใกล้เคียงกัน) จากประสบการณ์ส่วนตัวของฉันอาจเป็นเครือข่ายประสาทอาจมีอคติเมื่อตัวแปรนำเสนอความแม่นยำแตกต่างกันเว้นแต่พวกเขาจะเป็นประเภทเดียวกัน (เช่นต่อเนื่อง) ในอีกทางหนึ่งจากมุมมองทางทฤษฎีการจำแนกแบบคลาสสิก (เช่นต่อเนื่องไม่ต่อเนื่องเล็กน้อย ฯลฯ ) คือ IMHO ขวา ตามที่ฉันคิดว่าชื่อแหล่งที่มาของกระดาษของ Quinlan อธิบายขั้นตอนวิธี M5, ซึ่งเป็น 'regressor' เป็นตัวเลือกที่ดี ดังนั้นคำจำกัดความและความหมายของความต่อเนื่องและความต่อเนื่องนั้นขึ้นอยู่กับ 'สภาพแวดล้อม'
refs:
Quinlan JR (1992) เรียนรู้ด้วยการเรียนอย่างต่อเนื่อง ใน: การประชุมร่วมออสเตรเลียครั้งที่ 5 เกี่ยวกับ AI ซิดนีย์ (ออสเตรเลีย), 343–348
Strobl C. , Boulesteix A.-L. , Zeileis A. , และ Hothorn T. (2007) ความลำเอียงในการวัดความสำคัญของตัวแปรฟอเรสต์แบบสุ่ม: ภาพประกอบแหล่งที่มาและวิธีแก้ปัญหา BMC ชีวสารสนเทศศาสตร์, 8, 25. ดอย: 10.1186 / 1471-2105-8-25
ข้อมูลที่ไม่ต่อเนื่องใช้ค่าเฉพาะในขณะที่ข้อมูลต่อเนื่องไม่ได้ จำกัด อยู่ที่ค่าที่แยกกัน
ข้อมูลที่ไม่ต่อเนื่องนั้นแตกต่างกันและไม่มีพื้นที่สีเทาอยู่ระหว่างนั้นในขณะที่ข้อมูลต่อเนื่องครอบครองค่าใด ๆ เหนือค่าข้อมูลต่อเนื่อง
ข้อมูลที่ไม่ต่อเนื่องพวกเขาสามารถใช้ค่าเฉพาะพวกเขาเป็นตัวเลข
ข้อมูลที่ไม่ต่อเนื่องสามารถใช้กับค่าจำนวนเต็มเท่านั้นในขณะที่ข้อมูลต่อเนื่องสามารถใช้กับค่าใดก็ได้ ตัวอย่างเช่นจำนวนผู้ป่วยโรคมะเร็งที่รับการรักษาในโรงพยาบาลในแต่ละปีนั้นไม่ต่อเนื่อง แต่น้ำหนักของคุณยังคงต่อเนื่อง ข้อมูลบางอย่างต่อเนื่อง แต่วัดในลักษณะที่ไม่ต่อเนื่องเช่นอายุของคุณ เป็นเรื่องปกติที่จะรายงานอายุของคุณตามที่พูด 31
ข้อมูลแบบไม่ต่อเนื่องพูดถึงเกี่ยวกับค่า จำกัด และการพูดคุยข้อมูลอย่างต่อเนื่องเกี่ยวกับค่าที่ไม่สิ้นสุด .....