ฉันขอขอบคุณคำตอบอื่น ๆ แต่สำหรับฉันแล้วพื้นหลังทอปอโลยีบางอย่างจะให้โครงสร้างที่จำเป็นต่อการตอบสนองมากขึ้น
คำนิยาม
เริ่มต้นด้วยการสร้างคำจำกัดความของโดเมน:
ตัวแปรเด็ดขาดคือโดเมนที่มีองค์ประกอบ แต่ไม่มีความสัมพันธ์ที่รู้จักระหว่างกัน (ดังนั้นเราจึงมีหมวดหมู่เท่านั้น) ตัวอย่างขึ้นอยู่กับบริบท แต่ฉันพูดในกรณีทั่วไปมันเป็นการยากที่จะเปรียบเทียบวันในสัปดาห์: เป็นวันจันทร์ก่อนวันอาทิตย์ถ้าเป็นเช่นนั้นแล้ววันจันทร์หน้าจะเป็นอย่างไร อาจจะง่ายกว่า แต่ตัวอย่างที่ใช้น้อยกว่าคือเสื้อผ้าบางชิ้น: หากไม่มีบริบทที่ทำให้รู้สึกเป็นระเบียบก็ยากที่จะบอกว่ากางเกงมาก่อนจัมเปอร์หรือในทางกลับกัน
ตัวแปรอันดับเป็นหนึ่งที่มีคำสั่งรวมที่กำหนดไว้ในโดเมนคือสำหรับทุกสององค์ประกอบของโดเมนเราสามารถบอกได้ว่าพวกเขาจะเหมือนกันหรืออย่างใดอย่างหนึ่งที่มีขนาดใหญ่กว่าอีก Likert ขนาดเป็นตัวอย่างที่ดีของความหมายของตัวแปรลำดับ "ค่อนข้างเห็นด้วย" นั้นใกล้เคียงกับ "เห็นด้วยอย่างยิ่ง" มากกว่า "ไม่เห็นด้วย"
ตัวแปรช่วงเวลาเป็นหนึ่งซึ่งมีโดเมนกำหนดระยะทางระหว่างองค์ประกอบ ( ตัวชี้วัด ) จึงช่วยให้เราสามารถกำหนดช่วงเวลา
ตัวอย่างโดเมน
ในฐานะที่เป็นชุดที่พบมากที่สุดที่เราใช้จำนวนที่เป็นธรรมชาติและจริงจะมีคำสั่งซื้อและตัวชี้วัดรวมทั้งหมด นี่คือเหตุผลที่เราต้องระมัดระวังเมื่อเรากำหนดหมายเลขให้กับหมวดหมู่ของเรา หากเราไม่ระมัดระวังในการไม่คำนึงถึงลำดับและระยะทางเราจะแปลงข้อมูลหมวดหมู่ของเราเป็นข้อมูลช่วงเวลา เมื่อเราใช้อัลกอริธึมการเรียนรู้ของเครื่องโดยไม่ทราบว่ามันทำงานอย่างไรความเสี่ยงหนึ่งที่ทำให้สมมติฐานดังกล่าวไม่เต็มใจจึงอาจทำให้ผลลัพธ์ของตัวเองเป็นโมฆะ ตัวอย่างเช่นอัลกอริทึมการเรียนรู้เชิงลึกที่ได้รับความนิยมส่วนใหญ่ทำงานกับตัวเลขจริงโดยใช้ประโยชน์จากช่วงเวลาและคุณสมบัติต่อเนื่องของพวกเขา อีกตัวอย่างหนึ่งก็คิดว่า 5 จุดชั่งน้ำหนัก Likert และวิธีการวิเคราะห์ที่เรานำไปใช้กับพวกเขาสันนิษฐานว่าระยะห่างระหว่างเห็นด้วยอย่างยิ่งและเห็นด้วยเป็นเช่นเดียวกับไม่เห็นด้วยและไม่เห็นด้วยไม่เห็นด้วยหรือ ยากที่จะสร้างเคสสำหรับความสัมพันธ์ดังกล่าว
ชุดที่เรามักจะทำงานร่วมกับอีกประการหนึ่งคือสตริง มีเมทริกความคล้ายคลึงกันจำนวนสตริงที่มีประโยชน์เมื่อทำงานกับสตริง อย่างไรก็ตามสิ่งเหล่านี้ไม่ได้มีประโยชน์เสมอไป ตัวอย่างเช่นสำหรับที่อยู่ถนนจอห์นสมิ ธ และถนนจอห์นสมิ ธ ค่อนข้างใกล้เคียงกันในแง่ของความคล้ายคลึงกันของสตริง แต่เห็นได้ชัดว่าเป็นตัวแทนของหน่วยงานที่แตกต่างกันสองแห่งที่อาจแยกห่างออกไปหลายไมล์
สถิติสรุป
ตกลงตอนนี้เรามาดูกันว่าสถิติสรุปมีความเหมาะสมกับเรื่องนี้อย่างไร เนื่องจากสถิติทำงานกับตัวเลขฟังก์ชันของฟังก์ชันจึงถูกกำหนดเป็นระยะ แต่เรามาดูตัวอย่างว่าเราสามารถสรุปให้เป็นหมวดหมู่หรือข้อมูลลำดับได้อย่างไร:
- โหมด - ทั้งเมื่อทำงานกับข้อมูลหมวดหมู่และลำดับเราสามารถบอกองค์ประกอบที่ใช้บ่อยที่สุด ดังนั้นเรามีสิ่งนี้ จากนั้นเราจะได้รับมาตรการอื่น ๆ ทั้งหมดที่ @Maddenker แสดงรายการในคำตอบของพวกเขา ช่วงความมั่นใจของ @ gung อาจมีประโยชน์เช่นกัน
- ค่ามัธยฐาน - @ peter-flom พูดว่าตราบใดที่คุณมีคำสั่งคุณสามารถได้รับค่ามัธยฐานของคุณ
- หมายถึงแต่รวมถึงค่าเบี่ยงเบนมาตรฐานเปอร์เซ็นไทล์และอื่น ๆ - คุณจะได้รับเฉพาะข้อมูลช่วงเวลาเท่านั้นเนื่องจากความจำเป็นในการวัดระยะทาง
ตัวอย่างของบริบทข้อมูล
ในตอนท้ายฉันต้องการเน้นย้ำอีกครั้งว่าลำดับและตัวชี้วัดที่คุณกำหนดในข้อมูลของคุณนั้นเป็นไปตามบริบท ตอนนี้ควรเห็นได้ชัด แต่ให้ฉันยกตัวอย่างล่าสุดให้คุณเมื่อทำงานกับที่ตั้งทางภูมิศาสตร์เรามีวิธีที่แตกต่างมากมายในการเข้าถึงพวกเขา:
- หากเราสนใจระยะห่างระหว่างพวกเขาเราสามารถทำงานกับตำแหน่งทางภูมิศาสตร์ของพวกเขาซึ่งโดยทั่วไปจะให้เรามีพื้นที่เชิงตัวเลขสองมิติดังนั้นช่วงเวลา
- หากเราสนใจในส่วนของความสัมพันธ์เราสามารถกำหนดลำดับรวม (เช่นถนนเป็นส่วนหนึ่งของเมืองสองเมืองมีความเท่าเทียมทวีปมีประเทศ)
- หากเราสนใจว่าสตริงสองสตริงแสดงที่อยู่เดียวกันหรือไม่เราสามารถทำงานกับระยะห่างของสตริงที่จะยอมรับความผิดพลาดในการสะกดคำและสลับตำแหน่งของคำ แต่ให้แน่ใจว่าได้จำแนกคำและชื่อที่แตกต่างกัน นี่ไม่ใช่สิ่งที่ง่าย แต่เพียงเพื่อให้กรณี
- มีกรณีการใช้งานอื่น ๆ อีกมากที่เราทุกคนเผชิญทุกวันโดยที่ไม่มีสิ่งใดเหมาะสม ในบางส่วนของพวกเขาไม่มีอะไรจะทำนอกจากรักษาที่อยู่เป็นหมวดหมู่ที่แตกต่างกันในคนอื่นมันลงมาเพื่อสร้างแบบจำลองข้อมูลที่ชาญฉลาดมากและการประมวลผลล่วงหน้า