การสร้างดัชนีคุณภาพจากหลายตัวแปรเพื่อเปิดใช้งานการจัดอันดับ


22

ฉันมีตัวแปรตัวเลขสี่ตัว ทั้งหมดเป็นมาตรวัดคุณภาพดิน ตัวแปรยิ่งสูงคุณภาพก็ยิ่งสูงขึ้น ช่วงสำหรับพวกเขาทั้งหมดนั้นแตกต่างกัน:

Var1 จาก 1 ถึง 10

Var2 จาก 1,000 ถึง 2000

Var3 จาก 150 ถึง 300

Var4 ตั้งแต่ 0 ถึง 5

ฉันต้องรวมตัวแปรสี่ตัวเป็นคะแนนคุณภาพดินเดียวซึ่งจะประสบความสำเร็จในการจัดอันดับ

ความคิดของฉันง่ายมาก สร้างมาตรฐานของตัวแปรทั้งสี่ให้สรุปรวมและสิ่งที่คุณได้รับคือคะแนนที่ควรจัดลำดับ คุณเห็นปัญหาเกี่ยวกับการใช้วิธีนี้หรือไม่ มีวิธีอื่นที่ดีกว่าที่คุณอยากแนะนำไหม?

ขอบคุณ

แก้ไข:

ขอบคุณเพื่อน. มีการถกเถียงกันมากมายในเรื่อง "ความเชี่ยวชาญด้านโดเมน" ... เนื้อหาด้านการเกษตร ... ในขณะที่ฉันคาดว่าจะมีการพูดคุยเรื่องสถิติมากขึ้น ในแง่ของเทคนิคที่ฉันจะใช้ ... มันอาจจะเป็นผลรวมของคะแนน z แบบง่าย + การถดถอยโลจิสติกในการทดลอง เพราะกลุ่มตัวอย่างส่วนใหญ่มีคุณภาพไม่ดี 90% ฉันจะรวม 3 หมวดหมู่คุณภาพเข้าเป็นหนึ่งเดียวและโดยทั่วไปมีปัญหาเลขฐานสอง (คุณภาพไม่ดีเทียบกับไม่มีคุณภาพ) ฉันฆ่านกสองตัวด้วยหินก้อนเดียว ฉันเพิ่มตัวอย่างของฉันในแง่ของอัตรากิจกรรมและฉันใช้ประโยชน์จากผู้เชี่ยวชาญโดยให้พวกเขาจัดกลุ่มตัวอย่างของฉัน ตัวอย่างผู้เชี่ยวชาญจะถูกนำมาใช้เพื่อให้เหมาะสมกับรูปแบบการบันทึกข้อมูลเพื่อเพิ่มระดับความสอดคล้อง / ความไม่ลงรอยกันกับผู้เชี่ยวชาญสูงสุด .... เสียงดังกล่าวถึงคุณอย่างไร?

คำตอบ:


19

วิธีการที่เสนออาจให้ผลลัพธ์ที่สมเหตุสมผล แต่โดยบังเอิญเท่านั้น ในระยะนี้ - นั่นคือการถามคำถามที่มูลค่าตามใบหน้าด้วยความหมายของตัวแปรที่ปลอมตัว - ปัญหาบางอย่างชัดเจน:

  1. ไม่ปรากฏว่าตัวแปรแต่ละตัวมีความสัมพันธ์เชิงบวกกับ "คุณภาพ" ตัวอย่างเช่นถ้า 10 สำหรับ 'Var1' หมายถึง "คุณภาพ" นั้นแย่กว่าคุณภาพเมื่อ Var1 เป็น 1 จากนั้นการเพิ่มลงในผลรวมนั้นเกี่ยวกับสิ่งที่ผิดพลาด มันจะต้องถูกลบออก

  2. การทำให้เป็นมาตรฐานหมายความว่า "คุณภาพ" ขึ้นอยู่กับชุดข้อมูลเอง ดังนั้นคำจำกัดความจะเปลี่ยนแปลงด้วยชุดข้อมูลที่แตกต่างกันหรือด้วยการเพิ่มและการลบข้อมูลเหล่านี้ สิ่งนี้สามารถทำให้ "คุณภาพ" เป็นการสร้างตามอำเภอใจไม่ชั่วคราวและไม่มีวัตถุประสงค์และป้องกันการเปรียบเทียบระหว่างชุดข้อมูล

  3. ไม่มีคำจำกัดความของ "คุณภาพ" มันควรจะหมายถึงอะไร? ความสามารถในการสกัดกั้นน้ำที่ปนเปื้อนหรือไม่ ความสามารถในการสนับสนุนกระบวนการอินทรีย์? ความสามารถในการส่งเสริมปฏิกิริยาเคมีบางอย่าง? ดินที่ดีสำหรับหนึ่งในวัตถุประสงค์เหล่านี้อาจจะยากจนโดยเฉพาะอย่างยิ่งสำหรับผู้อื่น

  4. ปัญหาตามที่ระบุไม่มีวัตถุประสงค์: ทำไม "คุณภาพ" จึงต้องมีการจัดอันดับ การจัดอันดับจะใช้สำหรับอะไร - นำเข้าสู่การวิเคราะห์เพิ่มเติมเลือกดินที่ดีที่สุดตัดสินใจสมมติฐานทางวิทยาศาสตร์พัฒนาทฤษฎีส่งเสริมผลิตภัณฑ์

  5. ผลของการจัดอันดับไม่ชัดเจน หากการจัดอันดับไม่ถูกต้องหรือต่ำกว่าจะเกิดอะไรขึ้น โลกจะต้องหิวโหยสิ่งแวดล้อมที่ปนเปื้อนมากขึ้นนักวิทยาศาสตร์เข้าใจผิดมากขึ้นชาวสวนจะผิดหวังมากขึ้นไหม?

  6. ทำไมการผสมผสานเชิงเส้นของตัวแปรจึงควรเหมาะสม ทำไมพวกเขาไม่ควรคูณหรือยกกำลังหรือรวมเข้าด้วยกันในฐานะposynomialหรืออะไรที่ลึกลับมากกว่า?

  7. มาตรการคุณภาพดินดิบมักจะแสดงออกอีกครั้ง ยกตัวอย่างเช่นการซึมผ่านของท่อนซุงมักจะมีประโยชน์มากกว่าความสามารถในการซึมผ่านของตัวเองและบันทึกกิจกรรมของไฮโดรเจนไอออน (pH) นั้นมีประโยชน์มากกว่ากิจกรรม การแสดงออกของตัวแปรที่เหมาะสมสำหรับการกำหนด "คุณภาพ" คืออะไร?

ใคร ๆ ก็หวังว่าวิทยาศาสตร์ดินจะตอบคำถามเหล่านี้ส่วนใหญ่และระบุว่าการผสมผสานที่เหมาะสมของตัวแปรอาจมีความหมายตามวัตถุประสงค์ของ "คุณภาพ" ถ้าไม่เช่นนั้นคุณต้องเผชิญกับปัญหาการประเมินมูลค่าหลายแอตทริบิวต์ บทความ Wikipedia แสดงวิธีการหลายสิบวิธีในการจัดการกับเรื่องนี้ IMHO ส่วนใหญ่ไม่เหมาะสมสำหรับการตอบคำถามทางวิทยาศาสตร์ หนึ่งในไม่กี่คนที่มีทฤษฎีที่มั่นคงและการบังคับใช้ที่อาจเกิดขึ้นกับเรื่องเชิงประจักษ์คือKeeney & Raiffa(MAVT) มันต้องการให้คุณสามารถกำหนดได้ว่าสำหรับชุดค่าผสมสองชุดใดโดยเฉพาะของตัวแปรชุดใดซึ่งทั้งสองชุดควรอยู่ในอันดับที่สูงกว่า ลำดับโครงสร้างของการเปรียบเทียบดังกล่าวเผยให้เห็น (a) วิธีที่เหมาะสมในการแสดงค่าอีกครั้ง; (b) การรวมกันเชิงเส้นของค่าที่แสดงซ้ำจะสร้างการจัดอันดับที่ถูกต้องหรือไม่ และ (c) ถ้าเป็นไปได้รวมกันเชิงเส้นมันจะช่วยให้คุณคำนวณค่าสัมประสิทธิ์ กล่าวโดยย่อ MAVT จัดทำอัลกอริทึมสำหรับการแก้ปัญหาของคุณโดยที่คุณทราบวิธีการเปรียบเทียบกรณีและปัญหาที่เฉพาะเจาะจงแล้ว


RE: 1. ฉันรู้แน่ ๆ ว่า "เพิ่มจำนวนยิ่งเพิ่มคุณภาพ" สำหรับตัวแปรทั้งสี่ตัว RE: 2. ดีมาก ฉันจะทำอย่างไรเพื่อทำให้ชุดข้อมูลสองชุดเปรียบเทียบกันได้
user333

2
@user คำแนะนำของฉันอยู่ในย่อหน้าสุดท้าย: ยิ่งกว่านั้นให้ค้นหาการแสดงออกเชิงปริมาณของ "คุณภาพ" ในวรรณกรรมทางวิทยาศาสตร์ ยกเว้นว่าใช้ MAVT ทั้งสองผลิตสูตรคงที่เป็นอิสระจากชุดข้อมูล ที่มั่นใจเปรียบเทียบ
whuber

1
@whuber ไม่มีใครคิดว่านี่เป็นปัญหาในการสร้างตัวชี้วัดตามข้อมูลที่มีอยู่ซึ่งในกรณีนี้การรวมคะแนน Z นั้นไม่เลวเท่าที่คุณทำ
Andy W

3
@Andy คุณช่วยอธิบายความหมายของคำว่า "formative measure" และ "information available" ได้อย่างไร? // ฉันควรจะชี้ให้เห็นว่าหลายมาตรการความเหมาะสมของดินเพื่อการเกษตรจะไม่ได้ต่อเนื่องมากน้อยเชิงเส้น: ยกตัวอย่างเช่นพืชอาจเจริญรุ่งเรืองอยู่ในช่วงของค่า pH แต่ประสบกับค่า pH ของเกินช่วงนี้ในทิศทางใดทิศทางหนึ่ง มันอาจเป็นสถานการณ์พิเศษแน่นอน - บางทีอาจเกี่ยวข้องกับช่วงแคบ ๆ ของค่า - ถ้าการรวมกันเชิงเส้นอย่างง่ายของลักษณะดินมีความสัมพันธ์วัตถุประสงค์กับคุณภาพการเกษตร
whuber

2
(Y1,...,Yk)(x1,...,xk)
whuber

3

ทุกคนดูที่ Russell G. Congalton 'ทบทวนการประเมินความถูกต้องของการจำแนกประเภทข้อมูลที่รับรู้จากระยะไกล' 1990 มันอธิบายเทคนิคที่รู้จักกันในชื่อเมทริกซ์ข้อผิดพลาดสำหรับการฝึกอบรม varing เช่นเดียวกับคำที่เขาใช้เรียกว่า 'การทำให้ข้อมูลเป็นปกติ' โดยที่หนึ่งได้เวกเตอร์ที่ต่างกันทั้งหมดและ 'ทำให้ปกติ' หรือกำหนดให้เท่ากับ 0 ถึง 1 ช่วงที่เท่ากันตั้งแต่ 0 ถึง 1


0

อีกสิ่งหนึ่งที่คุณไม่ได้พูดถึงคือขนาดของการวัด V1 และ V5 ดูเหมือนว่าพวกเขาจะมีลำดับขั้นและที่อื่น ๆ ดูเหมือนจะไม่ ดังนั้นมาตรฐานอาจบิดเบือนคะแนน ดังนั้นคุณอาจแปลงตัวแปรทั้งหมดให้อยู่ในอันดับที่ดีขึ้นและกำหนดน้ำหนักสำหรับตัวแปรแต่ละตัวเนื่องจากไม่น่าเป็นไปได้สูงที่พวกเขาจะมีน้ำหนักเท่ากัน การให้น้ำหนักที่เท่าเทียมกันเป็นค่าเริ่มต้น "ไม่มีอะไร" มากกว่า คุณอาจต้องการทำการวิเคราะห์สหสัมพันธ์หรือการถดถอยเพื่อหาค่าน้ำหนักเบื้องต้น


ฉันจะใช้การวิเคราะห์สหสัมพันธ์เพื่อกำหนดน้ำหนักได้อย่างไร
user333

หากคุณมีการวัดคุณภาพโดยรวมที่มีอยู่แล้วเช่นความคิดเห็นของผู้เชี่ยวชาญ (หรือเต็มใจที่จะยอมรับตัวแปรอื่น ๆ ในฐานะตัวแทนสำหรับสิ่งนี้) คุณสามารถเลือกตัวแปรที่มีความสัมพันธ์สูงสุดและให้น้ำหนักที่สูงที่สุด
Ralph Winters

-3

การติดตามคำตอบของ Ralph Winters คุณอาจใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) ในเมทริกซ์ที่มีคะแนนมาตรฐานที่เหมาะสม นี่จะให้เวกเตอร์น้ำหนัก "ธรรมชาติ" ที่คุณสามารถใช้เพื่อรวมคะแนนในอนาคต

ทำเช่นนี้หลังจากที่คะแนนทั้งหมดได้รับการเปลี่ยนเป็นอันดับ หากผลลัพธ์คล้ายกันมากคุณมีเหตุผลที่ดีที่จะดำเนินการตามวิธีใดวิธีหนึ่งต่อไป หากมีความคลาดเคลื่อนนี้จะนำไปสู่คำถามที่น่าสนใจและความเข้าใจที่ดีขึ้น


4
ฉันไม่เห็นด้วย. ในขณะที่ใครคนหนึ่งอาจจะสนใจในความสัมพันธ์ระหว่างรายการสำหรับความอยากรู้อยากเห็นตัวแปรทั้งหมดอาจจะเป็นมุมฉาก แต่ก็ยังมีส่วนร่วมกับคุณภาพ ตัวอย่างโง่ดินในทวีปแอนตาร์กติกาอาจมีปริมาณไนโตรเจนที่ดีที่สุด แต่ฉันสงสัยว่ามันจะพอเพียงในสภาพอากาศที่เหมาะสม
Andy W

@Andy W: ในกรณีนั้นตัวแปรทั้งหมดควรมีน้ำหนักเท่ากันและ PCA จะบอกคุณว่า นอกจากนี้ยังจะบอกคุณว่าองค์ประกอบชั้นนำนั้นมีสัดส่วนเพียงเล็กน้อยเท่านั้นของความแปรปรวนโดยรวมในเมทริกซ์คะแนน
Hans Engler

3
ฉันยังไม่เห็นด้วย มันไม่ได้บอกคุณว่าคะแนนควรมีน้ำหนักเท่ากันหรือไม่ สองรายการอาจมีความสัมพันธ์เชิงบวก แต่แต่ละรายการมีความสัมพันธ์ตรงกันข้ามกับ "คุณภาพ" ความสัมพันธ์ระหว่างรายการไม่จำเป็นต้องพูดอะไรเกี่ยวกับการวัดที่ไม่ได้สังเกตในบริบทที่กำหนด หากคุณภาพเป็นตัวแปรแฝงและตัวแปรเป็น "ไตร่ตรอง" ของโครงสร้างแฝงนั้นอาจเป็นจริง แต่นั่นไม่ใช่กรณีในตัวอย่างที่กำหนดนี้
Andy W

Aม.×nσ1ยูโวลต์TAnโวลต์Jโวลต์J
Hans Engler

3
ฉันยังไม่เห็นด้วย แม้ว่าความสัมพันธ์จะถูกคาดหวังว่าจะเป็นไปในทิศทางเดียวกัน แต่ก็ไม่ได้หมายความว่าตัวชี้วัดควรได้รับน้ำหนักใด ๆ ตามความสัมพันธ์ระหว่างรายการ ความแปรปรวนที่ใช้ร่วมกันสามารถพูดบางอย่างเกี่ยวกับความสัมพันธ์ระหว่างตัวบ่งชี้เท่านั้น คิดถึงโมเดลการถดถอยซึ่งเราทำนายการวัดคุณภาพที่รู้จักจากตัวบ่งชี้เหล่านี้ ความสัมพันธ์ระหว่างรายการระหว่างตัวบ่งชี้ไม่ได้บอกคุณว่าสิ่งที่คาดหวังจะเป็นอย่างไร
Andy W
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.