แนวคิดการอ้างอิงและพล็อตเกี่ยวกับสาเหตุที่การนอร์มัลไลซ์อินพุทมีประโยชน์สำหรับ ANN และ k-mean:
K- หมายถึง :
K-หมายถึงการจัดกลุ่มเป็น "isotropic" ในทุกทิศทางของพื้นที่และดังนั้นจึงมีแนวโน้มที่จะสร้างกลุ่มมากขึ้นหรือน้อยลงรอบ (มากกว่ายาว) กลุ่ม ในสถานการณ์เช่นนี้ทำให้ความแปรปรวนไม่เท่ากันเท่ากับการเพิ่มน้ำหนักให้กับตัวแปรที่มีความแปรปรวนน้อยกว่า
ตัวอย่างใน Matlab:
X = [randn(100,2)+ones(100,2);...
randn(100,2)-ones(100,2)];
% Introduce denormalization
% X(:, 2) = X(:, 2) * 1000 + 500;
opts = statset('Display','final');
[idx,ctrs] = kmeans(X,2,...
'Distance','city',...
'Replicates',5,...
'Options',opts);
plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)
hold on
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)
plot(ctrs(:,1),ctrs(:,2),'kx',...
'MarkerSize',12,'LineWidth',2)
plot(ctrs(:,1),ctrs(:,2),'ko',...
'MarkerSize',12,'LineWidth',2)
legend('Cluster 1','Cluster 2','Centroids',...
'Location','NW')
title('K-means with normalization')
(FYI: ฉันจะตรวจสอบได้อย่างไรว่าชุดข้อมูลของฉันมีการทำคลัสเตอร์หรือไม่ทำคลัสเตอร์ (เช่นการสร้างคลัสเตอร์เดียว )
การทำคลัสเตอร์แบบกระจาย :
การวิเคราะห์เปรียบเทียบแสดงให้เห็นว่าผลการจัดกลุ่มแบบกระจายขึ้นอยู่กับประเภทของขั้นตอนการทำให้เป็นมาตรฐาน
เครือข่ายประสาทเทียม (อินพุต) :
หากตัวแปรอินพุตถูกรวมเป็นเส้นตรงเช่นเดียวกับใน MLP ดังนั้นจึงไม่ค่อยจำเป็นอย่างยิ่งที่จะต้องสร้างมาตรฐานของอินพุตอย่างน้อยก็ในทางทฤษฎี เหตุผลก็คือการลดขนาดของเวกเตอร์อินพุตใด ๆ สามารถยกเลิกได้อย่างมีประสิทธิภาพโดยการเปลี่ยนน้ำหนักและอคติที่สอดคล้องกันทำให้คุณมีผลลัพธ์ที่แน่นอนเหมือนที่คุณเคยทำมาก่อน อย่างไรก็ตามมีเหตุผลหลายประการที่สามารถนำไปใช้ในการฝึกอบรมได้เร็วขึ้นและลดโอกาสที่จะติดอยู่ใน Optima ท้องถิ่น นอกจากนี้การลดน้ำหนักและการประมาณแบบเบย์สามารถทำได้สะดวกยิ่งขึ้นด้วยอินพุตมาตรฐาน
เครือข่ายประสาทเทียม (อินพุต / เอาท์พุต)
คุณควรทำสิ่งเหล่านี้กับข้อมูลของคุณหรือไม่ คำตอบคือมันขึ้นอยู่กับ
การทำให้มาตรฐานของตัวแปรอินพุตหรือเป้าหมายมีแนวโน้มที่จะทำให้กระบวนการฝึกอบรมมีพฤติกรรมที่ดีขึ้นโดยการปรับปรุงเงื่อนไขตัวเลข (ดู
ftp://ftp.sas.com/pub/neural/illcond/illcond.html ) ของปัญหาการปรับให้เหมาะสมและมั่นใจว่าค่าเริ่มต้นต่างๆ ค่าที่เกี่ยวข้องในการเริ่มต้นและการเลิกจ้างมีความเหมาะสม การกำหนดมาตรฐานเป้าหมายอาจส่งผลกระทบต่อฟังก์ชันเป้าหมาย
ควรสร้างมาตรฐานของกรณีและปัญหาด้วยความระมัดระวังเนื่องจากเป็นการทิ้งข้อมูล หากข้อมูลนั้นไม่เกี่ยวข้องดังนั้นการกำหนดมาตรฐานให้เป็นประโยชน์ค่อนข้างมาก หากข้อมูลนั้นมีความสำคัญกรณีที่เป็นมาตรฐานนั้นอาจทำให้เกิดความเสียหายได้
ที่น่าสนใจคือการเปลี่ยนหน่วยการวัดอาจนำไปสู่การมองเห็นโครงสร้างการจัดกลุ่มที่แตกต่างกันมาก: Kaufman, Leonard และ Peter J. Rousseeuw .. "การค้นหากลุ่มในข้อมูล: บทนำสู่การวิเคราะห์กลุ่ม" (2005)
ในบางแอปพลิเคชันการเปลี่ยนหน่วยการวัดอาจนำไปสู่การเห็นโครงสร้างการจัดกลุ่มที่แตกต่างกันมาก ตัวอย่างเช่นอายุ (เป็นปี) และส่วนสูง (ในหน่วยเซนติเมตร) ของคนในจินตนาการสี่คนได้รับในตารางที่ 3 และลงจุดในรูปที่ 3 ปรากฏว่า {A, B) และ {C, 0) เป็นสองกลุ่มที่แยกจากกัน . ในทางกลับกันเมื่อความสูงแสดงเป็นฟุตหนึ่งจะได้รับตารางที่ 4 และรูปที่ 4 ซึ่งกลุ่มที่เห็นได้ชัดตอนนี้คือ {A, C} และ {B, D} พาร์ติชั่นนี้แตกต่างจากครั้งแรกอย่างสิ้นเชิงเพราะแต่ละวิชาได้รับเพื่อนอีกคน (รูปที่ 4 จะแบนยิ่งขึ้นหากวัดอายุเป็นวัน)
เพื่อหลีกเลี่ยงการพึ่งพาการเลือกหน่วยการวัดสิ่งนี้จึงมีตัวเลือกในการกำหนดมาตรฐานข้อมูล สิ่งนี้จะแปลงการวัดเริ่มต้นเป็นตัวแปรแบบไม่มีหน่วย
Kaufman และคณะ ดำเนินการต่อด้วยข้อควรพิจารณาที่น่าสนใจ (หน้า 11):
จากมุมมองทางปรัชญาการสร้างมาตรฐานไม่สามารถแก้ปัญหาได้ แท้จริงแล้วการเลือกหน่วยการวัดทำให้น้ำหนักสัมพัทธ์ของตัวแปรสูงขึ้น การแสดงตัวแปรในหน่วยที่เล็กลงจะนำไปสู่ช่วงที่กว้างขึ้นสำหรับตัวแปรนั้นซึ่งจะมีผลอย่างมากต่อโครงสร้างผลลัพธ์ ในอีกทางหนึ่งโดยการกำหนดมาตรฐานให้พยายามทำให้น้ำหนักทั้งหมดมีค่าเท่ากันโดยหวังว่าจะบรรลุเป้าหมาย เช่นนี้มันอาจถูกใช้โดยผู้ประกอบการที่ไม่มีความรู้มาก่อน อย่างไรก็ตามอาจเป็นไปได้ว่าตัวแปรบางอย่างมีความสำคัญมากกว่าปัจจัยอื่น ๆ ในแอปพลิเคชันเฉพาะและจากนั้นการกำหนดน้ำหนักควรตั้งอยู่บนพื้นฐานของความรู้ในเรื่อง (ดูเช่น Abrahamowicz, 1985) ในทางกลับกัน, มีความพยายามคิดค้นเทคนิคการจัดกลุ่มที่ไม่ขึ้นกับขนาดของตัวแปร (Friedman and Rubin, 1967) ข้อเสนอของ Hardy และ Rasson (1982) คือการค้นหาพาร์ติชันที่ลดปริมาตรรวมของเปลือกนูนของคลัสเตอร์ โดยหลักการแล้ววิธีการนี้ไม่แปรเปลี่ยนไปตามการแปลงเชิงเส้นของข้อมูล แต่น่าเสียดายที่ไม่มีอัลกอริธึมสำหรับการนำไปใช้ (ยกเว้นการประมาณที่ จำกัด ไว้เพียงสองมิติ) ดังนั้นภาวะที่กลืนไม่เข้าคายไม่ออกของมาตรฐานดูเหมือนจะหลีกเลี่ยงไม่ได้ในปัจจุบันและโปรแกรมที่อธิบายไว้ในหนังสือเล่มนี้ปล่อยให้ทางเลือกขึ้นอยู่กับผู้ใช้ ข้อเสนอของ Hardy และ Rasson (1982) คือการค้นหาพาร์ติชันที่ลดปริมาตรรวมของเปลือกนูนของคลัสเตอร์ โดยหลักการแล้ววิธีการนี้ไม่แปรเปลี่ยนไปตามการแปลงเชิงเส้นของข้อมูล แต่น่าเสียดายที่ไม่มีอัลกอริธึมสำหรับการนำไปใช้ (ยกเว้นการประมาณที่ จำกัด ไว้เพียงสองมิติ) ดังนั้นภาวะที่กลืนไม่เข้าคายไม่ออกของมาตรฐานดูเหมือนจะหลีกเลี่ยงไม่ได้ในปัจจุบันและโปรแกรมที่อธิบายไว้ในหนังสือเล่มนี้ปล่อยให้ทางเลือกขึ้นอยู่กับผู้ใช้ ข้อเสนอของ Hardy และ Rasson (1982) คือการค้นหาพาร์ติชันที่ลดปริมาตรรวมของเปลือกนูนของคลัสเตอร์ โดยหลักการแล้ววิธีการนี้ไม่แปรเปลี่ยนไปตามการแปลงเชิงเส้นของข้อมูล แต่น่าเสียดายที่ไม่มีอัลกอริธึมสำหรับการนำไปใช้ (ยกเว้นการประมาณที่ จำกัด ไว้เพียงสองมิติ) ดังนั้นภาวะที่กลืนไม่เข้าคายไม่ออกของมาตรฐานดูเหมือนจะหลีกเลี่ยงไม่ได้ในปัจจุบันและโปรแกรมที่อธิบายไว้ในหนังสือเล่มนี้ปล่อยให้ทางเลือกขึ้นอยู่กับผู้ใช้