ตัวอย่างเช่นสำหรับคำที่ตำแหน่งในลำดับอินพุตพร้อมการฝัง 4 มิติและการดำเนินการจะเป็น
wpos∈[0,L−1]w=(w0,⋯,wL−1)ewdmodel=4e′w=ew+[sin(pos100000),cos(pos100000),sin(pos100002/4),cos(pos100002/4)]=ew+[sin(pos),cos(pos),sin(pos100),cos(pos100)]
โดยที่สูตรสำหรับการเข้ารหัสตำแหน่งมีดังนี้
ด้วย (เช่น ) ในเอกสารต้นฉบับPE(pos,2i)=sin(pos100002i/dmodel),
PE(pos,2i+1)=cos(pos100002i/dmodel).
dmodel=512i∈[0,255]
ใช้เทคนิคนี้เนื่องจากไม่มีแนวคิดเกี่ยวกับการเรียงลำดับคำ (1 คำ, คำที่ 2, .. ) ในสถาปัตยกรรมที่เสนอ คำทั้งหมดของลำดับการป้อนข้อมูลจะถูกป้อนไปยังเครือข่ายโดยไม่มีคำสั่งหรือตำแหน่งพิเศษ (ต่างจากสถาปัตยกรรม RNN ทั่วไปหรือ ConvNet) ดังนั้นแบบจำลองจึงไม่ทราบว่าคำสั่งนั้นจะเรียงลำดับอย่างไร ดังนั้นสัญญาณที่ขึ้นกับตำแหน่งจะถูกเพิ่มเข้าไปในการฝังคำแต่ละคำเพื่อช่วยให้ตัวแบบรวมคำสั่ง จากการทดลองการเพิ่มนี้ไม่เพียง แต่หลีกเลี่ยงการทำลายข้อมูลการฝัง แต่ยังเพิ่มข้อมูลตำแหน่งที่สำคัญ ในกรณีของ RNN เราป้อนคำต่อเนื่องกับ RNN นั่นคือคำที่ -th จะถูกป้อนในขั้นตอนที่ซึ่งช่วยให้แบบจำลองรวมลำดับของคำnn
บทความโดย Jay Alammarอธิบายบทความนี้ด้วยการสร้างภาพข้อมูลที่ยอดเยี่ยม น่าเสียดายที่ตัวอย่างของการเข้ารหัสตำแหน่งไม่ถูกต้องในขณะนี้ (ใช้สำหรับครึ่งแรกของมิติการฝังและสำหรับครึ่งหลังแทนที่จะใช้สำหรับดัชนีแม้แต่และสำหรับดัชนีคี่)sincossincos