นี้จะทำงานสำหรับฉันในสวิฟท์ 5 กรณีการใช้งานคือการใช้ URL จากคลิปบอร์ดหรือที่คล้ายกันซึ่งอาจมีตัวละครที่หลบหนี แต่ซึ่งยังมีตัวละคร Unicode ซึ่งอาจทำให้URLComponents
หรือURL(string:)
ล้มเหลว
ก่อนอื่นให้สร้างชุดอักขระที่มีอักขระตามกฎหมาย URL:
extension CharacterSet {
/// Characters valid in at least one part of a URL.
///
/// These characters are not allowed in ALL parts of a URL; each part has different requirements. This set is useful for checking for Unicode characters that need to be percent encoded before performing a validity check on individual URL components.
static var urlAllowedCharacters: CharacterSet {
// Start by including hash, which isn't in any set
var characters = CharacterSet(charactersIn: "#")
// All URL-legal characters
characters.formUnion(.urlUserAllowed)
characters.formUnion(.urlPasswordAllowed)
characters.formUnion(.urlHostAllowed)
characters.formUnion(.urlPathAllowed)
characters.formUnion(.urlQueryAllowed)
characters.formUnion(.urlFragmentAllowed)
return characters
}
}
ถัดไปขยายString
ด้วยวิธีการเข้ารหัส URL:
extension String {
/// Converts a string to a percent-encoded URL, including Unicode characters.
///
/// - Returns: An encoded URL if all steps succeed, otherwise nil.
func encodedUrl() -> URL? {
// Remove preexisting encoding,
guard let decodedString = self.removingPercentEncoding,
// encode any Unicode characters so URLComponents doesn't choke,
let unicodeEncodedString = decodedString.addingPercentEncoding(withAllowedCharacters: .urlAllowedCharacters),
// break into components to use proper encoding for each part,
let components = URLComponents(string: unicodeEncodedString),
// and reencode, to revert decoding while encoding missed characters.
let percentEncodedUrl = components.url else {
// Encoding failed
return nil
}
return percentEncodedUrl
}
}
ซึ่งสามารถทดสอบได้เช่น:
let urlText = "https://www.example.com/폴더/search?q=123&foo=bar&multi=eggs+and+ham&hangul=한글&spaced=lovely%20spam&illegal=<>#top"
let url = encodedUrl(from: urlText)
มูลค่าurl
ณ สิ้น:https://www.example.com/%ED%8F%B4%EB%8D%94/search?q=123&foo=bar&multi=eggs+and+ham&hangul=%ED%95%9C%EA%B8%80&spaced=lovely%20spam&illegal=%3C%3E#top
โปรดทราบว่าทั้งสอง%20
และ+
ระยะห่างจะถูกเก็บรักษาไว้อักขระ Unicode จะถูกเข้ารหัส%20
ในที่เป็นต้นฉบับurlText
ไม่ได้เข้ารหัสสองครั้งและ#
ยังคงยึด (ชิ้นส่วนหรือ)
แก้ไข:ตอนนี้กำลังตรวจสอบความถูกต้องของแต่ละองค์ประกอบ