C # Sanitize ชื่อไฟล์


174

ฉันเพิ่งย้าย MP3 จำนวนมากจากหลาย ๆ ที่ไปยังที่เก็บ ฉันสร้างชื่อไฟล์ใหม่โดยใช้แท็ก ID3 (ขอบคุณ TagLib-Sharp!) และฉันสังเกตว่าฉันได้รับSystem.NotSupportedException:

"ไม่รองรับรูปแบบของเส้นทางที่กำหนด"

นี้ถูกสร้างขึ้นโดยการอย่างใดอย่างหนึ่งหรือFile.Copy()Directory.CreateDirectory()

ใช้เวลาไม่นานในการรู้ว่าชื่อไฟล์ของฉันต้องได้รับการทำให้สะอาด ดังนั้นฉันจึงทำสิ่งที่ชัดเจน:

public static string SanitizePath_(string path, char replaceChar)
{
    string dir = Path.GetDirectoryName(path);
    foreach (char c in Path.GetInvalidPathChars())
        dir = dir.Replace(c, replaceChar);

    string name = Path.GetFileName(path);
    foreach (char c in Path.GetInvalidFileNameChars())
        name = name.Replace(c, replaceChar);

    return dir + name;
}

ฉันประหลาดใจฉันยังคงได้รับข้อยกเว้น ปรากฎว่า ':' ไม่ได้อยู่ในชุดPath.GetInvalidPathChars()เพราะมันถูกต้องใน root path ฉันคิดว่ามันสมเหตุสมผล - แต่นี่ต้องเป็นปัญหาที่พบได้บ่อย ใครบ้างมีรหัสย่อที่ sanitizes เส้นทางหรือไม่ อย่างละเอียดที่สุดที่ฉันคิดขึ้นมา แต่รู้สึกว่ามันน่าจะเกินกำลัง

    // replaces invalid characters with replaceChar
    public static string SanitizePath(string path, char replaceChar)
    {
        // construct a list of characters that can't show up in filenames.
        // need to do this because ":" is not in InvalidPathChars
        if (_BadChars == null)
        {
            _BadChars = new List<char>(Path.GetInvalidFileNameChars());
            _BadChars.AddRange(Path.GetInvalidPathChars());
            _BadChars = Utility.GetUnique<char>(_BadChars);
        }

        // remove root
        string root = Path.GetPathRoot(path);
        path = path.Remove(0, root.Length);

        // split on the directory separator character. Need to do this
        // because the separator is not valid in a filename.
        List<string> parts = new List<string>(path.Split(new char[]{Path.DirectorySeparatorChar}));

        // check each part to make sure it is valid.
        for (int i = 0; i < parts.Count; i++)
        {
            string part = parts[i];
            foreach (char c in _BadChars)
            {
                part = part.Replace(c, replaceChar);
            }
            parts[i] = part;
        }

        return root + Utility.Join(parts, Path.DirectorySeparatorChar.ToString());
    }

การปรับปรุงใด ๆ เพื่อให้ฟังก์ชั่นนี้เร็วขึ้นและบาร็อคน้อยจะได้รับการชื่นชมมาก


คำตอบ:


314

เพื่อล้างชื่อไฟล์คุณสามารถทำได้

private static string MakeValidFileName( string name )
{
   string invalidChars = System.Text.RegularExpressions.Regex.Escape( new string( System.IO.Path.GetInvalidFileNameChars() ) );
   string invalidRegStr = string.Format( @"([{0}]*\.+$)|([{0}]+)", invalidChars );

   return System.Text.RegularExpressions.Regex.Replace( name, invalidRegStr, "_" );
}

3
คำถามเกี่ยวกับเส้นทางไม่ใช่ชื่อไฟล์และอักขระที่ไม่ถูกต้องสำหรับสิ่งเหล่านี้แตกต่างกัน
Dour High Arch

15
บางที แต่รหัสนี้แน่นอนช่วยให้ฉันเมื่อฉันมีปัญหาเดียวกัน :)
MMR

8
และผู้ใช้รายอื่นที่ยอดเยี่ยมก็สามารถเดินได้ ... ฟังก์ชั่นนี้ยอดเยี่ยม ขอบคุณ Adrevdm ...
Dan Rosenstark

19
วิธีการที่ยอดเยี่ยม อย่าลืมว่าคำที่สงวนไว้จะยังกัดคุณอยู่และคุณจะถูกเกาหัว ที่มา: คำสงวนชื่อไฟล์ Wikipedia
Spud

8
เครื่องหมายมหัพภาคเป็นอักขระที่ไม่ถูกต้องหากอยู่ท้ายชื่อไฟล์ดังนั้นGetInvalidFileNameCharsจะไม่รวม มันไม่ได้ส่งข้อยกเว้นใน windows มันแค่ดึงมันออกไป แต่มันอาจทำให้เกิดพฤติกรรมที่ไม่คาดคิดได้หากคุณคาดหวังว่าจะมีช่วงเวลานั้น ฉันแก้ไข regex เพื่อจัดการกับกรณีนั้นเพื่อให้.พิจารณาหนึ่งในอักขระที่ไม่ถูกต้องหากอยู่ท้ายสตริง
Scott Chamberlain

120

ทางออกที่สั้นกว่า:

var invalids = System.IO.Path.GetInvalidFileNameChars();
var newName = String.Join("_", origFileName.Split(invalids, StringSplitOptions.RemoveEmptyEntries) ).TrimEnd('.');

1
@PeterMajeed: TIL ที่การนับบรรทัดเริ่มต้นที่ศูนย์ :-)
Gary McGill

นี่คือคำตอบที่ดีกว่าโดยเฉพาะอย่างยิ่งสำหรับ ASP.NET Core ซึ่งอาจส่งกลับอักขระที่แตกต่างกันตามแพลตฟอร์ม
Alexei

79

จากคำตอบที่ยอดเยี่ยมของ Andre แต่คำนึงถึงความคิดเห็นของ Spud เกี่ยวกับคำที่สงวนไว้ฉันทำรุ่นนี้:

/// <summary>
/// Strip illegal chars and reserved words from a candidate filename (should not include the directory path)
/// </summary>
/// <remarks>
/// http://stackoverflow.com/questions/309485/c-sharp-sanitize-file-name
/// </remarks>
public static string CoerceValidFileName(string filename)
{
    var invalidChars = Regex.Escape(new string(Path.GetInvalidFileNameChars()));
    var invalidReStr = string.Format(@"[{0}]+", invalidChars);

    var reservedWords = new []
    {
        "CON", "PRN", "AUX", "CLOCK$", "NUL", "COM0", "COM1", "COM2", "COM3", "COM4",
        "COM5", "COM6", "COM7", "COM8", "COM9", "LPT0", "LPT1", "LPT2", "LPT3", "LPT4",
        "LPT5", "LPT6", "LPT7", "LPT8", "LPT9"
    };

    var sanitisedNamePart = Regex.Replace(filename, invalidReStr, "_");
    foreach (var reservedWord in reservedWords)
    {
        var reservedWordPattern = string.Format("^{0}\\.", reservedWord);
        sanitisedNamePart = Regex.Replace(sanitisedNamePart, reservedWordPattern, "_reservedWord_.", RegexOptions.IgnoreCase);
    }

    return sanitisedNamePart;
}

และนี่คือการทดสอบหน่วยของฉัน

[Test]
public void CoerceValidFileName_SimpleValid()
{
    var filename = @"thisIsValid.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual(filename, result);
}

[Test]
public void CoerceValidFileName_SimpleInvalid()
{
    var filename = @"thisIsNotValid\3\\_3.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("thisIsNotValid_3__3.txt", result);
}

[Test]
public void CoerceValidFileName_InvalidExtension()
{
    var filename = @"thisIsNotValid.t\xt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("thisIsNotValid.t_xt", result);
}

[Test]
public void CoerceValidFileName_KeywordInvalid()
{
    var filename = "aUx.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("_reservedWord_.txt", result);
}

[Test]
public void CoerceValidFileName_KeywordValid()
{
    var filename = "auxillary.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("auxillary.txt", result);
}

1
นี่คือคำตอบที่สมบูรณ์มากอย่างน้อยที่สุดก็เป็นส่วนหนึ่งของชื่อไฟล์ของคำถามและสมควรได้รับ upvotes มากขึ้น
Brian MacKay

2
ข้อเสนอแนะเล็ก ๆ น้อย ๆ เนื่องจากดูเหมือนว่าวิธีนี้เป็นไปในทิศทางนี้: เพิ่มคำหลักนี้และกลายเป็นวิธีส่วนขยายที่สะดวกสบาย String สาธารณะแบบคงที่ CoerceValidFileName (ชื่อไฟล์สตริงนี้)
Ryan McArthur

2
ข้อผิดพลาดเล็กน้อย: วิธีนี้จะไม่เปลี่ยนคำที่สงวนไว้หากไม่มีนามสกุลไฟล์ (เช่นCOM1) ซึ่งไม่ได้รับอนุญาต การแก้ไขที่แนะนำคือการเปลี่ยนการสงวน"^{0}(\\.|$)""_reservedWord_$1"
WordPattern


4

ฉันใช้System.IO.Path.GetInvalidFileNameChars() วิธีตรวจสอบอักขระที่ไม่ถูกต้องและฉันไม่มีปัญหา

ฉันใช้รหัสต่อไปนี้:

foreach( char invalidchar in System.IO.Path.GetInvalidFileNameChars())
{
    filename = filename.Replace(invalidchar, '_');
}

3

ฉันต้องการที่จะรักษาตัวละครในบางวิธีไม่เพียง แต่แทนที่ตัวละครด้วยการขีดเส้นใต้

วิธีหนึ่งที่ฉันคิดว่าคือการแทนที่ตัวละครด้วยตัวละครที่มีลักษณะคล้ายกันซึ่ง (ในสถานการณ์ของฉัน) ไม่น่าจะถูกใช้เป็นตัวละครปกติ ดังนั้นฉันจึงนำรายชื่อตัวละครที่ไม่ถูกต้องออกมาแล้วพบว่ามีคนชอบดู

ต่อไปนี้เป็นฟังก์ชั่นการเข้ารหัสและถอดรหัสด้วย look-a-like

รหัสนี้ไม่รวมรายการที่สมบูรณ์สำหรับอักขระ System.IO.Path.GetInvalidFileNameChars () ทั้งหมด ดังนั้นขึ้นอยู่กับคุณที่จะขยายหรือใช้การขีดเส้นใต้แทนอักขระที่เหลืออยู่

private static Dictionary<string, string> EncodeMapping()
{
    //-- Following characters are invalid for windows file and folder names.
    //-- \/:*?"<>|
    Dictionary<string, string> dic = new Dictionary<string, string>();
    dic.Add(@"\", "Ì"); // U+OOCC
    dic.Add("/", "Í"); // U+OOCD
    dic.Add(":", "¦"); // U+00A6
    dic.Add("*", "¤"); // U+00A4
    dic.Add("?", "¿"); // U+00BF
    dic.Add(@"""", "ˮ"); // U+02EE
    dic.Add("<", "«"); // U+00AB
    dic.Add(">", "»"); // U+00BB
    dic.Add("|", "│"); // U+2502
    return dic;
}

public static string Escape(string name)
{
    foreach (KeyValuePair<string, string> replace in EncodeMapping())
    {
        name = name.Replace(replace.Key, replace.Value);
    }

    //-- handle dot at the end
    if (name.EndsWith(".")) name = name.CropRight(1) + "°";

    return name;
}

public static string UnEscape(string name)
{
    foreach (KeyValuePair<string, string> replace in EncodeMapping())
    {
        name = name.Replace(replace.Value, replace.Key);
    }

    //-- handle dot at the end
    if (name.EndsWith("°")) name = name.CropRight(1) + ".";

    return name;
}

คุณสามารถเลือก look-a-like ของคุณเอง ฉันใช้แอพ Character Map ใน windows เพื่อเลือกของฉัน%windir%\system32\charmap.exe

เมื่อฉันทำการปรับปรุงผ่านการค้นพบฉันจะอัปเดตรหัสนี้


โปรดทราบว่ามีอักขระจำนวนมากที่มีลักษณะคล้ายกับอักขระเหล่านั้นเช่นรูปแบบเต็มความกว้าง !"#$%&'()*+,-./:;<=>?@{|}~หรือรูปแบบอื่น ๆ ของพวกเขาเช่น/SOLIDUS และ `` FRACTION SLASH ที่สามารถใช้งานโดยตรงในชื่อไฟล์โดยไม่มีปัญหา
phuclv

2

ฉันคิดว่าปัญหาคือคุณโทรสายแรกPath.GetDirectoryNameที่ไม่ดี หากสิ่งนี้มีอักขระที่ไม่ใช่ชื่อไฟล์อยู่ในนั้น. Net จะไม่สามารถบอกได้ว่าส่วนใดของสตริงที่เป็นไดเรกทอรีและส่งออกไป คุณต้องทำการเปรียบเทียบสตริง

สมมติว่าเป็นเพียงชื่อไฟล์ที่ไม่ดีไม่ใช่เส้นทางทั้งหมดลอง:

public static string SanitizePath(string path, char replaceChar)
{
    int filenamePos = path.LastIndexOf(Path.DirectorySeparatorChar) + 1;
    var sb = new System.Text.StringBuilder();
    sb.Append(path.Substring(0, filenamePos));
    for (int i = filenamePos; i < path.Length; i++)
    {
        char filenameChar = path[i];
        foreach (char c in Path.GetInvalidFileNameChars())
            if (filenameChar.Equals(c))
            {
                filenameChar = replaceChar;
                break;
            }

        sb.Append(filenameChar);
    }

    return sb.ToString();
}

2

ฉันเคยประสบความสำเร็จกับสิ่งนี้ในอดีต

Nice, สั้นและคงที่ :-)

    public static string returnSafeString(string s)
    {
        foreach (char character in Path.GetInvalidFileNameChars())
        {
            s = s.Replace(character.ToString(),string.Empty);
        }

        foreach (char character in Path.GetInvalidPathChars())
        {
            s = s.Replace(character.ToString(), string.Empty);
        }

        return (s);
    }

2

มีวิธีแก้ไขปัญหาการทำงานมากมายที่นี่ เพียงเพื่อความสมบูรณ์นี่เป็นวิธีการที่ไม่ใช้ regex แต่ใช้ LINQ:

var invalids = Path.GetInvalidFileNameChars();
filename = invalids.Aggregate(filename, (current, c) => current.Replace(c, '_'));

นอกจากนี้ยังเป็นทางออกที่สั้นมาก;)


1
ฉันรักหนึ่งสมุทร :)
ลาร์รี

1

ต่อไปนี้เป็นวิธีส่วนขยายการโหลดแบบขี้เกียจที่มีประสิทธิภาพตามรหัสของ Andre:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace LT
{
    public static class Utility
    {
        static string invalidRegStr;

        public static string MakeValidFileName(this string name)
        {
            if (invalidRegStr == null)
            {
                var invalidChars = System.Text.RegularExpressions.Regex.Escape(new string(System.IO.Path.GetInvalidFileNameChars()));
                invalidRegStr = string.Format(@"([{0}]*\.+$)|([{0}]+)", invalidChars);
            }

            return System.Text.RegularExpressions.Regex.Replace(name, invalidRegStr, "_");
        }
    }
}

0

รหัสของคุณจะสะอาดกว่านี้ถ้าคุณผนวกไดเรกทอรีและชื่อไฟล์เข้าด้วยกันและทำให้บริสุทธิ์ซึ่งจะไม่ทำให้พวกเขาเป็นอิสระ สำหรับการฆ่าเชื้อ: เพียงแค่เอาตัวละครที่สองในสายอักขระ หากมีค่าเท่ากับ "replacechar" ให้แทนที่ด้วยเครื่องหมายโคลอน เนื่องจากแอพนี้มีไว้สำหรับการใช้งานของคุณเองโซลูชั่นดังกล่าวจึงน่าจะเพียงพอแล้ว


-1
using System;
using System.IO;
using System.Linq;
using System.Text;

public class Program
{
    public static void Main()
    {
        try
        {
            var badString = "ABC\\DEF/GHI<JKL>MNO:PQR\"STU\tVWX|YZA*BCD?EFG";
            Console.WriteLine(badString);
            Console.WriteLine(SanitizeFileName(badString, '.'));
            Console.WriteLine(SanitizeFileName(badString));
        }
        catch (Exception ex)
        {
            Console.WriteLine(ex.ToString());
        }
    }

    private static string SanitizeFileName(string fileName, char? replacement = null)
    {
        if (fileName == null) { return null; }
        if (fileName.Length == 0) { return ""; }

        var sb = new StringBuilder();
        var badChars = Path.GetInvalidFileNameChars().ToList();

        foreach (var @char in fileName)
        {
            if (badChars.Contains(@char)) 
            {
                if (replacement.HasValue)
                {
                    sb.Append(replacement.Value);
                }
                continue; 
            }
            sb.Append(@char);
        }
        return sb.ToString();
    }
}
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.