วิธีการซ่อมแซมสตริงที่เป็นอนุกรมซึ่งเสียหายจากความยาวนับไบต์ที่ไม่ถูกต้อง


98

ฉันใช้ Hotaru CMS กับปลั๊กอินอัพโหลดรูปภาพฉันได้รับข้อผิดพลาดนี้หากฉันพยายามแนบรูปภาพไปยังโพสต์มิฉะนั้นจะไม่มีข้อผิดพลาด:

Unserialize () [function.unserialize]: เกิดข้อผิดพลาดที่ offset

รหัสที่กระทำผิด (ข้อผิดพลาดชี้ให้สอดคล้องกับ **):

/**
     * Retrieve submission step data
     *
     * @param $key - empty when setting
     * @return bool
     */
    public function loadSubmitData($h, $key = '')
    {
        // delete everything in this table older than 30 minutes:
        $this->deleteTempData($h->db);

        if (!$key) { return false; }

        $cleanKey = preg_replace('/[^a-z0-9]+/','',$key);
        if (strcmp($key,$cleanKey) != 0) {
            return false;
        } else {
            $sql = "SELECT tempdata_value FROM " . TABLE_TEMPDATA . " WHERE tempdata_key = %s ORDER BY tempdata_updatedts DESC LIMIT 1";
            $submitted_data = $h->db->get_var($h->db->prepare($sql, $key));
            **if ($submitted_data) { return unserialize($submitted_data); } else { return false; }** 
        }
    }

ข้อมูลจากตารางสังเกตว่าบิตท้ายมีข้อมูลรูปภาพฉันไม่ใช่ผู้เชี่ยวชาญด้าน PHP ดังนั้นฉันจึงสงสัยว่าพวกคุณ / เพื่อน ๆ คิดอย่างไร?

tempdata_value:

a:10:{s:16:"submit_editorial";b:0;s:15:"submit_orig_url";s:13:"www.bbc.co.uk";s:12:"submit_title";s:14:"No title found";s:14:"submit_content";s:12:"dnfsdkfjdfdf";s:15:"submit_category";i:2;s:11:"submit_tags";s:3:"bbc";s:9:"submit_id";b:0;s:16:"submit_subscribe";i:0;s:15:"submit_comments";s:4:"open";s:5:"image";s:19:"C:fakepath100.jpg";}

แก้ไข: ฉันคิดว่าฉันพบบิตซีเรียลไลซ์ ...

/**
     * Save submission step data
     *
     * @return bool
     */
    public function saveSubmitData($h)
    {
        // delete everything in this table older than 30 minutes:
        $this->deleteTempData($h->db);

        $sid = preg_replace('/[^a-z0-9]+/i', '', session_id());
        $key = md5(microtime() . $sid . rand());
        $sql = "INSERT INTO " . TABLE_TEMPDATA . " (tempdata_key, tempdata_value, tempdata_updateby) VALUES (%s,%s, %d)";
        $h->db->query($h->db->prepare($sql, $key, serialize($h->vars['submitted_data']), $h->currentUser->id));
        return $key;
    }

3
สำหรับฉันการแก้ไขอย่างรวดเร็วสำหรับสิ่งนี้คือการใช้ base64_encode / ถอดรหัสก่อนที่จะทำให้เป็นอนุกรม / ไม่ระบุหมายเลข davidwalsh.name/php-serialize-unserialize-issues
Valentin Despa

1
ฉันไม่รู้ว่าทำไม แต่ของฉันแก้ไขด้วยการเพิ่ม @,@unserialize($product->des_txtmopscol);
Bhavin Rana

2
การเพิ่ม @BhavinRana @ไม่ใช่ข้อผิดพลาดในการแก้ไข แต่เป็นการปิดเสียงข้อผิดพลาด - ไม่มีอะไร "ได้รับการแก้ไข" ด้วยเทคนิคนั้น
mickmackusa

คำตอบ:


219

unserialize() [function.unserialize]: Error at offsetเป็นค่าธรรมเนียมinvalid serialization dataเนื่องจากความยาวไม่ถูกต้อง

แก้ไขด่วน

สิ่งที่คุณสามารถทำได้คือrecalculating the lengthองค์ประกอบในอาร์เรย์แบบอนุกรม

คุณเป็นข้อมูลอนุกรมปัจจุบัน

$data = 'a:10:{s:16:"submit_editorial";b:0;s:15:"submit_orig_url";s:13:"www.bbc.co.uk";s:12:"submit_title";s:14:"No title found";s:14:"submit_content";s:12:"dnfsdkfjdfdf";s:15:"submit_category";i:2;s:11:"submit_tags";s:3:"bbc";s:9:"submit_id";b:0;s:16:"submit_subscribe";i:0;s:15:"submit_comments";s:4:"open";s:5:"image";s:19:"C:fakepath100.jpg";}';

ตัวอย่างโดยไม่ต้องคำนวณใหม่

var_dump(unserialize($data));

เอาต์พุต

Notice: unserialize() [function.unserialize]: Error at offset 337 of 338 bytes

การคำนวณใหม่

$data = preg_replace('!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'", $data);
var_dump(unserialize($data));

เอาต์พุต

array
  'submit_editorial' => boolean false
  'submit_orig_url' => string 'www.bbc.co.uk' (length=13)
  'submit_title' => string 'No title found' (length=14)
  'submit_content' => string 'dnfsdkfjdfdf' (length=12)
  'submit_category' => int 2
  'submit_tags' => string 'bbc' (length=3)
  'submit_id' => boolean false
  'submit_subscribe' => int 0
  'submit_comments' => string 'open' (length=4)
  'image' => string 'C:fakepath100.jpg' (length=17)

คำแนะนำ .. I

แทนที่จะใช้การแก้ไขด่วนแบบนี้ ... ฉันจะแนะนำให้คุณอัปเดตคำถามด้วย

  • คุณจัดลำดับข้อมูลของคุณอย่างไร

  • วิธีการบันทึก ..

================================ แก้ไข 1 ================ ===============

ความผิดพลาด

ข้อผิดพลาดถูกสร้างขึ้นเนื่องจากการใช้เครื่องหมายคำพูดคู่"แทนใบเสนอราคาเดียว'นั่นคือเหตุผลที่C:\fakepath\100.pngถูกแปลงเป็นC:fakepath100.jpg

เพื่อแก้ไขข้อผิดพลาด

คุณต้องเปลี่ยน$h->vars['submitted_data']จาก (สังเกตว่า singe ค่อนข้าง')

แทนที่

 $h->vars['submitted_data']['image'] = "C:\fakepath\100.png" ;

ด้วย

 $h->vars['submitted_data']['image'] = 'C:\fakepath\100.png' ;

ตัวกรองเพิ่มเติม

คุณยังสามารถเพิ่มตัวกรองง่ายๆนี้ก่อนที่คุณจะเรียกอนุกรม

function satitize(&$value, $key)
{
    $value = addslashes($value);
}

array_walk($h->vars['submitted_data'], "satitize");

หากคุณมีอักขระ UTF คุณสามารถเรียกใช้

 $h->vars['submitted_data'] = array_map("utf8_encode",$h->vars['submitted_data']);

วิธีตรวจสอบปัญหาในข้อมูลอนุกรมในอนาคต

  findSerializeError ( $data1 ) ;

เอาต์พุต

Diffrence 9 != 7
    -> ORD number 57 != 55
    -> Line Number = 315
    -> Section Data1  = pen";s:5:"image";s:19:"C:fakepath100.jpg
    -> Section Data2  = pen";s:5:"image";s:17:"C:fakepath100.jpg
                                            ^------- The Error (Element Length)

findSerializeError ฟังก์ชัน

function findSerializeError($data1) {
    echo "<pre>";
    $data2 = preg_replace ( '!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'",$data1 );
    $max = (strlen ( $data1 ) > strlen ( $data2 )) ? strlen ( $data1 ) : strlen ( $data2 );

    echo $data1 . PHP_EOL;
    echo $data2 . PHP_EOL;

    for($i = 0; $i < $max; $i ++) {

        if (@$data1 {$i} !== @$data2 {$i}) {

            echo "Diffrence ", @$data1 {$i}, " != ", @$data2 {$i}, PHP_EOL;
            echo "\t-> ORD number ", ord ( @$data1 {$i} ), " != ", ord ( @$data2 {$i} ), PHP_EOL;
            echo "\t-> Line Number = $i" . PHP_EOL;

            $start = ($i - 20);
            $start = ($start < 0) ? 0 : $start;
            $length = 40;

            $point = $max - $i;
            if ($point < 20) {
                $rlength = 1;
                $rpoint = - $point;
            } else {
                $rpoint = $length - 20;
                $rlength = 1;
            }

            echo "\t-> Section Data1  = ", substr_replace ( substr ( $data1, $start, $length ), "<b style=\"color:green\">{$data1 {$i}}</b>", $rpoint, $rlength ), PHP_EOL;
            echo "\t-> Section Data2  = ", substr_replace ( substr ( $data2, $start, $length ), "<b style=\"color:red\">{$data2 {$i}}</b>", $rpoint, $rlength ), PHP_EOL;
        }

    }

}

วิธีที่ดีกว่าในการบันทึกลงในฐานข้อมูล

$toDatabse = base64_encode(serialize($data));  // Save to database
$fromDatabase = unserialize(base64_decode($data)); //Getting Save Format 

1
บาบาฉันใช้findSerializeErrorฟังก์ชันที่ยอดเยี่ยมของคุณและพบข้อผิดพลาดมากมาย โปรดดูที่หัวข้อของฉัน
Max Koretskyi

1
ใช้base64กับบทความก่อนที่จะเพิ่มลงในฐานข้อมูล ... มันจะรักษาอักขระว่าง
Baba

1
นั่นไม่ใช่วิธีที่ดีกว่าในการบันทึกลงในฐานข้อมูล เว้นแต่คุณต้องการละเลยวัตถุประสงค์ของฐานข้อมูลโดยสิ้นเชิง คุณจะทำการค้นหาในค่าที่เข้ารหัสได้อย่างไร? ไม่ต้องพูดถึงการขยายตัวฮึ การเข้ารหัสที่เหมาะสมคือคำตอบที่เหมาะสม
Deji

4
หากใช้ PHP 5.5 โปรดดูที่คำตอบ @ r00tAcc3ss! stackoverflow.com/a/21389439/1003020
Vinicius Garcia

6
หากคุณได้รับข้อผิดพลาดนี้ "preg_replace (): ไม่รองรับตัวปรับแต่ง / e อีกต่อไปให้ใช้ preg_replace_callback แทน" ใน php7 - คำตอบนี้ใช้งานได้stackoverflow.com/a/21389439/2011434
BenB

84

ฉันไม่มีชื่อเสียงมากพอที่จะแสดงความคิดเห็นดังนั้นฉันหวังว่าจะมีคนเห็นสิ่งนี้โดยใช้คำตอบที่ "ถูกต้อง" ข้างต้น:

เนื่องจาก php 5.5 the / e modifier ใน preg_replace () ถูกเลิกใช้งานโดยสิ้นเชิงและ preg_match ด้านบนจะผิดพลาด เอกสารประกอบ php แนะนำให้ใช้ preg_match_callback แทน

โปรดค้นหาวิธีแก้ไขปัญหาต่อไปนี้เป็นทางเลือกนอกเหนือจาก preg_match ที่เสนอข้างต้น

$fixed_data = preg_replace_callback ( '!s:(\d+):"(.*?)";!', function($match) {      
    return ($match[1] == strlen($match[2])) ? $match[0] : 's:' . strlen($match[2]) . ':"' . $match[2] . '";';
},$bad_data );

3
นี่เป็นคำตอบเดียวในหน้าเว็บที่ทำให้กลุ่มการจับภาพแรกใช้งานได้ดี ในขณะที่การเขียนโปรแกรมที่สมเหตุสมผลเพื่อทำการแทนที่เฉพาะในกรณีที่จำนวนไบต์ผิดจริงโซลูชันนี้จะไม่แคชstrlen()และทำให้การเรียกใช้ฟังก์ชันซ้ำซ้อน โดยส่วนตัวแล้วฉันพบว่าการเพิ่มเงื่อนไขแบบอินไลน์นั้นดูละเอียดเกินไป แต่ตัวอย่างข้อมูลนี้ทำสิ่งที่ดีด้วยเหตุผลที่ดี
mickmackusa

4
มันใช้ได้ผลกับฉันด้วย regex ต่อไปนี้'!s:(\d+):"(.*?)";!s'(โดยมีการลงท้ายด้วยเพื่อขึ้นบรรทัดใหม่ด้วย) ขอบคุณความคิดเห็นของ adilbo ด้านล่าง
ArnoHolo

13

มีอีกสาเหตุหนึ่งที่unserialize()ล้มเหลวเนื่องจากคุณใส่ข้อมูลซีเรียลลงในฐานข้อมูลอย่างไม่ถูกต้องโปรดดูคำอธิบายอย่างเป็นทางการที่นี่ เนื่องจากserialize()ส่งคืนข้อมูลไบนารีและตัวแปร php ไม่สนใจวิธีการเข้ารหัสดังนั้นการใส่ลงใน TEXT VARCHAR () จะทำให้เกิดข้อผิดพลาดนี้

วิธีแก้ไข: จัดเก็บข้อมูลแบบอนุกรมลงใน BLOB ในตารางของคุณ


สิ่งนี้ช่วยแก้ปัญหาของฉันใน Laravel 5 ฉันเปลี่ยนนิยามคอลัมน์จาก string () เป็นไบนารี ()
WNRosenberg

คำถามของ OP ดูเหมือนจะไม่มีปัญหาประเภทคอลัมน์ mysql มันเป็นความเสียหายที่เห็นได้ชัดจากการคำนวณไบต์ที่ไม่ถูกต้องเกี่ยวกับimageความคุ้มค่า คำตอบของคุณไม่เกี่ยวข้องกับคำถามเฉพาะของ OP คุณอาจต้องการย้ายคำแนะนำของคุณไปที่: stackoverflow.com/q/5544749/2943403
mickmackusa

11

แก้ไขด่วน

การคำนวณความยาวขององค์ประกอบใหม่ในอาร์เรย์แบบอนุกรม - แต่อย่าใช้ (preg_replace) ซึ่งเลิกใช้แล้ว - ควรใช้ preg_replace_callback ดีกว่า:

แก้ไข: เวอร์ชันใหม่ไม่ใช่แค่ความยาวที่ผิด แต่ยังแก้ไขการแบ่งบรรทัดและนับอักขระที่ถูกต้องด้วย aczent (ขอบคุณmickmackusa )

// New Version
$data = preg_replace_callback('!s:\d+:"(.*?)";!s', function($m) { return "s:" . strlen($m[1]) . ':"'.$m[1].'";'; }, $data);

1
วิธีแก้ไขที่ไม่ถูกต้องนี้มี 8 upvotes อย่างไร? ฉันคิดว่าจะมีกี่คนที่คัดลอกโดยไม่เจตนามาวางซับไลน์นี้ [หน้าเศร้า] นี่คือข้อพิสูจน์ของสองวิธีที่ตัวอย่างข้อมูลนี้จะล้มเหลว: 3v4l.org/Cf6Nh ดูรูปแบบการปรับปรุงและการแทนที่แบบกำหนดเองของฉัน @ stackoverflow.com/a/55074706/2943403
mickmackusa

1
โซลูชันของฉันไม่อยู่ที่หน้าอื่นอีกต่อไปเนื่องจากเป็นโซลูชันที่ไม่ถูกต้องสำหรับสตริงซีเรียลไลซ์ที่เสียหายอย่างร้ายแรง ฉันได้เพิ่มตัวอย่างข้อมูลลงในหน้านี้พร้อมทั้งให้คำอธิบายและการสาธิต stackoverflow.com/a/55566407/2943403
mickmackusa

5

ข้อผิดพลาดนี้เกิดขึ้นเนื่องจากชุดอักขระของคุณไม่ถูกต้อง

ตั้งค่าชุดอักขระหลังจากแท็กเปิด:

header('Content-Type: text/html; charset=utf-8');

และตั้งค่า charset utf8 ในฐานข้อมูลของคุณ:

mysql_query("SET NAMES 'utf8'");

ฉันไม่เห็นข้อบ่งชี้ใด ๆ ในคำถามที่โพสต์ของ OP เพื่อชี้ให้เห็นว่าการทุจริตเกิดจากชุดอักขระ ไม่มีค่าธรรมเนียมในการปกป้องการอ้างสิทธิ์ของคุณ แต่เท่าที่ฉันทราบมีคนอัปเดตimageค่าด้วยตนเองและไม่สามารถอัปเดตจำนวนไบต์ เว้นแต่จะแจ้งเป็นอย่างอื่นฉันต้องถือว่าคำตอบนี้ไม่ถูกต้องสำหรับคำถามของ OP
mickmackusa

4

คุณสามารถแก้ไขสตริงซีเรียลไลซ์ที่เสียหายได้โดยใช้ฟังก์ชันต่อไปนี้ด้วยการจัดการอักขระแบบหลายไบต์

function repairSerializeString($value)
{

    $regex = '/s:([0-9]+):"(.*?)"/';

    return preg_replace_callback(
        $regex, function($match) {
            return "s:".mb_strlen($match[2]).":\"".$match[2]."\""; 
        },
        $value
    );
}

หลักของสิ่งที่คำตอบนี้แนะนำนั้นผิดเพียงเล็กน้อยและอาจสร้างความเสียหายให้กับสตริงที่ต่อเนื่องกันอย่างสมบูรณ์แบบ ไม่ควรใช้ข้อมูลโค้ดนี้ / เชื่อถือได้
mickmackusa

@mickmackusa ฉันไม่เข้าใจคุณช่วยแนะนำวิธีที่ดีที่สุดได้ไหม หรือแนะนำแก้ไขคำตอบนี้ ..
Rajesh Meniya

ฉันได้ให้วิธีแก้ไขที่ถูกต้องที่นี่: stackoverflow.com/a/55566407/2943403และอธิบายว่าmb_strlen()ไม่เหมาะสมเนื่องจากserialize()เก็บจำนวนไบต์ไม่ใช่จำนวนอักขระ การแก้ไขคำตอบของคุณให้ถูกต้องจะเป็นการสร้างคำแนะนำที่ซ้ำซ้อนบนหน้าเว็บเท่านั้น
mickmackusa

4
$badData = 'a:2:{i:0;s:16:"as:45:"d";
Is \n";i:1;s:19:"as:45:"d";
Is \r\n";}';

คุณไม่สามารถแก้ไขสตริงซีเรียลไลซ์ที่เสียหายโดยใช้ regexes ที่เสนอ:

$data = preg_replace('!s:(\d+):"(.*?)";!e', "'s:'.strlen('$2').':\"$2\";'", $badData);
var_dump(@unserialize($data)); // Output: bool(false)

// or

$data = preg_replace_callback(
    '/s:(\d+):"(.*?)";/',
    function($m){
        return 's:' . strlen($m[2]) . ':"' . $m[2] . '";';
    },
    $badData
);
var_dump(@unserialize($data)); // Output: bool(false)

คุณสามารถแก้ไขสตริงซีเรียลไลซ์ที่เสียหายโดยใช้ regex ต่อไปนี้:

$data = preg_replace_callback(
    '/(?<=^|\{|;)s:(\d+):\"(.*?)\";(?=[asbdiO]\:\d|N;|\}|$)/s',
    function($m){
        return 's:' . strlen($m[2]) . ':"' . $m[2] . '";';
    },
    $badData
);

var_dump(@unserialize($data));

เอาต์พุต

array(2) {
  [0] =>
  string(17) "as:45:"d";
Is \n"
  [1] =>
  string(19) "as:45:"d";
Is \r\n"
}

หรือ

array(2) {
  [0] =>
  string(16) "as:45:"d";
Is \n"
  [1] =>
  string(18) "as:45:"d";
Is \r\n"
}

1
@mickmackusa ขอบคุณ แก้ไขปัญหาเกี่ยวกับการเข้ารหัสหลายไบต์
ДаниилПутилин

4
public function unserializeKeySkills($string) {
    $output = array();
    $string = trim(preg_replace('/\s\s+/', ' ',$string));
    $string = preg_replace_callback('!s:(\d+):"(.*?)";!', function($m) { return 's:'.strlen($m[2]).':"'.$m[2].'";'; }, utf8_encode( trim(preg_replace('/\s\s+/', ' ',$string)) ));
    try {
        $output =  unserialize($string);
    } catch (\Exception $e) {
        \Log::error("unserialize Data : " .print_r($string,true));
    }
    return $output;
}

php unserialize
Pardeep Goyal

โซลูชันนี้ไม่เหมาะสำหรับหลายกรณี ทำให้สันนิษฐานว่าทุกคนจะต้องการเปลี่ยนค่าในสตริงที่ทำให้เป็นอนุกรมเพื่อแปลงอักขระช่องว่าง 2 ตัวขึ้นไปเป็นช่องว่างตามตัวอักษรและtrim()ทุกสตริงย่อยที่ตรงกัน จุดนั้นเพียงอย่างเดียวทำให้ไม่สามารถแนะนำโซลูชันนี้ได้ นอกจากนี้มันจะทำให้หายใจไม่ออกในอักขระขึ้นบรรทัดใหม่และจับจำนวนไบต์ที่มีอยู่ก่อนหน้านี้โดยไม่จำเป็นซึ่งจะถูกเขียนทับอย่างไรก็ตาม สุดท้ายนี้เป็น "คำตอบแบบใช้รหัสเท่านั้น" และคำตอบประเภทนี้มีมูลค่าต่ำเนื่องจากให้ความรู้ / เสริมศักยภาพแก่นักวิจัยในอนาคตเพียงเล็กน้อย
mickmackusa

2

เอกสารอย่างเป็นทางการกล่าวว่าควรจะกลับ E_NOTICE เท็จและชุด

แต่เนื่องจากคุณได้รับข้อผิดพลาดการรายงานข้อผิดพลาดจึงถูกตั้งค่าให้เรียกใช้โดย E_NOTICE

นี่คือการแก้ไขเพื่อให้คุณตรวจพบเท็จที่ส่งคืนโดย unserialize

$old_err=error_reporting(); 
error_reporting($old_err & ~E_NOTICE);
$object = unserialize($serialized_data);
error_reporting($old_err);

คุณอาจต้องการพิจารณาใช้การเข้ารหัส / ถอดรหัส base64

$string=base64_encode(serialize($obj));
unserialize(base64_decode($string));

base64_encodeทำเคล็ดลับให้ฉัน ในกรณีของฉันเรากำลังส่งserializeข้อมูล d ผ่านบรรทัดคำสั่งและดูเหมือนว่าอักขระแปลก ๆ บางตัวกำลังป้องกันไม่ให้ทำงานอย่างถูกต้อง
quickshiftin

base64_encode()ไม่ใช่คำตอบสำหรับคำถามที่ OP ถาม คำถาม / ปัญหาของ OP เกี่ยวข้องเฉพาะกับข้อเท็จจริงที่ว่า (น่าจะเป็นการแทนที่สตริงย่อยที่ไม่เหมาะสมใน "องค์ประกอบอาร์เรย์สุดท้าย" ของสตริงที่ทำให้เป็นอนุกรม) มีจำนวนไบต์ที่ไม่ถูกต้องในสตริงที่ทำให้เป็นอนุกรม โปรดโพสต์เฉพาะคำตอบที่ตรงกับคำถามที่ถามเท่านั้น
mickmackusa

2

ความเสียหายในคำถามนี้แยกเป็นสตริงย่อยเดียวที่ส่วนท้ายของสตริงที่ทำให้เป็นอนุกรมด้วยอาจถูกแทนที่ด้วยตนเองโดยผู้ที่ต้องการอัปเดตimageชื่อไฟล์อย่างขี้เกียจ ความจริงนี้จะปรากฏในลิงค์สาธิตของฉันด้านล่างโดยใช้ข้อมูลที่โพสต์ของ OP - กล่าวโดยย่อคือC:fakepath100.jpgไม่มีความยาว1917มันควรจะเป็น

เนื่องจากความเสียหายของสตริงที่ทำให้เป็นอนุกรมถูก จำกัด ไว้ที่จำนวนไบต์ / จำนวนอักขระที่ไม่ถูกต้องสิ่งต่อไปนี้จะทำงานได้ดีในการอัปเดตสตริงที่เสียหายด้วยค่าจำนวนไบต์ที่ถูกต้อง

การแทนที่ตาม regex ต่อไปนี้จะมีผลในการแก้ไขจำนวนไบต์เท่านั้นไม่มีอะไรเพิ่มเติม

ดูเหมือนว่าโพสต์ก่อนหน้านี้หลาย ๆ โพสต์เป็นเพียงการคัดลอกรูปแบบนิพจน์ทั่วไปจากบุคคลอื่น ไม่มีเหตุผลที่จะจับหมายเลขจำนวนไบต์ที่อาจเสียหายได้หากจะไม่ใช้ในการแทนที่ นอกจากนี้การเพิ่มsตัวปรับเปลี่ยนรูปแบบเป็นการรวมที่สมเหตุสมผลในกรณีที่ค่าสตริงมีการขึ้นบรรทัดใหม่ / การส่งคืนบรรทัด

* สำหรับผู้ที่ไม่ทราบถึงการรักษาอักขระหลายไบต์ด้วยการทำให้เป็นอนุกรมคุณต้องไม่ใช้mb_strlen()ในการเรียกกลับแบบกำหนดเองเนื่องจากเป็นการนับไบต์ที่เก็บไว้ไม่ใช่จำนวนอักขระดูผลลัพธ์ของฉัน ...

รหัส: (การสาธิตด้วยข้อมูลของ OP ) (การสาธิตด้วยข้อมูลตัวอย่างโดยพลการ ) (การสาธิตที่มีการแทนที่เงื่อนไข )

$corrupted = <<<STRING
a:4:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1
newline2";i:3;s:6:"garçon";}
STRING;

$repaired = preg_replace_callback(
        '/s:\d+:"(.*?)";/s',
        //  ^^^- matched/consumed but not captured because not used in replacement
        function ($m) {
            return "s:" . strlen($m[1]) . ":\"{$m[1]}\";";
        },
        $corrupted
    );

echo $corrupted , "\n" , $repaired;
echo "\n---\n";
var_export(unserialize($repaired));

เอาท์พุต:

a:4:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1
Newline2";i:3;s:6:"garçon";}
a:4:{i:0;s:5:"three";i:1;s:4:"five";i:2;s:17:"newline1
Newline2";i:3;s:7:"garçon";}
---
array (
  0 => 'three',
  1 => 'five',
  2 => 'newline1
Newline2',
  3 => 'garçon',
)

ขาเดียวลงโพรงกระต่าย ...ข้างต้นใช้งานได้ดีแม้ว่าอัญประกาศคู่จะเกิดขึ้นในค่าสตริง แต่ถ้าค่าสตริงมี";หรือมีค่าอื่น ๆ ในการเชื่อมต่อแบบลิงคุณจะต้องดำเนินการต่อไปอีกเล็กน้อยและใช้ "lookarounds" รูปแบบใหม่ของฉัน

ตรวจสอบว่าผู้นำsคือ:

  • จุดเริ่มต้นของสตริงอินพุตทั้งหมดหรือ
  • นำหน้าด้วย ;

และตรวจสอบว่า";คือ:

  • ที่ส่วนท้ายของสตริงอินพุตทั้งหมดหรือ
  • ติดตามโดย }หรือ
  • ตามด้วยการประกาศสตริงหรือจำนวนเต็มs:หรือi:

ฉันไม่ได้ทดสอบความเป็นไปได้แต่ละอย่าง ในความเป็นจริงฉันค่อนข้างไม่คุ้นเคยกับความเป็นไปได้ทั้งหมดในสตริงที่ทำให้เป็นอนุกรมเพราะฉันไม่เคยเลือกที่จะทำงานกับข้อมูลที่เป็นอนุกรม - มักจะใช้ json ในแอปพลิเคชันสมัยใหม่ หากมีอักขระนำหน้าหรือต่อท้ายที่เป็นไปได้เพิ่มเติมโปรดแสดงความคิดเห็นแล้วฉันจะขยายการค้นหา

ตัวอย่างข้อมูลเพิ่มเติม: (การสาธิต )

$corrupted_byte_counts = <<<STRING
a:12:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1
newline2";i:3;s:6:"garçon";i:4;s:111:"double " quote \"escaped";i:5;s:1:"a,comma";i:6;s:9:"a:colon";i:7;s:0:"single 'quote";i:8;s:999:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:1:"monkey";wrenching doublequote-semicolon";s:3:"s:";s:9:"val s: val";}
STRING;

$repaired = preg_replace_callback(
        '/(?<=^|;)s:\d+:"(.*?)";(?=$|}|[si]:)/s',
        //^^^^^^^^--------------^^^^^^^^^^^^^-- some additional validation
        function ($m) {
            return 's:' . strlen($m[1]) . ":\"{$m[1]}\";";
        },
        $corrupted_byte_counts
    );

echo "corrupted serialized array:\n$corrupted_byte_counts";
echo "\n---\n";
echo "repaired serialized array:\n$repaired";
echo "\n---\n";
print_r(unserialize($repaired));

เอาท์พุต:

corrupted serialized array:
a:12:{i:0;s:3:"three";i:1;s:5:"five";i:2;s:2:"newline1
newline2";i:3;s:6:"garçon";i:4;s:111:"double " quote \"escaped";i:5;s:1:"a,comma";i:6;s:9:"a:colon";i:7;s:0:"single 'quote";i:8;s:999:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:1:"monkey";wrenching doublequote-semicolon";s:3:"s:";s:9:"val s: val";}
---
repaired serialized array:
a:12:{i:0;s:5:"three";i:1;s:4:"five";i:2;s:17:"newline1
newline2";i:3;s:7:"garçon";i:4;s:24:"double " quote \"escaped";i:5;s:7:"a,comma";i:6;s:7:"a:colon";i:7;s:13:"single 'quote";i:8;s:10:"semi;colon";s:5:"assoc";s:3:"yes";i:9;s:39:"monkey";wrenching doublequote-semicolon";s:2:"s:";s:10:"val s: val";}
---
Array
(
    [0] => three
    [1] => five
    [2] => newline1
newline2
    [3] => garçon
    [4] => double " quote \"escaped
    [5] => a,comma
    [6] => a:colon
    [7] => single 'quote
    [8] => semi;colon
    [assoc] => yes
    [9] => monkey";wrenching doublequote-semicolon
    [s:] => val s: val
)

1

คุณจะต้องเปลี่ยนประเภทการจัดเรียงเป็นutf8_unicode_ciและปัญหาจะได้รับการแก้ไข


คุณเชื่อว่าอักขระเฉพาะใดในข้อมูลตัวอย่างของ OP จะได้รับการแก้ไขโดยเปลี่ยนการเปรียบเทียบเป็นutf8_unicode_ci? ฉันมีข้อสงสัยเกี่ยวกับเรื่องนี้
mickmackusa

สิ่งนี้ใช้งานได้จริงสำหรับฉัน (นอกเหนือจากคำตอบของ r00tAcc3ss) คำใด ๆ จากคนที่ชี้แจงว่าทำไม? ในพื้นหลังฉันใช้ข้อมูลจากการเรียก API ไปยังแอปพลิเคชัน ResourceSpace เก็บไว้ในอาร์เรย์ทำให้เป็นอนุกรมและบันทึก ข้อมูลอนุกรมกำลังมีปัญหาในการบันทึกดังนั้นฉันต้องเข้ารหัสด้วยตนเองเป็น UTF-8 ฉันกำลังเล่นกับการเรียงและชุดอักขระใน DB และในที่สุดก็เหลือเพียงการเปรียบเทียบ utf8_general_ci เมื่อฉันเปลี่ยนเป็น utf8_unicode_ci มันก็ใช้งานได้ .
Roberto Becerra

1

ในกรณีของฉันฉันกำลังจัดเก็บข้อมูลซีเรียลในBLOBฟิลด์ MySQL DB ซึ่งดูเหมือนว่าจะไม่ใหญ่พอที่จะมีค่าทั้งหมดและถูกตัดทอน เห็นได้ชัดว่าสตริงดังกล่าวไม่สามารถยกเลิกการเข้ารหัสได้
เมื่อแปลงเขตข้อมูลMEDIUMBLOBนั้นแล้วปัญหาก็หายไป นอกจากนี้ยังอาจมีความจำเป็นที่จะเปลี่ยนในตัวเลือกของตารางROW_FORMATไปหรือ DYNAMICCOMPRESSED


ฉันถึง - แม้ว่าของฉันจะเป็นTEXTสนามและถูกตัดทอนที่ 65kb
Antony

คำถามนี้ไม่ได้รับผลกระทบจากการตัดทอน คำถาม / ปัญหาของ OP เกี่ยวข้องเฉพาะกับข้อเท็จจริงที่ว่า (น่าจะเป็นการแทนที่สตริงย่อยที่ไม่เหมาะสมใน "องค์ประกอบอาร์เรย์สุดท้าย" ของสตริงที่ทำให้เป็นอนุกรม) มีจำนวนไบต์ที่ไม่ถูกต้องในสตริงที่ทำให้เป็นอนุกรม โปรดโพสต์เฉพาะคำตอบที่ตรงกับคำถามที่ถามเท่านั้น
mickmackusa

1

หลังจากลองทำบางสิ่งในหน้านี้แล้วไม่ประสบความสำเร็จฉันได้ดูในแหล่งที่มาของหน้าและตั้งข้อสังเกตว่าเครื่องหมายคำพูดทั้งหมดในสตริงที่ทำให้เป็นอนุกรมถูกแทนที่ด้วย html-entities การถอดรหัสเอนทิตีเหล่านี้ช่วยหลีกเลี่ยงอาการปวดหัวได้มาก:

$myVar = html_entity_decode($myVar);

คำถามนี้ไม่ได้รับผลจากเอนทิตีที่เข้ารหัส html ในสตริงที่ทำให้เป็นอนุกรม คำถาม / ปัญหาของ OP เกี่ยวข้องเฉพาะกับข้อเท็จจริงที่ว่า (น่าจะเป็นการแทนที่สตริงย่อยที่ไม่เหมาะสมใน "องค์ประกอบอาร์เรย์สุดท้าย" ของสตริงที่ทำให้เป็นอนุกรม) มีจำนวนไบต์ที่ไม่ถูกต้องในสตริงที่ทำให้เป็นอนุกรม โปรดโพสต์เฉพาะคำตอบที่ตรงกับคำถามที่ถามเท่านั้น
mickmackusa

@mickmackusa คำถามนี้เกือบ 7 ปีและคำตอบของฉัน ~ 1,5 อย่างไรก็ตามดีที่คุณมีส่วนร่วมมาก!
เดวิด

ฉันชอบหน้า SO ทั้งเด็กและผู้ใหญ่ ฉันกำลังมองหานักวิจัยที่ไม่ทราบความแตกต่างระหว่างคำตอบที่ดีกับคำตอบที่ไม่ดีนัก หน้านี้โชคร้ายเต็มไปด้วยคำแนะนำนอกประเด็น
mickmackusa

เยี่ยมมาก! มีการควบคุมและการลงคะแนนที่เหมาะสมอยู่แล้ว แต่ฉันไม่มีเหตุผลที่จะหยุดคุณ ;-)
David

โอ้ไม่ได้ดู มีการโหวตคำตอบที่ควรโหวตลง คนจำนวนมากเกินไปไม่สามารถแยกความแตกต่างได้ ในหน้านี้การนับคะแนนไม่ได้บ่งบอกถึงคุณภาพ / ความเหมาะสม ฉันจะไม่เสียเวลาในการลงคะแนนเพราะการโหวตลดคะแนนของฉันจะไม่ทำให้ผลเสียในการนับ สิ่งที่ดีที่สุดที่ฉันทำได้คือแสดงความคิดเห็นเพื่ออธิบายว่าอะไรดี / ไม่ดี / น่าเกลียด
mickmackusa

1

นี่คือเครื่องมือออนไลน์สำหรับแก้ไขสตริงซีเรียลที่เสียหาย

ฉันต้องการเพิ่มว่าสิ่งนี้ส่วนใหญ่เกิดขึ้นเนื่องจากการค้นหาและแทนที่ที่ทำบนฐานข้อมูลและข้อมูลการทำให้เป็นอนุกรม ( โดยเฉพาะไฟล์key length ) ไม่ได้รับการปรับปรุงตามแทนที่และนั่นเป็นสาเหตุที่ทำให้ "การทุจริต"

อย่างไรก็ตามเครื่องมือข้างต้นใช้ตรรกะต่อไปนี้เพื่อแก้ไขข้อมูลการทำให้เป็นอนุกรม ( คัดลอกจากที่นี่ )

function error_correction_serialise($string){
    // at first, check if "fixing" is really needed at all. After that, security checkup.
    if ( unserialize($string) !== true &&  preg_match('/^[aOs]:/', $string) ) {
         $string = preg_replace_callback( '/s\:(\d+)\:\"(.*?)\";/s',    function($matches){return 's:'.strlen($matches[2]).':"'.$matches[2].'";'; },   $string );
    }
    return $string;
} 

0

อีกสาเหตุหนึ่งของปัญหานี้อาจเป็นประเภทคอลัมน์ของตารางเซสชัน "เพย์โหลด" หากคุณมีข้อมูลจำนวนมากในเซสชันคอลัมน์ข้อความก็ไม่เพียงพอ คุณจะต้องมี MEDIUMTEXT หรือแม้แต่ LONGTEXT


คำถามนี้ไม่ได้รับผลกระทบจากการตัดทอน คำถาม / ปัญหาของ OP เกี่ยวข้องเฉพาะกับข้อเท็จจริงที่ว่า (น่าจะเป็นการแทนที่สตริงย่อยที่ไม่เหมาะสมใน "องค์ประกอบอาร์เรย์สุดท้าย" ของสตริงที่ทำให้เป็นอนุกรม) มีจำนวนไบต์ที่ไม่ถูกต้องในสตริงที่ทำให้เป็นอนุกรม โปรดโพสต์เฉพาะคำตอบที่ตรงกับคำถามที่ถามเท่านั้น
mickmackusa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.