Cần giúp đỡ về phân tích pdf file
Chào mọi người,
Em đang có một vướng mắc mong muốn được mọi người giúp đỡ. Em có 2 files PDF giống hệt nhau từ số trang cho tới kí tự (đã check qua DiffPDF). Thế nhưng 2 files này lại có kích thước khác nhau ~300KB.
Mình đã check thông qua pdfid và pdf-parser thì thấy có một file stream lớn hơn một chút. Output của cả 2 file như sau:
<File nhỏ hơn>
PDF Header: %PDF-1.4
obj 4388
endobj 4388
stream 1027
endstream 1027
xref 2
trailer 2
startxref 2
/Page 802
/Encrypt 0
/ObjStm 0
/JS 0
/JavaScript 0
/AA 0
/OpenAction 1
/AcroForm 1
/JBIG2Decode 0
/RichMedia 0
/Launch 0
/EmbeddedFile 0
/XFA 0
/Colors > 2^24 0
%%EOF 2
After last %%EOF 0
D:20120215084529-08'00 /CreationDate
D:20120215084529-08'00 /ModDate
Total entropy: 7.970620 ( 9904822 bytes)
Entropy inside streams: 7.998755 ( 9208625 bytes)
Entropy outside streams: 5.157605 ( 696197 bytes)
<File lớn hơn>
PDF Header: %PDF-1.4
obj 4881
endobj 4881
stream 1148
endstream 1148
xref 3
trailer 3
startxref 3
/Page 805
/Encrypt 0
/ObjStm 0
/JS 0
/JavaScript 0
/AA 0
/OpenAction 1
/AcroForm 1
/JBIG2Decode 0
/RichMedia 0
/Launch 0
/EmbeddedFile 0
/XFA 0
/Colors > 2^24 0
%%EOF 3
After last %%EOF 0
D:20120215084529-08'00 /CreationDate
D:20120215084529-08'00 /ModDate
D:20120215084529-08'00 /CreationDate
D:20160516004836+07'00 /ModDate
Total entropy: 7.934682 ( 10226838 bytes)
Entropy inside streams: 7.980747 ( 9474828 bytes)
Entropy outside streams: 5.150621 ( 752010 bytes)
Nhìn qua 2 files thì đều không thấy có Java execution nên em không nghĩ là có tiến trình gì đó đang tự động chạy. Nhưng em muốn hiểu vì sao mà 2 files này lại có kích thước khác nhau. Em chỉ mới tập phân tích nên muốn hiểu cặn kẽ một chút.
Em cũng tìm hiểu qua về stream trong cấu trúc pdf nhưng cả 2 files này đều được tạo ra từ cùng 1 version, cùng số lượng kí tự nên em không thấy có lý do gì để stream 2 files khác nhau.
Mong các anh/chị giải đáp giúp em với ạ. Em cảm ơn trước
Em đang có một vướng mắc mong muốn được mọi người giúp đỡ. Em có 2 files PDF giống hệt nhau từ số trang cho tới kí tự (đã check qua DiffPDF). Thế nhưng 2 files này lại có kích thước khác nhau ~300KB.
Mình đã check thông qua pdfid và pdf-parser thì thấy có một file stream lớn hơn một chút. Output của cả 2 file như sau:
<File nhỏ hơn>
PDF Header: %PDF-1.4
obj 4388
endobj 4388
stream 1027
endstream 1027
xref 2
trailer 2
startxref 2
/Page 802
/Encrypt 0
/ObjStm 0
/JS 0
/JavaScript 0
/AA 0
/OpenAction 1
/AcroForm 1
/JBIG2Decode 0
/RichMedia 0
/Launch 0
/EmbeddedFile 0
/XFA 0
/Colors > 2^24 0
%%EOF 2
After last %%EOF 0
D:20120215084529-08'00 /CreationDate
D:20120215084529-08'00 /ModDate
Total entropy: 7.970620 ( 9904822 bytes)
Entropy inside streams: 7.998755 ( 9208625 bytes)
Entropy outside streams: 5.157605 ( 696197 bytes)
<File lớn hơn>
PDF Header: %PDF-1.4
obj 4881
endobj 4881
stream 1148
endstream 1148
xref 3
trailer 3
startxref 3
/Page 805
/Encrypt 0
/ObjStm 0
/JS 0
/JavaScript 0
/AA 0
/OpenAction 1
/AcroForm 1
/JBIG2Decode 0
/RichMedia 0
/Launch 0
/EmbeddedFile 0
/XFA 0
/Colors > 2^24 0
%%EOF 3
After last %%EOF 0
D:20120215084529-08'00 /CreationDate
D:20120215084529-08'00 /ModDate
D:20120215084529-08'00 /CreationDate
D:20160516004836+07'00 /ModDate
Total entropy: 7.934682 ( 10226838 bytes)
Entropy inside streams: 7.980747 ( 9474828 bytes)
Entropy outside streams: 5.150621 ( 752010 bytes)
Nhìn qua 2 files thì đều không thấy có Java execution nên em không nghĩ là có tiến trình gì đó đang tự động chạy. Nhưng em muốn hiểu vì sao mà 2 files này lại có kích thước khác nhau. Em chỉ mới tập phân tích nên muốn hiểu cặn kẽ một chút.
Em cũng tìm hiểu qua về stream trong cấu trúc pdf nhưng cả 2 files này đều được tạo ra từ cùng 1 version, cùng số lượng kí tự nên em không thấy có lý do gì để stream 2 files khác nhau.
Mong các anh/chị giải đáp giúp em với ạ. Em cảm ơn trước