Ginny Hà
VIP Members
-
04/06/2014
-
88
-
689 bài viết
Cuộc gọi video có thể tiết lộ nội dung bạn đang gõ
Hình thức tấn công mới suy đoán việc gõ phím của người dùng trong cuộc gọi video thông qua so sánh các chuyển động cơ thể quan sát được.
Các nhà nghiên cứu cho biết, hình thức tấn công có thể mở rộng với nguồn dữ liệu video phát trực tuyến trên YouTube và Twitch, miễn là trường nhìn của webcam ghi lại các chuyển động của mục tiêu.
“Với sự phổ biến gần đây của các thiết bị hỗ trợ quay video như smartphone, máy tính bảng, laptop… nguy cơ rò rỉ thông tin qua các kênh trực quan đã tăng lên. Mục tiêu của kẻ xấu là thông qua các chuyển động của phần trên cơ thể quan sát được trong các khung hình, suy ra nội dung riêng tư mà nạn nhân đã nhập”, các nhà nghiên cứu cho biết.
Việc đoán nội dung được thực hiện qua 3 giai đoạn:
- Xử lý xóa nền, chuyển đổi video sang thước xám (grayscale), sau đó phân đoạn vùng cánh tay trái và phải theo khuôn mặt của nạn nhân bằng mô hình FaceBoxes.
- Phát hiện thao tác gõ phím, truy xuất các khung cánh tay được phân đoạn để tính toán chỉ số tương đồng với chuyển động của cơ thể, xác định các khung hình tiềm năng có các lần nhấn phím…
- Từ các dữ liệu thu được suy đoán các từ cụ thể thông qua sử dụng thuật toán.
Các nhà nghiên cứu cho biết họ đã thử nghiệm với nhóm 20 người (9 nữ và 11 nam), sử dụng kết hợp các phương pháp gõ “mổ cò” và gõ 10 ngón, trong các bối cảnh khác nhau, sử dụng các loại webcam, quần áo (đặc biệt là thiết kế tay áo), bàn phím và cả với các phần mềm gọi điện video khác nhau như Zoom, Hangouts và Skype.
Các phát hiện cho thấy những trường hợp “mổ cò”, mặc quần áo cộc tay, sử dụng webcam Logitech… sẽ dễ bị “đoán” hơn.
Các thử nghiệm được lặp lại một lần nữa với nhóm 10 người tham gia (3 nữ và 7 nam), bối cảnh thiết lập tại nhà. Kết quả, suy đoán thành công 91,1% tên người dùng, 95,6% địa chỉ email và 66,7% trang web mà người tham gia đã gõ. Tuy nhiên chỉ có 18,9% mật khẩu và 21,1% các từ tiếng Anh được những người này gõ ra.
"Một trong những lý do khiến độ chính xác của thử nghiệm tại nhà kém hơn thử nghiệm trong phòng lab là do việc sắp xếp thứ hạng của từ điển tham chiếu dựa trên tần suất sử dụng từ trong các câu tiếng Anh, không dựa trên các từ ngẫu nhiên do mọi người tạo ra", Sabra, Maiti và Jadliwala cho biết.
Các nhà nghiên cứu cho biết dữ liệu video có thể được kết hợp với dữ liệu âm thanh từ cuộc gọi để cải thiện hơn nữa khả năng phát hiện thao tác gõ phím.
Các nhà nghiên cứu nhấn mạnh: "Với tình hình thế giới hiện nay, các cuộc gọi video đã trở thành tiêu chuẩn mới cho cả giao tiếp từ xa mục đích cá nhân và công việc. Tuy nhiên, nếu người tham gia cuộc gọi video không cẩn trọng có thể để lộ thông tin cá nhân của mình cho người khác. Độ chính xác của suy luận thao tác gõ phím tương đối cao, do đó người dùng cần nhận thức và có biện pháp phòng vệ với các cuộc tấn công như vậy”.
Các nhà nghiên cứu cho biết, hình thức tấn công có thể mở rộng với nguồn dữ liệu video phát trực tuyến trên YouTube và Twitch, miễn là trường nhìn của webcam ghi lại các chuyển động của mục tiêu.
Việc đoán nội dung được thực hiện qua 3 giai đoạn:
- Xử lý xóa nền, chuyển đổi video sang thước xám (grayscale), sau đó phân đoạn vùng cánh tay trái và phải theo khuôn mặt của nạn nhân bằng mô hình FaceBoxes.
- Phát hiện thao tác gõ phím, truy xuất các khung cánh tay được phân đoạn để tính toán chỉ số tương đồng với chuyển động của cơ thể, xác định các khung hình tiềm năng có các lần nhấn phím…
- Từ các dữ liệu thu được suy đoán các từ cụ thể thông qua sử dụng thuật toán.
Các nhà nghiên cứu cho biết họ đã thử nghiệm với nhóm 20 người (9 nữ và 11 nam), sử dụng kết hợp các phương pháp gõ “mổ cò” và gõ 10 ngón, trong các bối cảnh khác nhau, sử dụng các loại webcam, quần áo (đặc biệt là thiết kế tay áo), bàn phím và cả với các phần mềm gọi điện video khác nhau như Zoom, Hangouts và Skype.
Các phát hiện cho thấy những trường hợp “mổ cò”, mặc quần áo cộc tay, sử dụng webcam Logitech… sẽ dễ bị “đoán” hơn.
Các thử nghiệm được lặp lại một lần nữa với nhóm 10 người tham gia (3 nữ và 7 nam), bối cảnh thiết lập tại nhà. Kết quả, suy đoán thành công 91,1% tên người dùng, 95,6% địa chỉ email và 66,7% trang web mà người tham gia đã gõ. Tuy nhiên chỉ có 18,9% mật khẩu và 21,1% các từ tiếng Anh được những người này gõ ra.
"Một trong những lý do khiến độ chính xác của thử nghiệm tại nhà kém hơn thử nghiệm trong phòng lab là do việc sắp xếp thứ hạng của từ điển tham chiếu dựa trên tần suất sử dụng từ trong các câu tiếng Anh, không dựa trên các từ ngẫu nhiên do mọi người tạo ra", Sabra, Maiti và Jadliwala cho biết.
Các nhà nghiên cứu cho biết dữ liệu video có thể được kết hợp với dữ liệu âm thanh từ cuộc gọi để cải thiện hơn nữa khả năng phát hiện thao tác gõ phím.
Các nhà nghiên cứu nhấn mạnh: "Với tình hình thế giới hiện nay, các cuộc gọi video đã trở thành tiêu chuẩn mới cho cả giao tiếp từ xa mục đích cá nhân và công việc. Tuy nhiên, nếu người tham gia cuộc gọi video không cẩn trọng có thể để lộ thông tin cá nhân của mình cho người khác. Độ chính xác của suy luận thao tác gõ phím tương đối cao, do đó người dùng cần nhận thức và có biện pháp phòng vệ với các cuộc tấn công như vậy”.
Theo The Hackers News