add unit test

kxz2002 · kxz2002 · commit 7c0d5c2834a8 · 2025-11-24T14:42:45.000+08:00
diff --git a/tests/input/test_ernie_vl_processor.py b/tests/input/test_ernie_vl_processor.py
@@ -1,7 +1,15 @@
 import unittest
 from unittest.mock import MagicMock, patch
 
+import numpy as np
+
+from fastdeploy.input.ernie4_5_tokenizer import Ernie4_5Tokenizer
 from fastdeploy.input.ernie4_5_vl_processor import Ernie4_5_VLProcessor
+from fastdeploy.input.ernie4_5_vl_processor.image_preprocessor.image_preprocessor_adaptive import (
+    AdaptiveImageProcessor,
+)
+from fastdeploy.input.ernie4_5_vl_processor.process import DataProcessor
+from fastdeploy.input.utils import IDS_TYPE_FLAG
 
 
 class TestErnie4_5_vl_ProcessorProcessResponseDictStreaming(unittest.TestCase):
@@ -133,5 +141,301 @@ def test_process_request_dict_with_options(self):
         self.assertEqual(request_dict["enable_thinking"], False)
 
 
+class TestDataProcessorTargetMethods(unittest.TestCase):
+    def setUp(self):
+        self.mock_tokenizer = MagicMock(spec=Ernie4_5Tokenizer)
+        self.mock_tokenizer.ignored_index = -100
+        self.mock_tokenizer.convert_tokens_to_ids.side_effect = self._mock_convert_tokens_to_ids
+        self.mock_tokenizer.chat_template = "mock_template"
+        self.mock_tokenizer.apply_chat_template.return_value = "User: Hello<|image@placeholder|>"
+
+        def mock_load_tokenizer(dp_instance):
+            dp_instance.tokenizer = self.mock_tokenizer
+
+        with patch.object(DataProcessor, "_load_tokenizer", side_effect=mock_load_tokenizer, autospec=True):
+            with patch.object(AdaptiveImageProcessor, "from_pretrained") as mock_image_preprocessor:
+                mock_image_preprocessor.return_value = MagicMock()
+                self.data_processor = DataProcessor(
+                    tokenizer_name="mock_tokenizer",
+                    image_preprocessor_name="mock_image_preprocessor",
+                    enable_processor_cache=False,
+                )
+        self.data_processor.image_patch_id = 1001
+        self.data_processor.image_start_id = 1002
+        self.data_processor.image_end_id = 1003
+        self.data_processor.video_start_id = 1004
+        self.data_processor.video_end_id = 1005
+        self.data_processor.role_prefixes = {"user": "User: ", "assistant": "Assistant: "}
+        self.data_processor.enable_processor_cache = False
+        self.data_processor.extract_mm_items = MagicMock(return_value=([], [], [], [], None, [], []))
+
+    def _mock_convert_tokens_to_ids(self, token):
+        token_id_map = {
+            "<|begin_of_sentence|>": 101,
+            "<|end_of_sentence|>": 102,
+            "</s>": 103,
+            "<|IMAGE_PLACEHOLDER|>": 1001,
+            "<|IMAGE_START|>": 1002,
+            "<|IMAGE_END|>": 1003,
+            "<|VIDEO_START|>": 1004,
+            "<|VIDEO_END|>": 1005,
+        }
+        return token_id_map.get(token, 999)
+
+    def test_prompt_token_ids2outputs_only_prompt_token_ids(self):
+        test_prompt_token_ids = [101, 999, 998, 997, 102]
+        request = {
+            "prompt_token_ids": test_prompt_token_ids,
+        }
+
+        outputs = self.data_processor.prompt_token_ids2outputs(request)
+
+        prompt_len = len(test_prompt_token_ids)
+
+        self.assertEqual(
+            outputs["input_ids"],
+            [test_prompt_token_ids],
+            f"input_ids 不匹配：实际{outputs['input_ids']}，预期[{test_prompt_token_ids}]",
+        )
+
+        self.assertEqual(outputs["token_type_ids"], [IDS_TYPE_FLAG["text"]] * prompt_len)
+
+        expected_position_ids = [[i] * 3 for i in range(prompt_len)]
+        self.assertEqual(outputs["position_ids"], expected_position_ids)
+
+        self.assertEqual(outputs["cur_position"], prompt_len)
+
+        self.assertEqual(len(outputs["images"]), 0)
+        self.assertEqual(len(outputs["grid_thw"]), 0)
+        self.assertEqual(len(outputs["mm_positions"]), 0)
+        self.assertEqual(len(outputs["mm_hashes"]), 0)
+        self.assertEqual(outputs["video_cnt"], 0)
+        self.assertEqual(outputs["num_input_image_tokens"], 0)
+        self.assertEqual(outputs["num_input_video_tokens"], 0)
+
+    def test_prompt_token_ids2outputs_with_messages_no_mm(self):
+        test_prompt_token_ids = [101, 999, 998, 997, 102]
+        request = {
+            "prompt_token_ids": test_prompt_token_ids,
+            "messages": [{"role": "user", "content": "Hello World"}],
+        }
+
+        self.data_processor.extract_mm_items.return_value = ([], [], [], [], None, [], [])
+
+        outputs = self.data_processor.prompt_token_ids2outputs(request)
+
+        prompt_len = len(test_prompt_token_ids)
+
+        self.assertEqual(outputs["input_ids"], test_prompt_token_ids)
+
+        self.assertEqual(outputs["token_type_ids"], [IDS_TYPE_FLAG["text"]] * prompt_len)
+
+        expected_position_ids = [[i] * 3 for i in range(prompt_len)]
+        self.assertEqual(outputs["position_ids"], expected_position_ids)
+
+        self.assertEqual(outputs["cur_position"], prompt_len)
+
+        self.assertEqual(len(outputs["images"]), 0)
+        self.assertEqual(outputs["video_cnt"], 0)
+        self.assertEqual(outputs["num_input_image_tokens"], 0)
+
+    def test_prompt_token_ids2outputs_add_image(self):
+        test_prompt_token_ids = [101, 1002, 1001, 1001, 1003, 102]
+        mock_img = MagicMock()
+        mock_img.height = 224
+        mock_img.width = 224
+        mock_img.convert.return_value = mock_img
+        request = {
+            "prompt_token_ids": test_prompt_token_ids,
+            "messages": [
+                {"role": "user", "content": [{"type": "image_url", "image_url": mock_img, "uuid": "img_uuid"}]}
+            ],
+        }
+        self.data_processor.extract_mm_items.return_value = (
+            [mock_img],
+            [],
+            ["img_uuid"],
+            [],
+            None,
+            [],
+            [{"type": "image", "data": mock_img}],
+        )
+        mock_resize = (None, (2, 4))
+        self.data_processor.image_preprocessor.get_smarted_resize.return_value = mock_resize
+        mock_preprocess = {"pixel_values": np.random.randn(1, 16, 16, 3), "image_grid_thw": np.array([[2, 4]])}
+        self.data_processor.image_preprocessor.preprocess.return_value = mock_preprocess
+        # self.data_processor._compute_3d_positions = MagicMock(return_value=[[i]*3 for i in range(4)])
+        outputs = self.data_processor.prompt_token_ids2outputs(request)
+        self.assertEqual(outputs["input_ids"], [101, 1002, 1001, 1001, 1003, 102])
+        self.assertEqual(
+            outputs["token_type_ids"],
+            [
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["image"],
+                IDS_TYPE_FLAG["image"],
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["text"],
+            ],
+        )
+        self.assertEqual(len(outputs["position_ids"]), 6)
+        self.assertEqual(outputs["cur_position"], 6)
+        self.assertEqual(len(outputs["images"]), 1)
+        self.assertIsNotNone(outputs["images"][0])
+        self.assertEqual(outputs["num_input_image_tokens"], 2)
+        self.assertEqual(len(outputs["mm_positions"]), 1)
+        self.assertEqual(len(outputs["mm_hashes"]), 1)
+        self.assertEqual(len(outputs["grid_thw"]), 1)
+        self.assertEqual(len(outputs["image_type_ids"]), 1)
+
+    def test_prompt_token_ids2outputs_add_processed_image(self):
+        test_prompt_token_ids = [101, 1002, 1001, 1001, 1003, 102]
+        mock_img_data = np.random.randn(8, 28, 28)
+        mock_img_cache = (mock_img_data, {"thw": (1, 8, 8)})
+        request = {
+            "prompt_token_ids": test_prompt_token_ids,
+            "messages": [
+                {"role": "user", "content": [{"type": "image_url", "image_url": mock_img_cache, "uuid": "img_uuid"}]}
+            ],
+        }
+        self.data_processor.extract_mm_items.return_value = (
+            [mock_img_cache],
+            [],
+            ["img_uuid"],
+            [],
+            None,
+            [],
+            [{"type": "image", "data": mock_img_cache}],
+        )
+        outputs = self.data_processor.prompt_token_ids2outputs(request)
+        self.assertEqual(outputs["input_ids"], [101, 1002, 1001, 1001, 1003, 102])
+        self.assertEqual(
+            outputs["token_type_ids"],
+            [
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["image"],
+                IDS_TYPE_FLAG["image"],
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["text"],
+            ],
+        )
+        self.assertEqual(len(outputs["position_ids"]), 20)
+        self.assertEqual(outputs["cur_position"], 8)
+        self.assertEqual(len(outputs["images"]), 1)
+        self.assertIsNotNone(outputs["images"][0])
+        self.assertEqual(len(outputs["mm_positions"]), 1)
+        self.assertEqual(outputs["mm_hashes"][0], "img_uuid")
+        self.assertEqual(len(outputs["grid_thw"]), 1)
+        self.assertEqual(len(outputs["image_type_ids"]), 1)
+
+    def test_prompt_token_ids2outputs_add_video(self):
+        test_prompt_token_ids = [101, 1004, 1001, 1001, 1001, 1001, 1005, 102]
+        mock_frame1 = MagicMock()
+        mock_frame1.height = 224
+        mock_frame1.width = 224
+        mock_frame1.convert.return_value = mock_frame1
+        mock_frame2 = MagicMock()
+        mock_frame2.height = 224
+        mock_frame2.width = 224
+        mock_frame2.convert.return_value = mock_frame2
+        frames = [mock_frame1, mock_frame2]
+        request = {
+            "prompt_token_ids": test_prompt_token_ids,
+            "messages": [
+                {"role": "user", "content": [{"type": "video_url", "video_url": frames, "uuid": "vid_uuid"}]}
+            ],
+        }
+        self.data_processor.extract_mm_items.return_value = (
+            [],
+            [frames],
+            [],
+            ["vid_uuid"],
+            None,
+            [],
+            [{"type": "video", "data": frames}],
+        )
+        self.data_processor._load_and_process_video = MagicMock(return_value=frames)
+        patches_h, patches_w = 4, 4
+        self.data_processor.image_preprocessor.get_smarted_resize.return_value = (None, (patches_h, patches_w))
+        mock_preprocess = {
+            "pixel_values_videos": np.random.randn(2, patches_h, patches_w, 3),
+            "video_grid_thw": np.array([[patches_h, patches_w]] * 2),
+        }
+        self.data_processor.image_preprocessor.preprocess.return_value = mock_preprocess
+        outputs = self.data_processor.prompt_token_ids2outputs(request)
+        self.assertEqual(outputs["input_ids"], [101, 1004, 1001, 1001, 1001, 1001, 1005, 102])
+        self.assertEqual(
+            outputs["token_type_ids"],
+            [
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["video"],
+                IDS_TYPE_FLAG["video"],
+                IDS_TYPE_FLAG["video"],
+                IDS_TYPE_FLAG["video"],
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["text"],
+            ],
+        )
+        self.assertEqual(len(outputs["position_ids"]), 8)
+        self.assertEqual(outputs["cur_position"], 6)
+        self.assertEqual(len(outputs["images"]), 1)
+        self.assertIsNotNone(outputs["images"][0])
+        self.assertEqual(len(outputs["mm_positions"]), 1)
+        self.assertEqual(outputs["mm_hashes"][0], "vid_uuid")
+        self.assertEqual(len(outputs["grid_thw"]), 1)
+        self.assertEqual(len(outputs["image_type_ids"]), 2)
+        self.assertEqual(outputs["num_input_video_tokens"], 4)
+
+    def test_prompt_token_ids2outputs_add_processed_video(self):
+        test_prompt_token_ids = [101, 1004, 1001, 1001, 1001, 1001, 1005, 102]
+        t, h, w = 2, 4, 4
+        spatial_conv_size = self.data_processor.spatial_conv_size
+        temporal_conv_size = self.data_processor.temporal_conv_size
+        token_per_frame = (h // spatial_conv_size) * (w // spatial_conv_size)
+        num_tokens = (t // temporal_conv_size) * token_per_frame
+        mock_frames_data = np.random.randn(num_tokens * spatial_conv_size**2 * temporal_conv_size, 28, 28)
+        mock_frames_cache = (mock_frames_data, {"thw": (t, h, w)})
+        request = {
+            "prompt_token_ids": test_prompt_token_ids,
+            "messages": [
+                {"role": "user", "content": [{"type": "video", "data": mock_frames_cache, "uuid": "vid_uuid"}]}
+            ],
+        }
+        self.data_processor.extract_mm_items.return_value = (
+            [],
+            [mock_frames_cache],
+            [],
+            ["vid_uuid"],
+            None,
+            [],
+            [{"type": "video", "data": mock_frames_cache}],
+        )
+        outputs = self.data_processor.prompt_token_ids2outputs(request)
+        self.assertEqual(outputs["input_ids"], [101, 1004, 1001, 1001, 1001, 1001, 1005, 102])
+        self.assertEqual(
+            outputs["token_type_ids"],
+            [
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["video"],
+                IDS_TYPE_FLAG["video"],
+                IDS_TYPE_FLAG["video"],
+                IDS_TYPE_FLAG["video"],
+                IDS_TYPE_FLAG["text"],
+                IDS_TYPE_FLAG["text"],
+            ],
+        )
+        self.assertEqual(len(outputs["position_ids"]), 8)
+        self.assertEqual(outputs["cur_position"], 6)
+        self.assertEqual(len(outputs["images"]), 1)
+        self.assertIsNotNone(outputs["images"][0])
+        self.assertEqual(len(outputs["mm_positions"]), 1)
+        self.assertEqual(outputs["mm_hashes"][0], "vid_uuid")
+        self.assertEqual(len(outputs["grid_thw"]), 1)
+        self.assertEqual(len(outputs["image_type_ids"]), 2)
+
+
 if __name__ == "__main__":
     unittest.main()