refactor: use session factory instead of call db.session directly (#31198)

Co-authored-by: autofix-ci[bot] <114827586+autofix-ci[bot]@users.noreply.github.com>
2026-04-05 16:50:39 +08:00 · 2026-01-21 13:43:06 +08:00
parent 071bbc6d74
commit 121d301a41
48 changed files with 2788 additions and 2693 deletions
--- a/api/tasks/clean_dataset_task.py
+++ b/api/tasks/clean_dataset_task.py
@@ -3,11 +3,11 @@ import time

 import click
 from celery import shared_task
-from sqlalchemy import select
+from sqlalchemy import delete, select

+from core.db.session_factory import session_factory
 from core.rag.index_processor.index_processor_factory import IndexProcessorFactory
 from core.tools.utils.web_reader_tool import get_image_upload_file_ids
-from extensions.ext_database import db
 from extensions.ext_storage import storage
 from models import WorkflowType
 from models.dataset import (
@@ -53,135 +53,155 @@ def clean_dataset_task(
    logger.info(click.style(f"Start clean dataset when dataset deleted: {dataset_id}", fg="green"))
    start_at = time.perf_counter()

-    try:
-        dataset = Dataset(
-            id=dataset_id,
-            tenant_id=tenant_id,
-            indexing_technique=indexing_technique,
-            index_struct=index_struct,
-            collection_binding_id=collection_binding_id,
-        )
-        documents = db.session.scalars(select(Document).where(Document.dataset_id == dataset_id)).all()
-        segments = db.session.scalars(select(DocumentSegment).where(DocumentSegment.dataset_id == dataset_id)).all()
-        # Use JOIN to fetch attachments with bindings in a single query
-        attachments_with_bindings = db.session.execute(
-            select(SegmentAttachmentBinding, UploadFile)
-            .join(UploadFile, UploadFile.id == SegmentAttachmentBinding.attachment_id)
-            .where(SegmentAttachmentBinding.tenant_id == tenant_id, SegmentAttachmentBinding.dataset_id == dataset_id)
-        ).all()
-
-        # Enhanced validation: Check if doc_form is None, empty string, or contains only whitespace
-        # This ensures all invalid doc_form values are properly handled
-        if doc_form is None or (isinstance(doc_form, str) and not doc_form.strip()):
-            # Use default paragraph index type for empty/invalid datasets to enable vector database cleanup
-            from core.rag.index_processor.constant.index_type import IndexStructureType
-
-            doc_form = IndexStructureType.PARAGRAPH_INDEX
-            logger.info(
-                click.style(f"Invalid doc_form detected, using default index type for cleanup: {doc_form}", fg="yellow")
-            )
-
-        # Add exception handling around IndexProcessorFactory.clean() to prevent single point of failure
-        # This ensures Document/Segment deletion can continue even if vector database cleanup fails
+    with session_factory.create_session() as session:
        try:
-            index_processor = IndexProcessorFactory(doc_form).init_index_processor()
-            index_processor.clean(dataset, None, with_keywords=True, delete_child_chunks=True)
-            logger.info(click.style(f"Successfully cleaned vector database for dataset: {dataset_id}", fg="green"))
-        except Exception:
-            logger.exception(click.style(f"Failed to clean vector database for dataset {dataset_id}", fg="red"))
-            # Continue with document and segment deletion even if vector cleanup fails
-            logger.info(
-                click.style(f"Continuing with document and segment deletion for dataset: {dataset_id}", fg="yellow")
+            dataset = Dataset(
+                id=dataset_id,
+                tenant_id=tenant_id,
+                indexing_technique=indexing_technique,
+                index_struct=index_struct,
+                collection_binding_id=collection_binding_id,
            )
+            documents = session.scalars(select(Document).where(Document.dataset_id == dataset_id)).all()
+            segments = session.scalars(select(DocumentSegment).where(DocumentSegment.dataset_id == dataset_id)).all()
+            # Use JOIN to fetch attachments with bindings in a single query
+            attachments_with_bindings = session.execute(
+                select(SegmentAttachmentBinding, UploadFile)
+                .join(UploadFile, UploadFile.id == SegmentAttachmentBinding.attachment_id)
+                .where(
+                    SegmentAttachmentBinding.tenant_id == tenant_id,
+                    SegmentAttachmentBinding.dataset_id == dataset_id,
+                )
+            ).all()

-        if documents is None or len(documents) == 0:
-            logger.info(click.style(f"No documents found for dataset: {dataset_id}", fg="green"))
-        else:
-            logger.info(click.style(f"Cleaning documents for dataset: {dataset_id}", fg="green"))
+            # Enhanced validation: Check if doc_form is None, empty string, or contains only whitespace
+            # This ensures all invalid doc_form values are properly handled
+            if doc_form is None or (isinstance(doc_form, str) and not doc_form.strip()):
+                # Use default paragraph index type for empty/invalid datasets to enable vector database cleanup
+                from core.rag.index_processor.constant.index_type import IndexStructureType

-            for document in documents:
-                db.session.delete(document)
-                # delete document file
+                doc_form = IndexStructureType.PARAGRAPH_INDEX
+                logger.info(
+                    click.style(
+                        f"Invalid doc_form detected, using default index type for cleanup: {doc_form}",
+                        fg="yellow",
+                    )
+                )

-            for segment in segments:
-                image_upload_file_ids = get_image_upload_file_ids(segment.content)
-                for upload_file_id in image_upload_file_ids:
-                    image_file = db.session.query(UploadFile).where(UploadFile.id == upload_file_id).first()
-                    if image_file is None:
-                        continue
+            # Add exception handling around IndexProcessorFactory.clean() to prevent single point of failure
+            # This ensures Document/Segment deletion can continue even if vector database cleanup fails
+            try:
+                index_processor = IndexProcessorFactory(doc_form).init_index_processor()
+                index_processor.clean(dataset, None, with_keywords=True, delete_child_chunks=True)
+                logger.info(click.style(f"Successfully cleaned vector database for dataset: {dataset_id}", fg="green"))
+            except Exception:
+                logger.exception(click.style(f"Failed to clean vector database for dataset {dataset_id}", fg="red"))
+                # Continue with document and segment deletion even if vector cleanup fails
+                logger.info(
+                    click.style(f"Continuing with document and segment deletion for dataset: {dataset_id}", fg="yellow")
+                )
+
+            if documents is None or len(documents) == 0:
+                logger.info(click.style(f"No documents found for dataset: {dataset_id}", fg="green"))
+            else:
+                logger.info(click.style(f"Cleaning documents for dataset: {dataset_id}", fg="green"))
+
+                for document in documents:
+                    session.delete(document)
+
+                segment_ids = [segment.id for segment in segments]
+                for segment in segments:
+                    image_upload_file_ids = get_image_upload_file_ids(segment.content)
+                    image_files = session.query(UploadFile).where(UploadFile.id.in_(image_upload_file_ids)).all()
+                    for image_file in image_files:
+                        if image_file is None:
+                            continue
+                        try:
+                            storage.delete(image_file.key)
+                        except Exception:
+                            logger.exception(
+                                "Delete image_files failed when storage deleted, \
+                                              image_upload_file_is: %s",
+                                image_file.id,
+                            )
+                    stmt = delete(UploadFile).where(UploadFile.id.in_(image_upload_file_ids))
+                    session.execute(stmt)
+
+                segment_delete_stmt = delete(DocumentSegment).where(DocumentSegment.id.in_(segment_ids))
+                session.execute(segment_delete_stmt)
+            # delete segment attachments
+            if attachments_with_bindings:
+                attachment_ids = [attachment_file.id for _, attachment_file in attachments_with_bindings]
+                binding_ids = [binding.id for binding, _ in attachments_with_bindings]
+                for binding, attachment_file in attachments_with_bindings:
                    try:
-                        storage.delete(image_file.key)
+                        storage.delete(attachment_file.key)
                    except Exception:
                        logger.exception(
-                            "Delete image_files failed when storage deleted, \
-                                          image_upload_file_is: %s",
-                            upload_file_id,
+                            "Delete attachment_file failed when storage deleted, \
+                                            attachment_file_id: %s",
+                            binding.attachment_id,
                        )
-                    db.session.delete(image_file)
-                db.session.delete(segment)
-        # delete segment attachments
-        if attachments_with_bindings:
-            for binding, attachment_file in attachments_with_bindings:
-                try:
-                    storage.delete(attachment_file.key)
-                except Exception:
-                    logger.exception(
-                        "Delete attachment_file failed when storage deleted, \
-                                        attachment_file_id: %s",
-                        binding.attachment_id,
-                    )
-                db.session.delete(attachment_file)
-                db.session.delete(binding)
+                attachment_file_delete_stmt = delete(UploadFile).where(UploadFile.id.in_(attachment_ids))
+                session.execute(attachment_file_delete_stmt)

-        db.session.query(DatasetProcessRule).where(DatasetProcessRule.dataset_id == dataset_id).delete()
-        db.session.query(DatasetQuery).where(DatasetQuery.dataset_id == dataset_id).delete()
-        db.session.query(AppDatasetJoin).where(AppDatasetJoin.dataset_id == dataset_id).delete()
-        # delete dataset metadata
-        db.session.query(DatasetMetadata).where(DatasetMetadata.dataset_id == dataset_id).delete()
-        db.session.query(DatasetMetadataBinding).where(DatasetMetadataBinding.dataset_id == dataset_id).delete()
-        # delete pipeline and workflow
-        if pipeline_id:
-            db.session.query(Pipeline).where(Pipeline.id == pipeline_id).delete()
-            db.session.query(Workflow).where(
-                Workflow.tenant_id == tenant_id,
-                Workflow.app_id == pipeline_id,
-                Workflow.type == WorkflowType.RAG_PIPELINE,
-            ).delete()
-        # delete files
-        if documents:
-            for document in documents:
-                try:
+                binding_delete_stmt = delete(SegmentAttachmentBinding).where(
+                    SegmentAttachmentBinding.id.in_(binding_ids)
+                )
+                session.execute(binding_delete_stmt)
+
+            session.query(DatasetProcessRule).where(DatasetProcessRule.dataset_id == dataset_id).delete()
+            session.query(DatasetQuery).where(DatasetQuery.dataset_id == dataset_id).delete()
+            session.query(AppDatasetJoin).where(AppDatasetJoin.dataset_id == dataset_id).delete()
+            # delete dataset metadata
+            session.query(DatasetMetadata).where(DatasetMetadata.dataset_id == dataset_id).delete()
+            session.query(DatasetMetadataBinding).where(DatasetMetadataBinding.dataset_id == dataset_id).delete()
+            # delete pipeline and workflow
+            if pipeline_id:
+                session.query(Pipeline).where(Pipeline.id == pipeline_id).delete()
+                session.query(Workflow).where(
+                    Workflow.tenant_id == tenant_id,
+                    Workflow.app_id == pipeline_id,
+                    Workflow.type == WorkflowType.RAG_PIPELINE,
+                ).delete()
+            # delete files
+            if documents:
+                file_ids = []
+                for document in documents:
                    if document.data_source_type == "upload_file":
                        if document.data_source_info:
                            data_source_info = document.data_source_info_dict
                            if data_source_info and "upload_file_id" in data_source_info:
                                file_id = data_source_info["upload_file_id"]
-                                file = (
-                                    db.session.query(UploadFile)
-                                    .where(UploadFile.tenant_id == document.tenant_id, UploadFile.id == file_id)
-                                    .first()
-                                )
-                                if not file:
-                                    continue
-                                storage.delete(file.key)
-                                db.session.delete(file)
-                except Exception:
-                    continue
+                                file_ids.append(file_id)
+                files = session.query(UploadFile).where(UploadFile.id.in_(file_ids)).all()
+                for file in files:
+                    storage.delete(file.key)

-        db.session.commit()
-        end_at = time.perf_counter()
-        logger.info(
-            click.style(f"Cleaned dataset when dataset deleted: {dataset_id} latency: {end_at - start_at}", fg="green")
-        )
-    except Exception:
-        # Add rollback to prevent dirty session state in case of exceptions
-        # This ensures the database session is properly cleaned up
-        try:
-            db.session.rollback()
-            logger.info(click.style(f"Rolled back database session for dataset: {dataset_id}", fg="yellow"))
+                file_delete_stmt = delete(UploadFile).where(UploadFile.id.in_(file_ids))
+                session.execute(file_delete_stmt)
+
+            session.commit()
+            end_at = time.perf_counter()
+            logger.info(
+                click.style(
+                    f"Cleaned dataset when dataset deleted: {dataset_id} latency: {end_at - start_at}",
+                    fg="green",
+                )
+            )
        except Exception:
-            logger.exception("Failed to rollback database session")
+            # Add rollback to prevent dirty session state in case of exceptions
+            # This ensures the database session is properly cleaned up
+            try:
+                session.rollback()
+                logger.info(click.style(f"Rolled back database session for dataset: {dataset_id}", fg="yellow"))
+            except Exception:
+                logger.exception("Failed to rollback database session")

-        logger.exception("Cleaned dataset when dataset deleted failed")
-    finally:
-        db.session.close()
+            logger.exception("Cleaned dataset when dataset deleted failed")
+        finally:
+            # Explicitly close the session for test expectations and safety
+            try:
+                session.close()
+            except Exception:
+                logger.exception("Failed to close database session")