huggingface
diff --git a/‎controlnet-adapter-inpaint.ipynb‎
Lines changed: 230 additions & 0 deletions b/‎controlnet-adapter-inpaint.ipynb‎
Lines changed: 230 additions & 0 deletions
@@ -0,0 +1,230 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import cv2\n",
+    "import numpy as np\n",
+    "import torch\n",
+    "from controlnet_aux.midas import MidasDetector\n",
+    "from PIL import Image\n",
+    "\n",
+    "from diffusers import AutoencoderKL, ControlNetModel, MultiAdapter, T2IAdapter\n",
+    "from diffusers.pipelines.controlnet.multicontrolnet import MultiControlNetModel\n",
+    "from diffusers.utils import load_image\n",
+    "from src.diffusers import StableDiffusionXLControlNetAdapterInpaintPipeline"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "controlnet_depth = ControlNetModel.from_pretrained(\n",
+    "    \"diffusers/controlnet-depth-sdxl-1.0\",\n",
+    "    torch_dtype=torch.float16,\n",
+    "    variant=\"fp16\",\n",
+    "    use_safetensors=True\n",
+    ")\n",
+    "adapter_depth = T2IAdapter.from_pretrained(\n",
+    "  \"TencentARC/t2i-adapter-depth-midas-sdxl-1.0\", torch_dtype=torch.float16, variant=\"fp16\", use_safetensors=True\n",
+    ")\n",
+    "vae = AutoencoderKL.from_pretrained(\"madebyollin/sdxl-vae-fp16-fix\", torch_dtype=torch.float16, use_safetensors=True)\n",
+    "\n",
+    "pipe = StableDiffusionXLControlNetAdapterInpaintPipeline.from_pretrained(\n",
+    "    \"diffusers/stable-diffusion-xl-1.0-inpainting-0.1\",\n",
+    "    controlnet=controlnet_depth,\n",
+    "    adapter=adapter_depth,\n",
+    "    vae=vae,\n",
+    "    variant=\"fp16\",\n",
+    "    use_safetensors=True,\n",
+    "    torch_dtype=torch.float16,\n",
+    ")\n",
+    "pipe = pipe.to(\"cuda\")\n",
+    "pipe.enable_xformers_memory_efficient_attention()\n",
+    "# pipe.enable_freeu(s1=0.6, s2=0.4, b1=1.1, b2=1.2)\n",
+    "midas_depth = MidasDetector.from_pretrained(\n",
+    "  \"valhalla/t2iadapter-aux-models\", filename=\"dpt_large_384.pt\", model_type=\"dpt_large\"\n",
+    ").to(\"cuda\")\n",
+    "\n",
+    "prompt = \"a tiger sitting on a park bench\"\n",
+    "img_url = \"https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png\"\n",
+    "mask_url = \"https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png\"\n",
+    "\n",
+    "image = load_image(img_url).resize((1024, 1024))\n",
+    "mask_image = load_image(mask_url).resize((1024, 1024))\n",
+    "\n",
+    "depth_image = midas_depth(\n",
+    "  image, detect_resolution=512, image_resolution=1024\n",
+    ")\n",
+    "\n",
+    "strength = 0.4\n",
+    "\n",
+    "images = pipe(\n",
+    "    prompt,\n",
+    "    image=image,\n",
+    "    mask_image=mask_image,\n",
+    "    control_image=depth_image,\n",
+    "    adapter_image=depth_image,\n",
+    "    num_inference_steps=30,\n",
+    "    controlnet_conditioning_scale=strength,\n",
+    "    adapter_conditioning_scale=strength,\n",
+    "    strength=0.7,\n",
+    ").images"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "controlnet_depth = ControlNetModel.from_pretrained(\n",
+    "    \"diffusers/controlnet-depth-sdxl-1.0\",\n",
+    "    torch_dtype=torch.float16,\n",
+    "    variant=\"fp16\",\n",
+    "    use_safetensors=True\n",
+    ")\n",
+    "controlnet_canny = ControlNetModel.from_pretrained(\n",
+    "    \"diffusers/controlnet-canny-sdxl-1.0\",\n",
+    "    torch_dtype=torch.float16,\n",
+    "    variant=\"fp16\",\n",
+    "    use_safetensors=True\n",
+    ")\n",
+    "adapter_depth = T2IAdapter.from_pretrained(\n",
+    "  \"TencentARC/t2i-adapter-depth-midas-sdxl-1.0\", torch_dtype=torch.float16, variant=\"fp16\", use_safetensors=True\n",
+    ")\n",
+    "adapter_canny = T2IAdapter.from_pretrained(\n",
+    "  \"TencentARC/t2i-adapter-canny-sdxl-1.0\", torch_dtype=torch.float16, variant=\"fp16\", use_safetensors=True\n",
+    ")\n",
+    "vae = AutoencoderKL.from_pretrained(\"madebyollin/sdxl-vae-fp16-fix\", torch_dtype=torch.float16, use_safetensors=True)\n",
+    "\n",
+    "pipe = StableDiffusionXLControlNetAdapterInpaintPipeline.from_pretrained(\n",
+    "    \"stabilityai/stable-diffusion-xl-base-1.0\",\n",
+    "    controlnet=MultiControlNetModel([controlnet_depth, controlnet_canny]),\n",
+    "    adapter=MultiAdapter([adapter_depth, adapter_canny]),\n",
+    "    vae=vae,\n",
+    "    variant=\"fp16\",\n",
+    "    use_safetensors=True,\n",
+    "    torch_dtype=torch.float16,\n",
+    ")\n",
+    "pipe = pipe.to(\"cuda\")\n",
+    "pipe.enable_xformers_memory_efficient_attention()\n",
+    "# pipe.enable_freeu(s1=0.6, s2=0.4, b1=1.1, b2=1.2)\n",
+    "midas_depth = MidasDetector.from_pretrained(\n",
+    "  \"valhalla/t2iadapter-aux-models\", filename=\"dpt_large_384.pt\", model_type=\"dpt_large\"\n",
+    ").to(\"cuda\")\n",
+    "\n",
+    "prompt = \"a person sitting on a bench in the park\"\n",
+    "img_url = \"https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png\"\n",
+    "mask_url = \"https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png\"\n",
+    "\n",
+    "image = load_image(img_url).resize((1024, 1024))\n",
+    "mask_image = load_image(mask_url).resize((1024, 1024))\n",
+    "\n",
+    "depth_image = midas_depth(\n",
+    "  image, detect_resolution=512, image_resolution=1024\n",
+    ")\n",
+    "canny_image = Image.fromarray(cv2.Canny(np.array(image), 100, 200)).convert(\"RGB\")\n",
+    "\n",
+    "strength = 0.5\n",
+    "\n",
+    "images = pipe(\n",
+    "    prompt,\n",
+    "    mask_image=mask_image,\n",
+    "    control_image=[depth_image, canny_image],\n",
+    "    adapter_image=[depth_image, canny_image],\n",
+    "    num_inference_steps=30,\n",
+    "    controlnet_conditioning_scale=strength,\n",
+    "    adapter_conditioning_scale=strength,\n",
+    ").images"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "url = \"https://images.pexels.com/photos/6518723/pexels-photo-6518723.jpeg\"\n",
+    "image = load_image(url)\n",
+    "prompt = \"a man and woman sitting on a couch with party hats on. high resolution image\"\n",
+    "negative_prompt = \"ugly, deformed\"\n",
+    "\n",
+    "depth_image = midas_depth(\n",
+    "  image, detect_resolution=512, image_resolution=1024\n",
+    ")\n",
+    "only_adapter = []\n",
+    "only_control = []\n",
+    "combined = []\n",
+    "combined_all = []\n",
+    "strength = np.linspace(0.0, 1.0, 11)\n",
+    "for control_strength in strength:\n",
+    "    for adapter_strength in strength:\n",
+    "        if adapter_strength == 0.0 and control_strength == 0.0:\n",
+    "            continue\n",
+    "        if (adapter_strength + control_strength == 1.0) or (adapter_strength == 0 or control_strength == 0):\n",
+    "            pass\n",
+    "        else:\n",
+    "            continue\n",
+    "        print(f\"adapter strength: {adapter_strength}, control strength: {control_strength}\")\n",
+    "        images = pipe(\n",
+    "            [prompt],\n",
+    "            negative_prompt=[negative_prompt],\n",
+    "            control_image=depth_image,\n",
+    "            adapter_image=depth_image,\n",
+    "            num_inference_steps=30,\n",
+    "            num_images_per_prompt=1,\n",
+    "            controlnet_conditioning_scale=control_strength,\n",
+    "            adapter_conditioning_scale=adapter_strength,\n",
+    "            guidance_scale=7.5,\n",
+    "            generator=torch.Generator().manual_seed(4)\n",
+    "        ).images[0]\n",
+    "        if adapter_strength == 0.0:\n",
+    "            only_control.append(images)\n",
+    "        elif control_strength == 0.0:\n",
+    "            only_adapter.append(images)\n",
+    "        if adapter_strength + control_strength == 1.0:\n",
+    "            combined.append(images)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from math import sqrt\n",
+    "from diffusers.utils import make_image_grid\n",
+    "make_image_grid(only_control, rows=1, cols=len(only_control)).save(\"only_control.jpg\", quality=95)\n",
+    "make_image_grid(only_adapter, rows=1, cols=len(only_adapter)).save(\"only_adapter.jpg\", quality=95)\n",
+    "make_image_grid(combined, rows=1, cols=len(combined)).save(\"combined.jpg\", quality=95)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "hax-cv-7iGZNdAM-py3.10",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}