Skip to content

drycool/Screenshot-Reading-Agent

Repository files navigation

Screenshot Reading Agent (Агент чтения скриншотов)

Система автоматического анализа скриншотов с использованием локального AI (Ollama/Llava) для распознавания интерфейсов, текстов и программного кода.

🚀 Возможности

  • Анализ из буфера обмена: Мгновенный захват скриншота (Win+Shift+S) и его описание.
  • Анализ файлов: Поддержка прямой обработки изображений через аргументы командной строки.
  • Drag-and-Drop: Просто перетащите изображение на .bat файл для получения результата.
  • Локальный AI: Полная конфиденциальность — данные обрабатываются локально через Ollama (модель Llava).
  • Распознавание:
    • Элементы интерфейса и заголовки окон.
    • Кириллический и латинский текст.
    • Программный код на скриншотах.
    • Ошибки операционной системы.
  • Автоматизация: Все результаты сохраняются в папку results/ с меткой времени.

🛠 Требования

  • ОС: Windows (тестировалось на Windows 10/11).
  • Python: Версия 3.9 или выше.
  • Ollama: Установленная система Ollama с загруженной моделью llava.

📦 Установка

  1. Клонируйте репозиторий:

    git clone https://github.com/drycool/Screenshot-Reading-Agent.git
    cd Screenshot-Reading-Agent
  2. Установите зависимости Python:

    pip install Pillow
  3. Подготовьте Ollama: Убедитесь, что Ollama запущена, и скачайте модель:

    ollama pull llava

🖥 Использование

Способ 1: Из буфера обмена (рекомендуемый)

  1. Сделайте скриншот (нажмите Win + Shift + S).
  2. Запустите файл скриншот_в_ollama.bat.
  3. Результат появится в консоли и сохранится в папке results/.

Способ 2: Перетаскивание (Drag-and-Drop)

Просто перетащите файл изображения (.bmp, .png, .jpg) на файл скриншот_в_ollama.bat.

Способ 3: Командная строка

python clipboard_ollama.py --file путь/к/файлу.png

📂 Структура проекта

  • clipboard_ollama.py — основной скрипт обработки.
  • скриншот_в_ollama.bat — запускной файл для Windows.
  • results/ — история анализов.
  • memory/ — контекст проекта и логи сессий.
  • qwen.md — стандарты формирования ответов.

📝 Лицензия

MIT

About

Агент чтения скриншотов

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors