25.4.10

Распознавание русского текста в Fedora.

  Итак для распознавания текста в Linux есть некоторое количество движков, но ни один из них нормально не распознает кириллицу, но с некоторых пор компания cuneiform открыла свой проект, и теперь Linux такая распознавалака имеется. Правда пока ее нет в репозитариях, поэтому нужно сделать несколько телодвижений, что бы ее установить.
  Для того чтобы корректно установить его в системе следует установить пакты для сборки приложения:
#yum install make gcc gcc-c++ ImageMagick-c++-devel rpm-build cmake

  После успешной установки создадим дерево каталогов в домашней директории пользователя для сборки пакетов командой от обычного пользователя:
#rpmdev-setuptree
  Помните что пакеты следует собирать от непривилегированного пользователя иначе, в случае ошибки в spec файле с помощью которого будет производиться сборка можно повредиться систему.
  Предыдущая команда создает дерево каталогов в котором будет производиться сборка пакета. В каталоге rpmbuild домашней директории, создаются каталоги BUILD, BUILDROOT, RPMS, SOURCES, SPECS и SRPMS.
  Для того чтобы собрать пакет нужно в каталог SOURCES поместит исходный код программы (его возьмите с отсюда), и spec файл в котором описывается процесс сборки программы. Я написал такой:
Name:        cuneiform
License:    BSD
Group:        Office/Productivity
Version:    0.9.0
Release:    1%{?dist}
Summary:    OCR system
Source0:    http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/%{name}-linux-%{version}.tar.bz2
BuildRequires:    ImageMagick-c++-devel
BuildRoot:    %{_tmppath}/%{name}-%{version}-%{release}-root-%(%{__id_u} -n)
URL:        https://launchpad.net/cuneiform-linux

%description
Cuneiform is an multi-language OCR system originally developed
and open sourced by Cognitive Technologies. Cuneiform was
originally a Windows program, which was ported to Linux
by Jussi Pakkanen.

%prep
%setup -n %{name}-linux-%{version}

%build
mkdir builddir
cd builddir
%{cmake} -DCMAKE_BUILD_TYPE=release ..
make

%install
make -C builddir install DESTDIR=$RPM_BUILD_ROOT

%files -f builddir/install_manifest.txt
%defattr(-,root,root,0755)
%doc readme.txt issues.txt original\ russian\ readme.rtf

%changelog
* Sun Apr 25 2010
Version 0.9.0-1
 
  Сохраните его в файл ~/rpmbuilds/SPECS/cuneiform.spec.
  Теперь выполните команду сборки пакет (Помните! От непривилегированного пользователя!):
#rpmbuild -bb ~/rpmbuilds/SPECS/cuneiform.spec
 Процесс занимает некоторое время в зависимости от мощности компьютера. Дождитесь окончания процесса, в  итоге команда должна выдать нечто вроде этого:

Записан: /home/user/rpmbuild/RPMS/i686/cuneiform-0.9.0-1.i686.rpm
Записан: /home/user/rpmbuild/RPMS/i686/cuneiform-debuginfo-0.9.0-1.i686.rpm
Выполняется(%clean): /bin/sh -e /var/tmp/rpm-tmp.2Teexq
+ umask 022
+ cd /home/user/rpmbuild/BUILD
+ cd cuneiform-linux-0.9.0
+ /bin/rm -rf /home/user/rpmbuild/BUILDROOT/cuneiform-0.9.0-1.i386
+ exit 0
Как видите готовый пакет с программой записан в каталог /rpmbuild/RPMS/i686/. Установите его таким образом:
#rpm -ihv /home/user/rpmbuild/RPMS/i686/cuneiform-0.9.0-1.i686.rpm
  Если все успешно прошло, можно использовать программу из командной строки:
#cuneiform -l rus -o text.rtf -f rtf Отсканированный\ документ.png
Опционально доступны следующие языки распознавания:

Cuneiform for Linux 0.9.0
Supported languages: eng ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.
И следующие выводные форматы:

Cuneiform for Linux 0.9.0
Supported formats:
    html         HTML format
    hocr         hOCR HTML format
    native       Cuneiform 2000 format
    rtf          RTF format
    smarttext    plain text with TeX paragraphs
    text         plain text
Возможности программы Cuneiform очень широки, тем более что до недавнего времени на этом поприще было все достаточно грустно.

6 комментариев:

  1. как всегда все через жЁпу, нет чтоб по человечески как у адоба :)

    ОтветитьУдалить
  2. В федоре оно есть:

    rpm -qi cuneiform

    Name : cuneiform Relocations: (not relocatable)
    Version : 0.8.0 Vendor: Yandex
    Release : 1.fc12 Build Date: Срд 16 Сен 2009 13:14:43
    Install Date: Птн 26 Фев 2010 13:50:11 Build Host: localhost
    Group : User Interface/Desktops Source RPM: cuneiform-0.8.0-1.fc12.src.rpm
    Size : 56436503 License: BSD
    Signature : DSA/SHA1, Срд 16 Сен 2009 13:15:58, Key ID 8318be83dbb6c70d
    Packager : Arkady L. Shane
    URL : https://launchpad.net/cuneiform-linux
    Summary : Cuneiform is an multi-language OCR system.
    Description :
    Cuneiform is an multi-language OCR system originally developed
    and open sourced by Cognitive Technologies. Cuneiform was
    originally a Windows program, which was ported to Linux
    by Jussi Pakkanen.

    ОтветитьУдалить
  3. Видимо у вас какие то нестандартные репозитарии подключены. Потому что в стандартных его нет. И http://rpm.pbone.net не знает от репозитариях где есть.

    ОтветитьУдалить
  4. yum info cuneiform

    Установленные пакеты
    Имя : cuneiform
    Арх. : x86_64
    Версия : 0.8.0
    Релиз: 1.fc12
    Размер: 55 M
    Репозиторий: installed
    С репозитория: russianfedora-free
    Суммарно:Cuneiform is an multi-language OCR system.
    Ссылка: https://launchpad.net/cuneiform-linux
    Лицензия : %sBSD
    Описание:Cuneiform is an multi-language OCR system originally developed
    : and open sourced by Cognitive Technologies. Cuneiform was
    : originally a Windows program, which was ported to Linux
    : by Jussi Pakkanen.

    ОтветитьУдалить
  5. А ну понятно, в репозитариях Русского респина значит данный пакет есть. Я этого не знал.

    ОтветитьУдалить
  6. ктоб его в епель-то запихнул
    столько лет уже пакету, ведь должно быть наконец общедоступно, а не корячится - собирать

    ОтветитьУдалить

Популярные сообщения