четверг, 8 декабря 2011 г.

Тест 0.11

Сегодня не выдержал и забросил ремонт (я после работы с удовольствием осваиваю штукатурное дело) и испытал новую версию на соответствие моим минимальным потребностям, а именно - поддержку офисных форматов. Честно говоря, то что Майян отображает документы в виде картинок приятно, но не очень важно для меня, а вот то что теперь после отправки документа на распознавание в поле содержимого появляется текст - это уже большой плюс, поскольку уже позволяет вести поиск среди документов. Видел вкладку версий и подписей, сделал перевод к новому приложению. Предложу Роберто извлекать текст из офисных документов в процессе закачки.
 Из личных мучений сделал вывод - сейчас проще всего устанавливать Майан под Arch. Роберто постоянно обновляет свою систему и "чтобы оставаться на месте здесь нужно бежать", и вот Arch в этом смысле очень удобен, жаль что мне так и не удалось его установить в OpenVZ. Буду клянчить у начальства новый сервер под эту штуку.

upd. Роберто на мои предложения ответил, что

The option for automatic text extraction/OCR is:
OCR_AUTOMATIC_OCR = True
put this in your settings_local.py file and restart the webserver, verify that it in 'Setup' -> 'Settings'

Version .11 also tries to extract text from office documents before doing an OCR.

Thank you for the suggestions I will improve the format of the text extracted, and will try add CSV support to this.

Комментариев нет:

Отправить комментарий