Форум сообщества Runtu.org
Сентябрь 21, 2018, 08:35:59 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Новости: Доступна для загрузки х64 версия дистрибутива Runtu LITE 18.04.1 - 20180801

Подробнее
   Начало   Помощь Поиск Войти Регистрация  
Страниц: 1 2 Все   Вниз
  Печать  
Автор Тема: Локальный поиск файлов  (Прочитано 24588 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« : Июнь 19, 2011, 20:52:06 »

Локальный поиск файлов.


Recoll - поиск файлов по названию и по содержимому,  распознает много форматов (в том числе форматы Libre Office и MS Office).

Установка в Runtu 16.04
Код:
sudo apt update && sudo apt install recoll aspell aspell-ru python xdg-utils xsltproc antiword catdoc ghostscript libimage-exiftool-perl poppler-utils pstotext python-chm python-mutagen unrtf untex wv

Установка в Runtu 18.04
Код:
sudo apt update && sudo apt install recoll aspell aspell-ru xdg-utils xsltproc antiword ghostscript groff libimage-exiftool-perl libinotifytools0 poppler-utils pstotext python-chm python-libxml2 python-libxslt1 python-lzma python-mido python-mutagen python-rarfile unrtf untex wv



DocFetcher - поиск файлов по содержимому, написан на java, распознает много форматов (в том числе форматы Libre Office и MS Office).

Catfish - поиск файлов по именам, а также поиск txt файлов по содержимому, использует find, grep, locate.


find - консольная программа для поиска файлов по именам
grep - консольная программа для поиска текста в выводе терминала, для поиска текста в txt файлах.
locate - консольная программа для быстрого поиска файлов, для ускорения поиска использует индексирование.


Дополнительная информация: во многих окружениях рабочего стола есть встроенные службы поиска файлов по названиям, а также в файловых менеджерах есть функция поиска файлов по названиям.
« Последнее редактирование: Июль 20, 2018, 20:52:15 от Пользователь. » Записан
dr.Faust
Новичок
**
Offline Offline

Сообщений: 25


« Ответ #1 : Июнь 20, 2011, 15:35:21 »

Tracker - шустро все индексирует, хоть и грузит систему, но если вдруг на чем-то споткнется, то продолжать уже не станет, но грузить дисковую подсистему продолжит. При этом может игнорировать некоторые пути индексации по совершенно непонятным причинам. При попытках поиска часто подвисает, а некоторые результаты не попадают в выхлоп - в итоге найти что-то часто невозможно.
Beagle - написан на mono, из чего вытекает, что тупит сильнее чем Tracker, результат поиска все так же ненадежен - часто результаты выподают из поиска и найти что-то очень тяжело.
Recoll - не имеет демона индексации и поэтому индексировать диск надо вручную или по крону, что может и  лучше - можно настроить время. При этом использует для индексации и поиска наиболее адекватный из существующих движков - xapian. Как результат это единственный полезный на  практике индексирующий поисковик.
Catfish - единственный минус - не умеет работать с xapian/recoll, но для поиска с помощью find и locate вполне подойдёт.
Есть еще не упомянутый тут отдельно strigi - это часть nepomuk и потому самый прогрессивный и функциональный индексатор. Жаль только, что единственное что он умеет делать сегодня - это превращать ваш компьютер в обогреватель. При этом это не многозадачное приложение, и пока машина греет воздух всеми своими компонентами под чутким управлением strigi использовать её для чего-то ещё просто невозможно.
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #2 : Июнь 20, 2011, 18:17:22 »

Протестировал сейчас Recoll и Catfish


Recoll - разобрался как с ней пользоваться, все хорошо, но вордовские документы плохо индексирует, через одного, поэтому часто не находит в вордовских...

Catfish - стандартная программа поиска в гноме не хуже, она разве что для LXDE может пригодится.

Вобщем пока откажусь от этих программ, раз не работают.
Записан
dr.Faust
Новичок
**
Offline Offline

Сообщений: 25


« Ответ #3 : Июнь 20, 2011, 18:21:34 »

Из всех этих прог юзаю только recoll.
Там кстати, после первого прохода индексации должен был быть выведен список недостающих пакетов - это пакеты которые необходимы для открытия тех файлов которые он нашел в процессе индексации, но не смог открыть - после доустановки recoll при следующей индексации проиндексирует и их.
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #4 : Июнь 20, 2011, 18:27:05 »

Да, мне для вордовских документов предложил установить пакет antiword
а в описании этого пакета написано:

Antiword -- свободная программа для просмотра файлов формата MS Word.

Конвертирует двоичные файлы документов MS Word 6, 7, 97 и 2000 в PS, PDF и
текстовые файлы.


Но документы вордовские созданные либрой не индексируются почти все, один только проиндексировался...
Может в либре дело...
Записан
dr.Faust
Новичок
**
Offline Offline

Сообщений: 25


« Ответ #5 : Июнь 20, 2011, 18:41:24 »

А зачем вообще хранить документы в некошерных форматах? Я понимаю если это входящий, а создавать либрой и потом хранить - не понимаю... Это конечно не оправдывает recoll, но все же.
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #6 : Июнь 20, 2011, 18:50:44 »

Все выяснил, это либра что-то делает с doc документом, сделанные в Microsoft word документы нормально индексируются...

Сырая либра... Doc файлы портит... Сохранял, чтобы потом открыть в ворде...

остальные форматы индексируются
Записан
ludoed
Местный
*****
Offline Offline

Сообщений: 861

ludoed1970@jabber.ru


« Ответ #7 : Июнь 20, 2011, 19:11:34 »

А зачем вообще хранить документы в некошерных форматах? Я понимаю если это входящий, а создавать либрой и потом хранить - не понимаю... Это конечно не оправдывает recoll, но все же.

Для совместимости с внешним миром. Я тоже пользуюсь OpenOffice, но филе сохраняю в .doc
Записан

все юниксы очень дружелюбны.. они просто очень разборчивы в друзьях Подмигивающий

Настоящее труЪ: самописное ядро, выращенные на кухне кристаллы и программирование перемычками Улыбающийся
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #8 : Июнь 20, 2011, 19:59:03 »

Оставил recoll  Улыбающийся

По работе знаю, что полезная штука, бывает у нас среди кучи документов нужный найти не могут, тогда поиск по содержимому документов спасает, это быстрее чем все несколько сотен документов открыть и просмотреть.
Записан
dr.Faust
Новичок
**
Offline Offline

Сообщений: 25


« Ответ #9 : Июнь 20, 2011, 20:37:41 »

я его всем рекомендую  Подмигивающий
я на нем интернет-поисковик собрал...
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #10 : Июнь 20, 2011, 21:32:13 »

Чтобы каждый раз после запуска не нажимать обновление индекса, сделал скрипт запуска и в меню изменил команду запуска ссылкой на этот файл (у меня только папку с документами эта программа сканирует - чтобы долго не ждать)

Код:

!#bin/sh

recollindex
recoll

« Последнее редактирование: Июнь 20, 2011, 21:33:52 от Пользователь. » Записан
dr.Faust
Новичок
**
Offline Offline

Сообщений: 25


« Ответ #11 : Июнь 21, 2011, 01:40:04 »

А у меня напротив - сканит все три диска. Запускается по крону в 5:00 - обычно в это время я уже сплю, а жена еще спит и комп никто не использует...
Записан
kurolesov
Новичок
**
Offline Offline

Сообщений: 38


« Ответ #12 : Февраль 02, 2013, 16:25:04 »

Подходит для этого раздела?
Программа для полнотекстового поиска - DocFetcher:
http://docfetcher.sourceforge.net/ru/index.html

Написана на java, поэтому кроссплатформенная. Интерфейс очень похож на archivarius.3000. Есть окно предпросмотра. Можно настроить поиск по разным индексам.
Недостаток - не индексирует документы djvu. Как говорит автор, всё упирается в поддержку java формата djvu.
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #13 : Июль 30, 2013, 22:00:56 »

Еще есть SearchMonkey - поиск по названиям файлов и по содержимому, интерфейс на английском, есть в стандартном репозитории Ubuntu.

Установка:
Код:
sudo apt-get install searchmonkey


На сайте написано, что поисковик рассчитан на программистов, то есть на поиск по текстовым файлам с исходным кодом.

При проверке выяснил, что названия файлов находит как русские так и английские.
Поиск по содержимому - ищет только в простых текстовых файлах и только английские слова.





gnome-search-tool - ищет по названиям, может найти простые текстовые файлы по содержимому, ищет как русские так и английские слова. Интерфейс переведен на русский.

Установка:
Код:
sudo apt-get install gnome-search-tool
« Последнее редактирование: Июль 30, 2013, 22:19:33 от Пользователь. » Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #14 : Июль 31, 2013, 21:19:14 »

В первом сообщении темы урезал информацию, оставил только самое нужное - что применяется на практике.



Есть еще Strigi-client, ищет файлы по содержимому, находит txt, ods, odt, doc созданный в MS Office (не находит doc созданный в LibreOffice), вобщем результат как у Recoll, но Recoll намного удобнее и функциональнее.

В Catfish хоть и заявлен поиск с помощью разных консольных утилит, но он нормально работает только с find, пробовал в нем через strigi поискать - выдало фатальную ошибку и больше ничего  Смеющийся , а Strigi-client спокойно находит документы.
« Последнее редактирование: Август 01, 2013, 12:33:10 от Пользователь. » Записан
ek-nfn
Местный
*****
Offline Offline

Сообщений: 1161


« Ответ #15 : Август 10, 2015, 15:20:22 »

Поиск дубликатов по содержимому (да и не только) делают программы группы Dupe. В них же задается и процент совпадения, что позволяет искать не только дубликаты файлов с несовпадающими размерами, но и похожие файлы с задаваемой степенью совпадения. Что очень удобно при работе с теми же фотографиями.

Утилиты Dupe разбиваются на заточенные под конкретные файлы.
https://launchpad.net/~hsoft/+archive/ubuntu/ppa/+packages

Есть общая утилита, работающая со всеми файлами - dupeguru-se (dupeGuru)
Спойлер  скрыт:



Есть утилита для работы с музыкальными файлами - dupeguru-me (dupeGuru Music Edition)
Спойлер  скрыт:

Есть утилита для работы с графикой - dupeguru-pe  (dupeGuru Picture Edition)
Спойлер  скрыт:
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #16 : Август 31, 2015, 09:29:42 »

Пока не до конца понял различия между
locate
slocate
mlocate

В отличии от find они умеют индексировать файлы и каталоги по расписанию через cron, и во время поиска уже не перебирают файлы, а ищют по своей базе сформированной при индексировании, теоретически должны выдавать результат намного быстрее.
Но опять же индексирование в фоновом режиме расходует ресурсы. Да и у этих программ есть ограничение на поиск файлов по внутреннему содержимому - ищут по содержимому только txt.
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #17 : Июль 15, 2016, 23:15:49 »

Catfish давно переписали, сейчас поковырял файлы программы, очень удивился используемым поисковикам.
Обновил описание программы в первом сообщении.
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #18 : Январь 04, 2018, 19:15:21 »

grep часто используется для поиска текста в выводе терминала, а также она может искать слова в txt файлах.

Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #19 : Июль 14, 2018, 17:16:01 »

Нашел решение проблемы с Recoll, чтобы он находил документы в формате doc созданные в Libreoffice нужно установить библиотеку wv.

Об этом написано на официальном сайте программы
https://www.lesbonscomptes.com/recoll/features.html#doctypes
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #20 : Июль 14, 2018, 23:54:15 »

Изменил первое соощение темы.

Удалил
Gnome-search-tool - поиск файлов по названиям, txt файлы может искать по содержимому, имеет функцию индексации; использует find, grep, locate.

В репозиториях Ubuntu 18.04 её нет.

В Unity и Gnome есть встроенные поисковики.

Для XFCE и LXDE обычно ипользуется Catfish.

По Catfish вернул описание к предыдущему виду, взял информацию с официального сайта. Нет уже желания ковыряться в питоновских файлах программы и выяснять через какие библиотеки выполняются действия.

SearchMonkey - так и не научился искать русские слова в txt файлах.

Tracker и Strigi - ресурсоемкие поисковики с индексированием, первый для GNOME, второй для KDE. Пусть пока пылятся тут, нет смысла их использовать, так как проигрывают легковесным поисковикам, указанным в первом сообщении темы.
Записан
Пользователь.
Редактор раздела
*****
Offline Offline

Сообщений: 3316


« Ответ #21 : Июль 20, 2018, 19:00:35 »

В интернете эти программы описаны как локальные поисковики. Получается есть разные виды поиска, в зависимости от места поиска.
Например поиск внутри открытого текстового файла, поиск в сети, поиск в архиве, поиск по базе данных.


Придется переименовать тему, чтобы уточнить её назначение: Поиск локальных файлов (поиск файлов в своем копьютере).

--------------

Яндекс и гугл выдают мало информации по выше указанным формулировкам.
Локальный поиск файлов - поиск этой фразы выдает нужный результат, и страницу википедии, и альтернативы, и поиск дубликатов файлов (поиск одинаковых фотографий), и анализаторы заполненности дисков (поиск больших файлов).

Оставил это название в заголовке темы, чтобы любой жедающий смог скопировать его в поисковик и почитать информацию по этой теме.

-------------

Сам и воспользовался этим поисковым запросом.
Нашел списки программ для поиска:

http://zenway.ru/tag/Поиск

http://linsoft.info/soft/category/87

« Последнее редактирование: Июль 20, 2018, 21:03:14 от Пользователь. » Записан
Страниц: 1 2 Все   Вверх
  Печать  
 
Перейти в:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.21 | SMF © 2006, Simple Machines Valid XHTML 1.0! Valid CSS!