GSA und GSS Alternative als Open Source Lösung

Mit Apache Nutch und Elasticsearch bieten wir einen Web-Crawler und eine Volltextsuche als Open Source Lösung zum Finden von Seiteninhalt, PDFs, Excel und weiteren Dokumenten im Web und Intranet.

Mit diesem Setup konnten wir die Suche über die Seiten des grössten Detailhändlers der Schweiz erfolgreich von Google Search Appliance und Google Site Search auf eine spezialisierte Open Source Lösung migrieren.

Features

  • Realtime Suche über 100'000 Seiten und Dokumente
  • Indexierung von Excel, PDF, Word und weiteren Dokumentformaten
  • Unterstützung für mehrsprachige und dynamische Inhalte
  • Spelling Correction, Autocomplete, Filter, Pagination
Chatbot Navigationsfluss

Indexierung

Apache Nutch Webcrawler

Apache Nutch ist ein einfach erweiterbarer und hochskalierbarer Open Source Web Crawler. Er ist sowohl für das Indexieren von Seiten im Web, wie auch für Seiten in nicht öffentlich zugänglichen Bereichen wie ein Firmen Intranet qualifiziert.

Dank der Plugin-Architektur kann er beliebig erweitert werden und erkennt auch Inhalte von PDF-, Word- oder Excel-Dateien.

Mehr über Apache Nutch
Funktionalitäten der CRM Applikation

High End Out-of-the-Box

Strukturierte Inhalte und Dynamische Seiten

Der Crawler interpretiert strukturierte Daten aus Microformats, RDF und Metadaten, welche anschliessend als Suchfilter zur Verfügung stehen, um es so beispielsweise dem Benutzer zu ermöglichen, nur Produkte unter einem gewissen Preis zu durchsuchen.

Durch Erweiterung des Crawlers können auch dynamische Inhalte auf JavaScript-lastigen Seiten, wie zum Beispiel Angular oder React Apps gelesen und durchsucht werden.

Technologie

  • Realtime Suche über 100'000 Dokumente in < 100ms
  • Skalierbar und ausfallsicher dank Elasticsearch und Lucene
  • Erkennt stukturierte Inhalte wie Meta-Tags, OG-Tags und JSON-LD für Filter
  • Full Stack Open Source mit Apache Nutch, Elasticsearch und Node.js
Funktionalitäten der CRM Applikation

Datenhaltung und Suchindex

Elasticsearch basierend auf Apache Lucene

Seit Jahren setzen wir als unseren primären Suchindex für schnelle Resultate auf Elasticsearch, so zum Beispiel auch beim Migros Filialfinder. Elasticsearch ist eine Suchengine, aufbauend auf Apache Lucene, die eine gute Volltextsuche, «Meinten Sie...?»-Vorschläge und Empfehlungen liefert. Mit Elasticsearch können problemlos mehrsprachige Inhalte unterschieden, zugeordnet und auch sprachoptimiert ausgeliefert werden.

Mit der Verknüpfung von Apache Nutch als Crawler zur Erkennung und Elasticsearch zur Verwaltung von Inhalten haben wir ein ausgezeichnetes Setup, welches skalierbar und zukunftsfähig ist.

Mehr über Elasticsearch

Unser Experte: Thilo HaasThilo Haas berät Sie gerne zum Thema Apache Nutch, Elasticsearch und deren Anwendung für Enterprise Search.

thilo@smartive.ch+41 44 552 55 99