Programmer's Reference Guide
| Zend_Search_Lucene |
Überblick
Einführung
Zend_Search_Lucene ist eine komplett in PHP 5 geschriebene Textsuchmaschine für viele Zwecke. Da es seinen Index im Dateisystem ablegt und keinen Datenbankserver erfordert, kann es eine Suchfunktion für nahezu jede auf PHP basierende Website bereitstellen. Zend_Search_Lucene unterstützt die folgenden Funktionalitäten:
-
Klassifizierte Suche - die besten Ergebnisse werden zuerst zurückgegeben
-
Viele mächtige Abfragearten: Phrasensuche, Platzhaltersuche, Näherungssuche, Bereichssuche und mehr [1]
-
Suche anhand eines bestimmten Feldes (z.B. Titel, Autor, Inhalt)
Dokumenten- und Feldobjekte
Für die Indizierung verarbeitet Zend_Search_Lucene Dokumente als atomare Einheiten. Ein Dokument wird in benannte Felder unterteilt und diese Felder enthalten Inhalte, die durchsucht werden können.
Ein Dokument wird durch ein Zend_Search_Lucene_Document Objekt abgebildet und dieses Objekt enthält Zend_Search_Lucene_Field Objekte, welche die Felder abbilden.
Es ist wichtig zu beachten, dass dem Index jegliche Informationen hinzugefügt werden können. Anwendungsspezifische Informationen oder Metadaten können in den Dokumentfeldern gespeichert und später bei der Suche aus dem Dokument zurückgeholt werden.
Es liegt in der Verantwortung deiner Anwendung, den Indexer zu kontrollieren. Das bedeutet, dass die Daten aus jeder Quelle indiziert werden können, die von deiner Anwendung aus ansprechbar ist. Zum Beispiel könnten dies das Dateisystem, eine Datenbank, ein HTML Formular, usw. sein.
Die Zend_Search_Lucene_Field Klasse stellt verschiedene statische
Methoden zum Erstellen mit unterschiedlichen Charakteristika bereit:
<?php
$doc = new Zend_Search_Lucene_Document();
// Feld wird nicht in Token aufgeteilt, aber indiziert und im Index
// gespeichert. Die gespeichertern Felder können aus dem Index abgerufen werden.
$doc->addField(Zend_Search_Lucene_Field::Keyword('doctype',
'autogenerated'));
// Feld wird weder in Token aufgeteilt noch indiziert, aber im Index gespeichert.
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
time()));
// Feld mit einer binären Zeichenkette, die weder in Token aufgeteilt
// noch indiziert, aber im Index gespeichert wird.
$doc->addField(Zend_Search_Lucene_Field::Binary('icon',
$iconData));
// Feld wird in Token aufgeteilt und indiziert und im Index gespeichert.
$doc->addField(Zend_Search_Lucene_Field::Text('annotation',
'Document annotation text'));
// Feld wird in Token aufgeteilt und indiziert, aber nicht im Index
// gespeichert.
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
'My document content'));
Jede dieser Methoden (ausser der Zend_Search_Lucene_Field::Binary() Methode) hat einen
optionalen $encoding Parameter. Er definiert das Coding für Eingabedaten.
Die Codierung kann für unterschiedliche Dokumente verschieden sein genauso wie für unterschiedliche Felder innerhalb eines Dokuments:
<?php
$doc = new Zend_Search_Lucene_Document();
$doc->addField(Zend_Search_Lucene_Field::Text('title', $title, 'iso-8859-1'));
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents, 'utf-8'));
Wenn der encoding Parameter nicht angegeben wurde, wird das aktuelle Gebietsschema wärend der Verarbeitungs Zeit verwendet. Zum Beispiel:
<?php
setlocale(LC_ALL, 'de_DE.iso-8859-1');
...
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));
Felder werden immer gespeichert und vom Index in UTF-8 Codierung zurückgegeben. Die Konvertierung in UTF-8 geschieht automatisch.
Text Analysatoren (siehe unten) können auch Text in andere Codierungen konvertieren. Aktuell konvertiert der Standard Analysator Text in die 'ASCII//TRANSLIT' Codierung. Achtung damit, weil solche Übersetzungen von dem aktuellen Gebietsschema abhängig sein können.
Feld Namen werden nur durch eigene Wahl definiert.
Java Lucene verwendet das "contents" Feld für die Suche als Standardfeld. Zend_Search_Lucene durchsucht standardmäßig alle Felder, aber dieses Verhalten kann auch verändert werden. Für Details siehe das "Standradsuchfeld" Kapitel.
Verstehen der Feldtypen
-
Keyword(Stichwort) Felder werden gespeichert und indiziert, was bedeutet, dass sie sowohl durchsucht als auch in Suchergebnissen angezeigt werden können. Sie werden nicht in einzelne Worte (Tokens) zerteilt. Datenbankfelder für Aufzählungen lassen sich normalerweise leicht in Keyword Felder für Zend_Search_Lucene überführen. -
UnIndexed(unindizierte) Felder sind nicht durchsuchbar, werden aber bei Suchtreffern zurückgegeben. Datenbank Zeitstempel, Primärschlüssel, Pfade des Dateisystems und andere externe Identifikatoren sind gute Kandidaten für UnIndexed Felder. -
Binary(binäre) Felder werden nicht in Token aufgeteilt und indiziert, aber für die Rückgabe bei Suchtreffern gespeichert. Sie können für die Speicherung aller Daten, die als binäre Zeichenkette kodiert sind, verwendet werden, wie z.B. eine Grafiksymbol. -
TextFelder werden gespeichert, indiziert und in Token aufgeteilt. Text Felder sind geeignet für die Speicherung von Informationen wie Themen und Überschriften, die sowohl durchsuchbar sein müssen, als auch in Suchergebnissen zurückgegeben werden müssen. -
UnStored(nicht gespeicherte) Felder werden in Token aufgeteilt und indiziert, aber nicht im Index gespeichert. Umfangreiche Texte werden am besten durch diesen Feldtyp indiziert. Gespeicherte Daten benötigen einen größeren Index auf der Festplatte, wenn du also Daten nur durchsuchbar aber nicht wieder ausgegeben haben musst, verwende ein UnStored Feld. UnStored Felder sind geeignet, wenn ein Zend_Search_Lucene Index in Kombination mit einer relationalen Datenbank verwendet wird. Du kannst große Datenfelder mit UnStored Feldern für die Suche indizieren und sie aus der relationalen Datenbank durch die Verwendung eines seperaten Feldes mithilfe eines Identifikatoren zurückholen.Zend_Search_Lucene_Field Typen Feldtyp Gespeichert Indiziert In Token aufgeteilt Binär Keyword Ja Ja Nein Nein UnIndexed Ja Nein Nein Nein Binary Ja Nein Nein Ja Text Ja Ja Ja Nein UnStored Nein Ja Ja Nein
HTML Dokumente
Zend_Search_Lucene bietet ein HTML Parsing Feature. Dokumente können direkt von einer HTML Datei oder String erzeugt werden:
<?php
$doc = Zend_Search_Lucene_Document_Html::loadHTMLFile($filename);
$index->addDocument($doc);
...
$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$index->addDocument($doc);
Die Zend_Search_Lucene_Document_Html Klasse verwendet die
DOMDocument::loadHTML() und die DOMDocument::loadHTMLFile() Methode um die
HTML Quelle zu analysieren, deswegen benötigt Sie kein gut geformtes HTML noch ein XHTML. Auf der
anderen Seite ist es sensitiv zur angegebenen Codierung im "meta http-equiv" Tag Header.
Die Zend_Search_Lucene_Document_Html Klasse erkennt Dokument Titel, Body Dokument Header
Meta Tags.
Das 'title' Feld ist aktuell der /html/head/title Wert. Er wird inneralb des Index gespeichert, Tokenized und für die Suche zur Verfügung gestellt.
Das 'body' Feld ist aktuell der Inhalt von Body. Es beinhaltet keine Skripte, Kommentare und Tag Attribute.
Die loadHTML() und loadHTMLFile() Methoden der
Zend_Search_Lucene_Document_Html Klasse haben auch ein zweites optionales Argument.
Wenn es auf true gesetzt wird, wird der Inhalt vom Body auch innerhalb des Index gespeichert und kann
vom Index empfangen werden. Body wird nur Tokenized und Indiziert, aber standardmäßig nicht gespeichert.
Dokument Header Meta Tags produzieren zusätzliche Dokument Felder. Der Feld Name wird vom 'name' Attribut genommen, das 'content' Attribut gibt den Wert des Feldes das tokenized, indiziert und gespeichert werden soll, damit Dokumente mit Hilfe Ihrer Meta Tags durchsucht werden können. (zum Beispiel durch Schlüsselwörter).
Analysierte Dokumente können durch Benutzer mit jedem anderen Feld erweitert werden:
<?php
$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
time()));
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
time()));
$doc->addField(Zend_Search_Lucene_Field::Text('annotation',
'Document annotation text'));
$index->addDocument($doc);
Dokument-Links werden nicht in erstellten Dokumenten inkludierten, können aber mit den
Zend_Search_Lucene_Document_Html::getLinks() und
Zend_Search_Lucene_Document_Html::getHeaderLinks() Methoden empfangen werden:
<?php
$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$linksArray = $doc->getLinks();
$headerLinksArray = $doc->getHeaderLinks();
| Zend_Search_Lucene |
