In jahrelanger Expertenarbeit wurden sogenannte Subwort-Lexika geschaffen. Unter Einbeziehung sämtlicher sprachlicher Varianten im Deutschen und darüber hinaus auch mehrsprachiger Bezeichnungen verlinkt die Suchmaschine sprachübergreifend sämtliche relevanten Begriffe miteinander zu „semantischen Clustern“. Diese bestehen aus Wörtern, Wortbestandteilen oder ganzen Wortgruppen, die inhaltlich die gleiche Bedeutung haben.

Beispielsweise sind im Deutschen das Subwort „Herz“, im Englischen „Heart“ und im Spanischen „Corazon“ definiert. In allen Sprachen existiert darüber hinaus der lateinische Ausdruck „Card(ia)“. Diese Subwörter sind sprachübergreifend zusammengefasst zu dem Konzept „HEART“.

Entsprechende Konzepte existieren für alle anderen relevanten Bestandteile der Sprache. Mit Hilfe eines speziellen Programms, ist es nun möglich, Subwörter und Konzepte aus Dokumenten zu extrahieren.

Für „Herzmuskelentzündung, Entzündung des Herzmuskels, Myokarditis oder inflammation of the heart muscle“ werden dabei jedes Mal die Konzepte HEART, MUSCLE und INFLAMMATION extrahiert und die Dokumente somit sprachlich normalisiert.
binarysearchtree4