Indexación y búsqueda en imágenes de texto -- tranSkriptorium AI S.L. (tS)

Guía para el buscador de la serie "SantCugat"

(Versión en castellano aquí)

  1. Introducción
  2. Ejemplos de consultas de búsqueda
  3. Interfaz y opciones de búsqueda
  4. Búsqueda avanzada
  5. Consultas tabulares
  6. Macros
  7. Ayuda addicional

Introducción

Esta interfaz permite buscar información textual en las imágenes de la serie de manuscritos correspondientes a la serie "Padrons municipals de Sant Cugat del Vallès entre 1901 i 1920", abbreviada como "SantCugat", del Arxiu Municipal de Sant Cugat. (ver noticia aquí). Esta es una serie relativamente pequeña, formada por cinco carpetas con 426 imágenes, la mayoría de doble página.

El sistema ha sido desarrollado por tS. En el desarrollo se han utilizado tecnologías avanzadas de reconocimiento de textos manuscritos e indexación probabilística (PrIx) de palabras en imágenes no transcritas. El resultado obtenido permite realizar búsquedas eficientes y con un alto grado de exactitud.

A continuación se muestran ejemplos de búsquedas de diferentes tipos, en orden creciente de su capacidad para formular consultas más precisas. Finalmente, se incule una explicación detallada para cada tipo de búsqueda.

Cualquier comentario o recomendación son bienvenidos en info@transkriptorium.com.
¡Feliz búsqueda!

Ejemplos de consultas de búsqueda

Estos ejemplos se basan en las explicaciones sobre la interfaz y opciones de búsqueda que se facilitan abajo, en la sección Interfaz y opciones de búsqueda. La ortografía usada en estos ejemplos sigue las indicaciones que se explican en Opciones de búsqueda.

Palabras individuales

Barcelona   Tarragona   Lerida   Gerona   Valencia   Alicante   Madrid   Murcia   Huesca
Cugat   Hospitalet   Llobregat   Terrasa   Sabadell   Mataro   Coloma   Cornella
orden   almas   NOMBRE   APELLIDOS   Relacion   familia   Fecha   nacimiento
Dia   Mes   Año   Años   edad   Naturaleza   Pueblo   Provincia   Estado
Profesion   Residencia   habitual   Calle   sitio   habita   OBSERVACIONES   Folio
febrero   abril   agosto   octubre   diciembre   10   11   31   17   28   5
jefe   cabeza   esposa   hijo   hermana   nieto   cuñado   suegra   sirvienta   huesped
labrador   jornalero   herrero   albañil   panadero   medico   mecanico   propia   sin
soltera   casado   viuda   sor   siempre   idem   si   no
Cruz   Maria   bajada   cazador   carretera   hospital   Sardañola   Monistrol

Comodines y ortografía aproximada ("?", "*", "~")

natural*   *rola   carr*ero   hijo*   hija*
hij?s   cuñad?   Sarda?ola   Ma?i   Sit?es*   ?ernande*   Vil*al*onga
abuela~   esposo~   Sardañola~2   Vilallonga~2

Etiquetas semánticas

Irene$NOMBRE   Irene$N*   Laya$N  * Joana$N*   Roque$N*   Nadal$N*
Martin$APELLIDO   Martin$A*   Font$A*   Llobet$A*   Juan$A*   Jose$A*

Combinación de palabras: secuencias

Combinación de palabras: 'O'

Combinación de palabras: 'Y'

Combinación de palabras: 'Y' con proximidad

Combinación de palabras: 'NO'

Consultas basdas en columnas de tablas

Macros

Consultas compuestas: combinación de operadores

Interfaz y opciones de búsqueda

Búsqueda

Para empezar la búsqueda, hay que establecer el nivel de confianza y, opcionalmente, el número máximo de resultados deseados. La consulta se escribe en el cuadro de texto y finalmente hay que pulsar "Buscar" (o "Intro" en el teclado).

Consultas y control de los resultados

En la parte superior de la página, un cuadro de texto permite escribir (o copiar y pegar) palabras individuales o combinaciones de palabras que se deseen localizar en los manuscritos.

Debajo de este cuadro, aparece otro cuadro numérico y un deslizador asociado. Estos elementos permiten especificar, entre 1 y 100, el grado de relevancia o nivel de confianza deseado para los resultados obtenidos en cada una búsqueda.

Si el nivel de confianza es elevado, generalmente se obtendrán pocos resultados, pero estos probablemente serán más certeros. Por el contrario, si el nivel de confianza es inferior, se obtendrá un mayor número de resultados posibles, pero con mayor probabilidad de que algunos sean eróneos.

Otro cuadro numérico permite indicar el máximo número de resultados que se desea ver.

Ver resultados de búsqueda

Los resultados de búsqueda están dispuestos en 3 niveles jerárquicos: serie, carpeta y página. Resulta útil abrir cada nivel en una nueva pestaña del navegador, para así poder conservar todos los resultados de búsqueda que sean de interés.

Ver resultados de búsqueda – a nivel serie

Al realizar una búsqueda en el primer nivel de la jerarquía ("HOME"), el sistema ofrece resultados a nivel serie. Como en este caso solo hay una serie, el sistema indica el número de carpetas de la serie que responden a la consulta realizada con un grado de confianza mayor o igual al especificado.

Ver resultados de búsqueda – a nivel manuscrito o carpeta

Al hacer click en una serie (la única en este caso), se ven las miniaturas de las carpetas que responden a la consulta realizada incluidos en dicha serie.

En cada miniatura se muestra el identificador de la carpeta (o manuscrito) y el número de páginas en las que la consulta ha producido algún resultado. También se muestra una barra que indica el grado de confianza en los resultados encontrados. Al situar el cursor sobre dicha barra se muestra el valor preciso de la confianza en tanto por ciento.

Ver resultados de búsqueda – a nivel página

Tras pulsar en la miniatura de una carpeta o manuscrito concretos, muestran miniaturas de las páginas de dicho nanuscrito que responden a la consulta y nivel de confianza especificados.

En cada miniatura se muestra el número de página, el número de ocurrencias de la consulta encontradas en esa página y una barra que indica el grado de de confianza en esos resultados.

Se puede situar el cursor sobre la miniatura de una página para ver el nombre de la imagen correspondiente.

Al hacer click en la imagen de la miniatura de una página, se abrirá la imagen real de dicha página. De nuevo, puede ser conveniente abrir cada página en una nueva pestaña del navegador con el fin de conservar resultados de búsqueda.

El identificador del manuscrito y el número de página aparecen en la parte superior, a continuación de "Estás aquí:".

En la imagen de página, cada resultado de una consulta (llamado ‘spot’) se destaca mediante un rectángulo que rodea la palabra o palabras encontrada(s). El color de este rectángulo indica el nivel de confianza, comenzando con verde para indicar la máxima confianza y terminando en rojo para indicar la mínima. Al situar el cursor sobre la zona delimitada por un rectángulo se muestra el porcentaje preciso de la confianza de ese spot.

Comenzar una nueva búsqueda

En cualquier momento y nivel de la jerarquía se puede iniciar una nueva búsqueda escribiendo una nueva consulta en la caja de búsqueda. Si ya se está viendo una carpeta o página concreta, la plataforma solamente buscará dicha carpeta o página.

Para buscar en la totalidad de los manuscritos de santCugat, se puede pulsar en ‘HOME’ (debajo de la caja de búsqueda) o pulsar en el rótulo 'cerca al padró' en la parte superior izquierda de la página web.

Para buscar dentro de un manuscrito en particular, hay que ir a la página inicial de búsqueda (HOME), pulsar en la (única) serie ('Sant Cugat', en el centro de la página) y hacer click en la miniatura del manuscrito o carpeta en el que desea buscar.

Opciones de búsqueda

Para obtener resultados más específicos y/o más acordes a nuestras necesidades de información, hay disponible una amplia gama de opciones de formato de consultas. Esto incluye comodines, ortografía aproximada, combinaciones booleanas de palabras y secuencias de palabras.

Signos de puntuación y ortografía

Palabras cortadas y abreviaturas

Comodines

Ortografía aproximada

Etiquetas semánticas

Los Índices Probabilísticos de esta serie incluyen una "categorización semática" simple de algunas palabras (este tipo de categorización se conoce también como "entidades nombradas"). Las palabras categorizadas se identifican mediante el símbolo "$" segido del identificador de la categoría. Las etiquetas semánticas disponibles en esta serie son: Para buscar una palabra categorizada hay que añadir a dicha palabra la etiqueta deseada; por ejemplo: "Juan$nombre", "Juan$apellido". Las etiqueas se pueden abreviar mediante el uso de comodines; por ejemplo: "Juan$n*", "Juan$a*"

Consultas con múltiples palabras

Las palabras individuales pueden ser combinadas en 'consultas compuestas' de tres maneras: consultas booleanas, consultas Y-con proximidad y consultas de palabras en secuencia.

Combinaciones de tipos de búsquedas

Consultas basadas en columnas de tablas

Una búsqueda de columna se expresa entre corchetes angulares mediante dos palabras o combinaciones de palabras, separadas por una coma (","). La combinación a la izquierda de la coma se usa para expresar texto de una cabecera de columna (o varias cabeceras contiguas); la combinación de la derecha expres texto que se espera encontrar en columnas encabezadas por dicha(s) cabecera(s). Tanto la coma como los corchetes angulares deben separarse con espacio en blanco del resto del texto de la consulta. Por ejemplo, la consulta:   '< Fecha nacimiento Dia Mes , [25 diciembre] >' obtendrá imágenes de tablas en las que hay una (o más) columna (o columnas contiguas) cuya(s) cabecera(s) contiene(n) las palabras 'Fecha nacimiento Dia', y 'Mes', y en dicha(s) columna(s) hay una (o más) celda(s) con la secuencia de palabras '[25 diciembre]'

Macros

Las búsquedas frecuentes o complejas pueden ser encapsuladas en "macro-búsquedas", o simplemente "macros". Las macros se identifican utilizando palabras especiales precedidas por el símbolo "@". El administrador del sistema pueden definir macros en el fichero de configuración del motor de búsqueda. A modo de ejemplo, a continuación se listan algunas macros predefinidas para esta serie.

Macros predefinidas

Las dos primeras están destinadas a abreviar las consultas con etiquetas semánticas y el resto para simplificar algunas consultas basadas en columnas de tablas. Ejemplos del uso de estas macros se muestran en la sección "Ejemplos de consultas" (Macros).

Ayuda adicional

Puede contactarnos a través de info@transkriptorium.com para cualquier comentario, duda o sugerencia.