- Introducción
- Ejemplos de consultas de búsqueda
- Interfaz y opciones de búsqueda
- Búsqueda avanzada
- Consultas tabulares
- Macros
- Ayuda addicional
Introducción
Esta interfaz permite buscar información textual en las imágenes
de la serie de manuscritos correspondientes a la serie
"Padrons municipals de Sant Cugat del Vallès
entre 1901 i 1920", abbreviada como
"SantCugat", del
Arxiu Municipal de Sant Cugat.
(ver noticia
aquí).
Esta es una serie relativamente pequeña, formada por cinco carpetas
con 426 imágenes, la mayoría de doble página.
El sistema ha sido desarrollado por
tS.
En el desarrollo se han utilizado tecnologías avanzadas
de reconocimiento de textos manuscritos e
indexación probabilística (PrIx) de palabras en imágenes
no transcritas. El resultado obtenido permite realizar búsquedas
eficientes y con un alto grado de exactitud.
A continuación se muestran ejemplos de búsquedas de diferentes
tipos, en orden creciente de su capacidad para formular
consultas más precisas. Finalmente, se incule una explicación
detallada para cada tipo de búsqueda.
Cualquier comentario o recomendación son bienvenidos en
info@transkriptorium.com.
¡Feliz búsqueda!
Ejemplos de consultas de búsqueda
Estos ejemplos se basan en las explicaciones sobre la interfaz
y opciones de búsqueda que se facilitan abajo, en la sección
Interfaz y opciones de búsqueda.
La ortografía usada en estos ejemplos sigue las indicaciones que
se explican en
Opciones de búsqueda.
Palabras individuales
Barcelona
Tarragona
Lerida
Gerona
Valencia
Alicante
Madrid
Murcia
Huesca
Cugat
Hospitalet
Llobregat
Terrasa
Sabadell
Mataro
Coloma
Cornella
orden
almas
NOMBRE
APELLIDOS
Relacion
familia
Fecha
nacimiento
Dia
Mes
Año
Años
edad
Naturaleza
Pueblo
Provincia
Estado
Profesion
Residencia
habitual
Calle
sitio
habita
OBSERVACIONES
Folio
febrero
abril
agosto
octubre
diciembre
10
11
31
17
28
5
jefe
cabeza
esposa
hijo
hermana
nieto
cuñado
suegra
sirvienta
huesped
labrador
jornalero
herrero
albañil
panadero
medico
mecanico
propia
sin
soltera
casado
viuda
sor
siempre
idem
si
no
Cruz
Maria
bajada
cazador
carretera
hospital
Sardañola
Monistrol
Comodines y ortografía aproximada ("?", "*", "~")
natural*
*rola
carr*ero
hijo*
hija*
hij?s
cuñad?
Sarda?ola
Ma?i
Sit?es*
?ernande*
Vil*al*onga
abuela~
esposo~
Sardañola~2
Vilallonga~2
Etiquetas semánticas
Irene$NOMBRE Irene$N* Laya$N *
Joana$N* Roque$N* Nadal$N*
Martin$APELLIDO Martin$A*
Font$A* Llobet$A* Juan$A* Jose$A*
Combinación de palabras: secuencias
- [Sant Cugat]
- [Santa~ Coloma]
- [calle Villa]
- [calle Vilallonga]
- [call~ Valldorex]
- [Bajada del cazador]
- [Rosa$N* Gorchs$A*]
- [Juan$N* Casajuana$A* Marsa$A*]
- [Dolores$N* Cariteu$A* Grau$A*]
- [Montserrat$N* Jane$A*]
- [Ramona$N* Julia$A*]
- [Juan$N* Jose$A*]
- [25 diciembre]
- [24 febrero]
- [*mbre 1920]
Combinación de palabras: 'O'
- Laya$N* || Joana$N*
- mecanico || herrero || constructor
- Sabadell || Mataro || Coloma || Cornella || Tarrasa
Combinación de palabras: 'Y'
- maestro && maestra
- maestro maestra
- ladrillero albañil peon
- Castellvell cerrajero
- Bicorp Valencia
- Jose$APELLIDO && Jose$NOMBRE
Combinación de palabras: 'Y' con proximidad
- Carretera &5& Sardañola
- Carretera &5& Barcelona
- Albiñana &5& Tarragona
- Juan$APELLIDO &25& Juan$NOMBRE
- Casajuana$A* &5& Marsa$A* &10& Juan$N*
- Sant &5& Cugat &15& sereno
Combinación de palabras: 'NO'
- Vilallonga - Tarragona
- Sardañola~2 - Sardañola
- Villadelprat$APELLIDO~ - Villadelprat*
- *juan$* - Juan$*
- Vill* - Villa - Villa$* - Villaplana* - Villadelprat*
Consultas basdas en columnas de tablas
- < NOMBRE APELLIDOS , [Dolores$N* Cariteu$A* Grau$A*] >
- < NOMBRE APELLIDOS , Dolores$N* Cariteu$A* Grau$A* >
- < NOMBRE APELLIDOS , Dolores* Cariteu* Grau* >
- < NOMBRE APELLIDOS , Llobet* Fuster* >
- < APELLIDOS , Herrero* >
- < Fecha nacimiento , [25 diciembre 190?] >
- < Años edad , 87 >
- < años , 9? >
- < Tiempo distrito Años , 45 >
- < Calle , Plana Hospital >
- < Calle , Paseo Canovas del Castillo >
- < Calle Numero , Plaza Mayor 4 >
- < habita , [Valldoreix 9] >
- < Profesion , maestro > Adolfo$NOMBRE
- < Profesion , modista > < Pueblo , Sant Andres >
- < NOMBRE , Juana* > < Fecha Nacimiento Año , 1850 >
- < APELLIDOS , Font$A* > < Naturaleza , Gerona >
- < APELLIDOS , Fernan* > < Natural* , Vitoria > < nacim* , 1881 >
- < Calle en que habita , Principe > < Tiempo distrito , siempre >
Macros
- Irene@N
- Llobet@A
- < @EDAD , 87 >
- < @TIEMPORESIDE , 45 >
- < @TR , 45 >
- < @FECHANACIMIENTO , ( abril &3& 1868 ) >
- < @FN , ( abril &3& 1868 ) >
- < @CALLEHABITA , Principe > < @TR , siempre >
- < @CH , Principe > < @TR , siempre >
- < @NOMBRECOMPLETO , Dolores@N Cariteu@A Grau@A >
- < @NC , Dolores@N Cariteu@A Grau@A >
Consultas compuestas: combinación de operadores
- ( veterinario || medico ) ( Lerida || Figueras )
- ( veterinario && Lerida ) || ( medico && Figueras )
- [Josefa@N Mateu$APELLIDO~ Bargany@A ] &10& cabeza
- [Emilio@N Huerva@A Capdevila@A esposo~]
- < @CALLEHABITA Numero , [Torre Blanca 3] >
- < ( @CH || Calle ) Numero , Plaza Mayor 4 >
- < Fecha nacimiento , ( abril &3& 1868 ) >
- < Fecha nacimiento , ( ( 25 &3& diciembre ) &5& 1900 ) >
- < APEL* , Font$A* > < NATUR* Prov* , Gerona > ( Font$A*&20&Gerona )
- < APEL* , Font$A* > < NATUR* Prov* , Gerona >
Interfaz y opciones de búsqueda
Búsqueda
Para empezar la búsqueda, hay que establecer el nivel de confianza
y, opcionalmente, el número máximo de resultados deseados.
La consulta se escribe en el cuadro de texto y finalmente hay
que pulsar "Buscar" (o "Intro" en el teclado).
Consultas y control de los resultados
En la parte superior de la página, un cuadro de texto permite
escribir (o copiar y pegar) palabras individuales o combinaciones
de palabras que se deseen localizar en los manuscritos.
Debajo de este cuadro, aparece otro cuadro numérico y un
deslizador asociado. Estos elementos permiten especificar,
entre 1 y 100, el grado de relevancia o nivel de confianza
deseado para los resultados obtenidos en cada una búsqueda.
Si el nivel de confianza es elevado,
generalmente se obtendrán pocos resultados, pero estos probablemente
serán más certeros. Por el contrario, si el nivel de confianza es
inferior, se obtendrá un mayor número de resultados posibles,
pero con mayor probabilidad de que algunos sean eróneos.
Otro cuadro numérico permite indicar el máximo número de
resultados que se desea ver.
Ver resultados de búsqueda
Los resultados de búsqueda están dispuestos en 3 niveles jerárquicos:
serie, carpeta y
página. Resulta útil abrir cada
nivel en una nueva pestaña del navegador, para así poder conservar
todos los resultados de búsqueda que sean de interés.
Ver resultados de búsqueda – a nivel serie
Al realizar una búsqueda en el primer nivel de la jerarquía
("HOME"), el sistema ofrece resultados a nivel
serie. Como en este caso solo hay una serie, el sistema
indica el número de carpetas de la serie que responden
a la consulta realizada con un grado de confianza mayor
o igual al especificado.
Ver resultados de búsqueda
– a nivel manuscrito o carpeta
Al hacer click en una serie (la única en este caso),
se ven las miniaturas de las carpetas que responden a la
consulta realizada incluidos en dicha serie.
En cada miniatura se muestra el identificador de la carpeta (o
manuscrito) y el número de páginas en las que la consulta ha
producido algún resultado.
También se muestra una barra que indica el grado de confianza
en los resultados encontrados. Al situar el cursor sobre
dicha barra se muestra el valor preciso de la confianza en tanto
por ciento.
Ver resultados de búsqueda – a nivel página
Tras pulsar en la miniatura de una carpeta o manuscrito
concretos, muestran miniaturas de las páginas de dicho nanuscrito
que responden a la consulta y nivel de confianza especificados.
En cada miniatura se muestra el número de página, el número
de ocurrencias de la consulta encontradas en esa página
y una barra que indica el grado de de confianza en esos
resultados.
Se puede situar el cursor sobre la miniatura de una página
para ver el nombre de la imagen correspondiente.
Al hacer click en la imagen de la miniatura de una página,
se abrirá la imagen real de dicha página. De nuevo, puede ser
conveniente abrir cada página en una nueva pestaña del navegador
con el fin de conservar resultados de búsqueda.
El identificador del manuscrito y el número de página aparecen
en la parte superior, a continuación de "Estás aquí:".
En la imagen de página, cada resultado de una consulta
(llamado ‘spot’) se destaca mediante un rectángulo
que rodea la palabra o palabras encontrada(s). El color de
este rectángulo indica el nivel de confianza, comenzando con
verde para indicar la máxima confianza y terminando en rojo
para indicar la mínima. Al situar el cursor sobre la zona
delimitada por un rectángulo se muestra el porcentaje preciso
de la confianza de ese spot.
Comenzar una nueva búsqueda
En cualquier momento y nivel de la jerarquía se puede iniciar una
nueva búsqueda escribiendo una nueva consulta en la caja de búsqueda.
Si ya se está viendo una carpeta o página concreta, la plataforma
solamente buscará dicha carpeta o página.
Para buscar en la totalidad de los manuscritos de santCugat,
se puede pulsar en ‘HOME’ (debajo de la caja de búsqueda)
o pulsar en el rótulo 'cerca al padró' en la parte
superior izquierda de la página web.
Para buscar dentro de un manuscrito en particular, hay que ir a la
página inicial de búsqueda (HOME), pulsar en la (única) serie
('Sant Cugat', en el centro de la página) y hacer click en la miniatura
del manuscrito o carpeta en el que desea buscar.
Opciones de búsqueda
Para obtener resultados más específicos y/o más acordes a
nuestras necesidades de información, hay disponible una amplia
gama de opciones de formato de consultas.
Esto incluye
comodines,
ortografía aproximada,
combinaciones booleanas de palabras y
secuencias de palabras.
Signos de puntuación y ortografía
- Escribir las consultas de búsqueda de forma sencilla,
evitando el uso de tildes, diéresis, guiones, etc.
(por ejemplo: escribir ‘Mataro’ en vez de ‘Mataró’).
Como excepción, la letra "ñ" se escribe como tal.
- Omitir signos de puntuación. Cualquiera de estos
símbolos que aparzca en una consulta es ignorado. Obviamente
esto no afecta a los símbolos que representan comodines, ortografía
aproximada, los operadores booleanos, los paréntesis, los
corchetes (necesarios para especificar secuencias de palabras)
ni la "@", (necesaria para especificar macros).
- En cualquier caso, aunque se incluyan tildes, signos especiales
o de puntuación, etc., el sistema los elimina y translitera todos
los caracteres a mayúsculas. Al iniciar la búsqueda, se puede ver
exactamente cual es la consulta transliterada debajo de la línea
'Estás aquí: ...' (se muestra entre comillas).
Palabras cortadas y abreviaturas
- Las palabres que puedan (o no) estar abreviadas en los manuscritos
se consultan mediante sus formas expandidas (usando si se desea
comodiones u ortografía aproximada). Por ejemplo, usar "señora"
para buscar tanto la palabra "señora" cono cualquiera de sus
probables abreviaturas tales como "Sra.", "Srª", "Sª.", etc.
Las formas abreviadas no han sido indexadas y por lo
tanto no se pueden buscar.
- Las palabres cortadas (al final de línea o de celda en una tabla)
se indican mediante el símbolo "¬" después del fragmento de palabra.
El mismo símbolo se añade anted del fragmento correspondiente de
continuación.
Por ejemplo, "Barce¬" / "¬lona", "veci¬" / "¬nos", "es¬" / "¬cribir".
Comodines
- El símbolo '?' puede usarse como un comodín que representa
cualquier carácter. Por ejemplo, podemos utilizar 'hij?s' para
buscar ocurrencias de 'hijos', e 'hijas'; o '?sa?el' para
buscar 'Isabel', 'Ysabel', 'Isavel' e 'Ysavel'.
- El símbolo '*' puede ser utilizado como un comodín que representa
cualquier secuencia de caracteres. Por ejemplo, podemos utilizar
'abad*' para buscar todas las ocurrencias de 'abad', 'abades',
'abadesa', 'abadesas', 'abadia', etc.
- Hace falta uno número mínimo de caracteres en una
palabra parcialmente escrita que use comodínes.
El número concreto depende del nivel al que se lance la
búsqueda: 4 en el primer nivel ("HOME"), 3 si se lanza a nivel
de la serie, 2 en el nivel de carpeta, llegando
a permitir un solo carácter si lanza a nivel página.
Ortografía aproximada
- El símbolo especial '~' puede ser añadido al final de una palabra
para encontrar palabras que difieran de la proporcionada en un solo
carácter. Se pueden especificar mayores disimilitudes poniendo
un número después del símbolo '~'. Por ejemplo, podemos utilizar
'Jimenez~' para encontrar ocurrencias de 'Jimenez', 'Gimenez',
'Ximenez', 'Jimenes' y 'Jimmenez' o utilizar 'Jimenez~2' para
adicionalmente encontrar 'Gimenes', 'Jimmenes', 'Ximenes',
'Gimmenez', 'Jimeno', 'Jimena', etc.
- De nuevo, la máxima disimilitud permitida depende
de a qué nivel estemos lanzando la búsqueda y la diferencia
entre la longitud del termino en la consulta (sin '~') y
la disimilitud máxima indicada.:
la diferencia debe ser mayor que 3 en el primer nivel
("HOME"); 2 en el nivel serie, 1 en carpeta,
bajando hasta 0 para el nivel página.
- Tanto la búsqueda aproximada como el uso de comodines
conlleva una carga computacional importante para el servidor,
por lo que en algunos casos pueden relentizar notablemente
la respuesta del sistema.
Consultas con múltiples palabras
Las palabras individuales pueden ser combinadas en 'consultas
compuestas' de tres maneras:
consultas booleanas,
consultas Y-con proximidad y
consultas de palabras en secuencia.
- Consultas booleanas (Y, O, NO).
Los operadores Y, O , NO pueden ser expresados utilizando
los siguientes símbolos:
- Y, '&&': Por ejemplo,
'vino && queso' devolverá resultados donde esté
presente la palabra 'vino' Y la palabra 'queso').
El operador Y puede omitirse y la anterior consulta
puede escribirse de forma equivalente como 'vino queso'
- O,
'||':
Por ejemplo, 'amigo || enemigo' devolverá los resultados
donde se encuentren la palabra 'amigo', o 'enemigo',
o ambas.
- NO, '–': Situado delante de cada palabra
que no queremos encontrar. Por ejemplo
'Fernandez - Quiros - Ignacio' nos devolverá resultados
donde se encuentre la palabra 'Fernandez' pero NO
'Fernandez de Quiros' ni 'Ignacio Fernandez').
- Consultas Y-con proximidad
son consultas Y con un número para
especificar como de separados permitimos que estén
los términos.
El número es un porcentaje del tamaño total
de la imagen. Así, la consulta 'pleito &10& justicia'
encontrará imágenes donde estén el termino 'pleito' y
el termino 'justicia' pero ambos términos no estén
separados entre sí mas de un 10% del tamaño total
de la imagen.
- El número de resultados de búsqueda devueltos que se
indica corresponde con el número total de palabras encontradas
que casan con la consulta.
- Consultas de palabras en secuencia.
Son consultas de tipo Y donde se requiere que las palabras
estén, aproximadamente, una detrás de otra. Estas consultas
pueden ser expresadas como una secuencia de palabras
entre corchetes.
- Las consultas de palabras en secuencia no se
interpretan como segmentos exactos de texto, sino que se
permite que aparezcan algunas palabras (cortas) extra entre
cada termino de la consulta.
Por ejemplo, '[Puerto de Veracruz]' puede devolver
resultados que contengan frases como 'Puerto Veracruz',
'Puerto de la Veracruz', etc.
- En el caso de secuencias, el número reportado como cantidad
de resultados de la búsqueda corresponde con el número
total de veces que se ha encontrado la secuencia.
Combinaciones de tipos de búsquedas
- Las consultas booleanas, de secuencias o de proximidad se
pueden mezclar de forma arbitraria para crear búsquedas
más complejas. Adicionalmente, se pueden utilizar comodines
y ortografía aproximada en cualquier tipo de consulta.
-
Se pueden usar PARENTESIS '( )'
para agrupar: E.g. 'Fernandez && (Quiros || Escribano)'
devolverá las páginas donde este al menos una instancia
de 'Fernandez' y al menos una aparición de 'Quiros',
de 'Escribano', o de ambas palabras. De forma similar
'[puerto de (Cadiz || Veracruz)]' encontrará páginas
con las secuencias 'puerto de Cadiz', 'puerto de Veracruz',
o ambas.
Consultas basadas en columnas de tablas
Una búsqueda de columna se expresa entre corchetes angulares
mediante dos palabras o combinaciones de palabras, separadas
por una coma (","). La combinación a la izquierda de la coma se
usa para expresar texto de una cabecera de columna (o varias
cabeceras contiguas); la combinación de la derecha expres texto
que se espera encontrar en columnas encabezadas por dicha(s)
cabecera(s). Tanto la coma como los corchetes angulares deben
separarse con espacio en blanco del resto del texto de la consulta.
Por ejemplo, la consulta:
'< Fecha nacimiento Dia Mes , [25 diciembre] >'
obtendrá imágenes de tablas en las que hay una (o más) columna
(o columnas contiguas) cuya(s) cabecera(s) contiene(n) las palabras
'Fecha nacimiento Dia', y 'Mes', y en dicha(s) columna(s) hay una
(o más) celda(s) con la secuencia de palabras '[25 diciembre]'
Macros
Las búsquedas frecuentes o complejas pueden ser encapsuladas
en "macro-búsquedas", o simplemente "macros". Las macros se
identifican utilizando palabras especiales precedidas por
el símbolo "@". El administrador del sistema pueden definir
macros en el fichero de configuración del motor de búsqueda.
A modo de ejemplo, a continuación se listan algunas macros
predefinidas para esta serie.
Macros predefinidas
- @A = $APELLIDO
- @N = $NOMBRE
- @EDAD = ( Años de edad )
- @FECHANACIMIENTO , @FN = ( Fecha nacimiento )
- @TIEMPORESIDE, @TR = ( Tiempo en distrito )
- @CALLEHABITA, @CH = ( Calle sitio habita )
- @NOMBRECOMPLETO, @NC = ( NOMBRE APELLIDOS )
Las dos primeras están destinadas a abreviar las consultas con
etiquetas semánticas y el resto para simplificar algunas
consultas basadas en columnas de tablas.
Ejemplos del uso de estas macros se muestran en la sección
"Ejemplos de consultas" (
Macros).