En la práctica esto hace que ya no busca una palabra, busca un conjunto de palabras (o un conjunto de píxeles) y eso lo cambia todo.
En una red neuronal (sea la que sea), no se "busca" nada, se ingresan unos valores (entrada), se realiza inferencia pasando esos datos por las diferentes capas (operaciones matemáticas), y se obtiene un resultado (salida). En el caso de los píxeles, lo que se realiza son diferentes convoluciones sobre los píxeles y se "generan" de salida diferentes resultados según dichas entradas. En este vídeo se explica también muy bien cómo funcionan las redes neuronales que funcionan con imágenes, donde las convoluciones son básicas:www.youtube.com/watch?v=V8j1oENVz00
Primero, una red neuronal precisamente lo que busca es replicar el funcionamiento de las neuronas.
Bueno, eso es mucho decir, porque no se sabe muy bien cómo funcionan. En una red neuronal artificial, lo que se hace es cambiar los pesos de cada neurona (nodo) de la red cuando se realiza el entrenamiento, y luego, con los pesos fijados, es cuando se produce la "inferencia" haciendo pasar por la red nuevos datos.
La diferencia de un transformer y una red clasica es que deja de funcionar de forma lineal, y pasa a funcionar de forma matricial. En la práctica esto hace que ya no busca una palabra, busca un conjunto de palabras (o un conjunto de píxeles) y eso lo cambia todo.
Hasta donde yo sé, eso no es exacto, o al menos, no del todo. Todas las redes neuronales funcionan de forma matricial, i.e, se usan matrices para realizar los cálculos cuando se tienen que "pasar" datos a través de las capas de neuronas. Un "transformer" son varias redes neuronales acopladas que "ponen atención" sobre los datos. Aquí hay muchas explicaciones y ejemplos gráficos que ayudan a entenderlo mejor: www.youtube.com/watch?v=xi94v_jl26U
Sigo...