¿Cuál es la diferencia entre utf8mb4
y utf8
juegos de caracteres en MySQL ?
Ya conozco las codificaciones ASCII , UTF-8 , UTF-16 y UTF-32 ; pero tengo curiosidad por saber cuál es la diferencia del utf8mb4
grupo de codificaciones con otros tipos de codificación definidos en MySQL Server .
¿Existen beneficios / propuestas especiales de usar en utf8mb4
lugar de utf8
?
UTF-8 es una codificación de longitud variable. En el caso de UTF-8, esto significa que almacenar un punto de código requiere de uno a cuatro bytes. Sin embargo, la codificación de MySQL llamada "utf8" (alias de "utf8mb3") solo almacena un máximo de tres bytes por punto de código.
Por lo tanto, el juego de caracteres "utf8" / "utf8mb3" no puede almacenar todos los puntos de código Unicode: solo admite el rango 0x000 a 0xFFFF, que se denomina " Plano multilingüe básico ". Consulte también Comparación de codificaciones Unicode .
Esto es lo que (una versión anterior de la misma página en) tiene que decir la documentación de MySQL al respecto:
El conjunto de caracteres denominado utf8 [/ utf8mb3] utiliza un máximo de tres bytes por carácter y solo contiene caracteres BMP. A partir de MySQL 5.5.3, el conjunto de caracteres utf8mb4 utiliza un máximo de cuatro bytes por carácter que admite caracteres suplementarios:
Para un carácter BMP, utf8 [/ utf8mb3] y utf8mb4 tienen características de almacenamiento idénticas: mismos valores de código, misma codificación, misma longitud.
Para un carácter suplementario, utf8 [/ utf8mb3] no puede almacenar el carácter en absoluto , mientras que utf8mb4 requiere cuatro bytes para almacenarlo. Dado que utf8 [/ utf8mb3] no puede almacenar el carácter en absoluto, no tiene caracteres suplementarios en las columnas utf8 [/ utf8mb3] y no necesita preocuparse por convertir caracteres o perder datos al actualizar utf8 [/ utf8mb3] datos de versiones anteriores de MySQL.
Entonces, si desea que su columna admita el almacenamiento de caracteres que se encuentran fuera del BMP (y generalmente lo desea), como emoji , use "utf8mb4". Consulte también ¿Cuáles son los caracteres Unicode no BMP más comunes en el uso real? [cerrado].
El utf8mb4
conjunto de caracteres es útil porque hoy en día necesitamos soporte para almacenar no solo caracteres del idioma, sino también símbolos, emojis recién introducidos, etc.
Una buena lectura sobre Cómo admitir Unicode completo en bases de datos MySQL de Mathias Bynens también puede arrojar algo de luz sobre esto.
Tomado del Manual de referencia de MySQL 8.0 :
utf8mb4
: Una codificación UTF-8 del juego de caracteres Unicode que utiliza de uno a cuatro bytes por carácter.
utf8mb3
: Una codificación UTF-8 del juego de caracteres Unicode que utiliza de uno a tres bytes por carácter.
En MySQL utf8
es actualmente un alias para el utf8mb3
cual está obsoleto y se eliminará en una futura versión de MySQL . En ese punto utf8
se convertirá en una referencia utf8mb4
.
Entonces, independientemente de este alias, puede establecer conscientemente una utf8mb4
codificación.
Para completar la respuesta, me gustaría agregar el comentario de @ WilliamEntriken a continuación (también tomado del manual):
Para evitar la ambigüedad sobre el significado de
utf8
, considere especificarutf8mb4
explícitamente las referencias del juego de caracteres en lugar deutf8
.
En MySQL, se utf8
refiere a una implementación defectuosa del estándar UTF-8 en la que no se admiten todos los rangos de caracteres.
Específicamente, solo funcionan los personajes en el plano multilingüe básico, mientras que otros personajes se consideran inválidos. Esto se debe a que los valores dentro de ese plano, 0 a 65535 (algunos de los cuales están reservados por razones especiales) se pueden representar mediante codificaciones multibyte en UTF-8 de hasta 3 bytes, y la versión de MySQL de UTF-8 decidió arbitrariamente establezca eso como un límite.
Cuando MySQL lanzó esto, eso no fue un gran problema. Desde entonces, se han agregado más y más rangos de caracteres definidos a Unicode con valores fuera del plano multilingüe básico.
En un esfuerzo por no romper el código antiguo haciendo suposiciones particulares, MySQL retuvo la implementación rota y llamó a la versión más nueva y fija utf8mb4
. Esto ha llevado a cierta confusión con el nombre malinterpretado como si fuera algún tipo de extensión de UTF-8, en lugar de la verdadera implementación oficial de UTF-8 de MySQL.
Las versiones futuras de MySQL pueden eventualmente eliminar gradualmente la versión anterior, pero en el futuro previsible utf8mb4
se usará en su lugar para garantizar la codificación UTF-8 correcta.
Algunos pueden tener problemas para que yo describa la implementación anterior, que no cumple, como defectuosa o rota. Pero es cierto que al permitir solo codificaciones multibyte de hasta 3 bytes nunca siguió correctamente el estándar UTF-8 tal como existió en cualquier momento y esa es la razón de sus fallas. En ningún momento se definió que UTF-8 admitiera hasta 3 bytes: la única vez que no se definió como de hasta 4 bytes fue cuando originalmente se definió como de hasta 6 bytes (!!), que las especificaciones Unicode posteriores tienen decidió que era una exageración.
La estrella de HGTV, Christina Hall, revela que le diagnosticaron envenenamiento por mercurio y plomo, probablemente debido a su trabajo como manipuladora de casas.
Recientemente salió a la luz un informe policial que acusa a la estrella de 'Love Is Blind', Brennon, de violencia doméstica. Ahora, Brennon ha respondido a los reclamos.
Conozca cómo Wynonna Judd se dio cuenta de que ahora es la matriarca de la familia mientras organizaba la primera celebración de Acción de Gracias desde que murió su madre, Naomi Judd.
Descubra por qué un destacado experto en lenguaje corporal cree que es fácil trazar "tales paralelismos" entre la princesa Kate Middleton y la princesa Diana.
Los inodoros arrojan columnas de aerosol invisibles con cada descarga. ¿Como sabemos? La prueba fue capturada por láseres de alta potencia.
Air travel is far more than getting from point A to point B safely. How much do you know about the million little details that go into flying on airplanes?
The world is a huge place, yet some GeoGuessr players know locations in mere seconds. Are you one of GeoGuessr's gifted elite? Take our quiz to find out!
¿Sigue siendo efectivo ese lote de repelente de insectos que te quedó del verano pasado? Si es así, ¿por cuánto tiempo?
Si este tráiler de pesadilla de la temporada más reciente de Great British Bake Off te asustó y te hizo no volver a ver el programa, es posible que tengas suerte: PBS no ha decidido si se transmitirá o no la última temporada en los Estados Unidos. actualización, para aquellos que no siguen sin aliento este tipo de drama de nicho: el presentador Paul Hollywood y la hermosa carpa llena de batidoras de colores pastel y cuadros se trasladaron de la BBC al Canal 4; Mary Berry, Sue Perkins y Mel Giedroyc renunciaron.
Foto: Netflix Oh, Hello On Broadway (Netflix): Después de llegar a Broadway el año pasado, los dos locos del Upper West Side interpretados por John Mulaney y Nick Kroll finalmente llegaron a Netflix. El especial consta del espectáculo en el escenario, algunos momentos entre bastidores y un invitado muy especial de “Too Much Tuna”.
¿Quiere probar un cepillo de dientes Sonicare sin gastar mucho dinero en uno de sus modelos favoritos de gama alta? Puede comprar un kit de la Serie 2 o Serie 3 por tan solo $ 30 hoy en Amazon. Haga clic aquí para ver la lista completa de modelos elegibles y tenga en cuenta que se descontarán $ 10 adicionales en su carrito.
Tapas elásticas de silicona de Tomorrow's Kitchen, paquete de 12 | $14 | Amazonas | Código promocional 20OFFKINJALids son básicamente los calcetines de la cocina; siempre perdiéndose, dejando contenedores huérfanos que nunca podrán volver a cerrarse. Pero, ¿y si sus tapas pudieran estirarse y adaptarse a todos los recipientes, ollas, sartenes e incluso frutas en rodajas grandes que sobran? Nunca más tendrás que preocuparte por perder esa tapa tan específica.
El equipo está a la espera de las medallas que ganó en los Juegos Olímpicos de Invierno de 2022 en Beijing, ya que se está resolviendo un caso de dopaje que involucra a la patinadora artística rusa Kamila Valieva.
Miles de compradores de Amazon recomiendan la funda de almohada de seda Mulberry, y está a la venta en este momento. La funda de almohada de seda viene en varios colores y ayuda a mantener el cabello suave y la piel clara. Compre las fundas de almohada de seda mientras tienen hasta un 46 por ciento de descuento en Amazon
El jueves se presentó una denuncia de delito menor amenazante agravado contra Joe Mixon.
El Departamento de Policía de Lafayette comenzó a investigar a un profesor de la Universidad de Purdue en diciembre después de recibir varias denuncias de un "hombre sospechoso que se acercaba a una mujer".
Al igual que el mundo que nos rodea, el lenguaje siempre está cambiando. Mientras que en eras anteriores los cambios en el idioma ocurrían durante años o incluso décadas, ahora pueden ocurrir en cuestión de días o incluso horas.
Estoy de vuelta por primera vez en seis años. No puedo decirte cuánto tiempo he estado esperando esto.
“And a river went out of Eden to water the garden, and from thence it was parted and became into four heads” Genesis 2:10. ? The heart is located in the middle of the thoracic cavity, pointing eastward.
Creo, un poco tarde en la vida, en dar oportunidades a la gente. Generosamente.