0 / 0
Volver a la versión inglesa de la documentación
Creación de una tabla virtualizada a partir de archivos en ' Cloud Object Storage en Data Virtualization
Última actualización: 26 nov 2024
Creación de una tabla virtualizada a partir de archivos en Cloud Object Storage en Data Virtualization

En Data Virtualization, puede virtualizar y utilizar datos almacenados como archivos en el almacenamiento de objetos.

Puede virtualizar datos en archivos en los siguientes orígenes de datos de almacenamiento de objetos:
  • IBM® Cloud Object Storage
  • Amazon S3
  • Ceph®
  • S3 genérico
Segmente o combine datos de uno o varios archivos para crear una tabla virtual.

Antes de empezar

Para acceder a los datos en el almacenamiento de objetos en la nube, debe crear una conexión con el origen de datos donde se encuentran los archivos. Para más información sobre las fuentes de datos de almacenamiento de objetos, véase ' Fuentes de datos en almacenamiento de objetos en ' Data Virtualization.

Acerca de esta tarea

Vea el siguiente vídeo para obtener una visión general de los archivos virtualizados en ' Cloud Object Storage en Data Virtualization.

Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.

Procedimiento

  1. En el menú de navegación, pulse Datos > Data virtualization.
    El menú de servicio se abre de forma predeterminada en la página Orígenes de datos.
  2. En el menú de servicio, pulse Virtualización > Virtualizar y, a continuación, pulse el separador Archivos .
    Se muestra la lista de los orígenes de datos disponibles. Puede reducir los activos visualizados utilizando los filtros disponibles.

    Si ha especificado un nombre de grupo al configurar la conexión de origen de datos, pulse El icono de comillas angulares hacia abajo para expandir los detalles de conexión de almacenamiento de objetos para ver la información de Tipo de servicio y Grupo . Si no ha especificado un nombre de grupo al configurar la conexión de origen de datos, puede utilizar el campo de entrada Grupo para encontrar un grupo específico en el punto final.

    Si la lista de orígenes de datos no aparece, pulse RenovarEl icono de renovación.

  3. Seleccione el punto final de almacén de objetos donde desea explorar los archivos y carpetas.
    Para Cloud Object Storage, el punto final es el URL del almacenamiento de objetos.
    Aparece una lista de vías de acceso de archivo o grupos en el punto final. Puede navegar por la estructura de vía de acceso de archivo o puede pulsar El icono de vista para ver los detalles del contenido del primer archivo en la vía de acceso de archivo.

    No puede añadir el cubo a su cesta. Para añadir una vía de acceso de archivo a su cesta, debe seleccionar la vía de acceso de archivo para obtener una vista previa de los archivos en la vía de acceso y, a continuación, pulsar Añadir a la cesta. No puede seleccionar un archivo en el nivel de grupo, debe añadir el archivo a una vía de acceso de archivo en el grupo.

  4. Seleccione el archivo o vía de acceso de archivo que desea virtualizar y pulse Añadir al carro.
    Importante:
    • No puede virtualizar un solo archivo en una vía de acceso de archivo que contenga varios archivos. El URL se resuelve en la vía de acceso padre donde se encuentra el archivo y, a continuación, se virtualiza toda la vía de acceso del archivo. Si desea virtualizar un único archivo, puede moverlo a una vía de acceso de archivo separada. La vía de acceso de archivo separada no debe ser una vía de acceso de subarchivo de ninguna otra vía de acceso de archivo que esté o vaya a estar virtualizada.
    • Los archivos que desee virtualizar deben estar en una vía de acceso de archivo y no en el mismo nivel que el grupo. Por ejemplo, no puede virtualizar un archivo s3a://mynewbigsqlbucket/mydata.csv; debe colocar mydata.csv en una vía de acceso de archivo y virtualizar s3a://mynewbigsqlbucket/fi1epath1/mydata.csv, porque el proceso de virtualización no puede crear una tabla externa utilizando solo un nombre de grupo sin una vía de acceso.
  5. Pulse Ver carro para obtener una vista previa de las selecciones de datos de archivo como un archivo virtual.
    En esta ventana, puede editar los nombres de esquema, obtener una vista previa de los archivos que participan en una tabla fusionada o eliminar una selección de la cesta.

    Si tiene instalado IBM Knowledge Catalog, puede publicar su tabla virtual en un catálogo. Para obtener más información, consulte Publicación de datos virtuales en el catálogo en Data Virtualization.

  6. Recomendado: actualice el tipo de columnas particionadas de STRING por algo más adecuado. Inspeccione manualmente y especifique los tipos adecuados para las columnas de particionamiento para obtener el mejor rendimiento.
  7. Opcional: Pulse El icono de menú de desbordamiento y seleccione Editar columnas.
    Puede editar cualquier nombre de columna que no esté etiquetado como Columna de particionamiento y cambiar los tipos de columna utilizando el menú desplegable. Cuando esté satisfecho con los cambios, pulse Aplicar. Los nombres de columna actualizados se muestran después de virtualizar la tabla.
    Nota: Cuando virtualice archivos JSON con datos en japonés en IBM Cloud Object Storage y los nombres de columna en japonés no se visualicen correctamente, puede utilizar la opción allownonalphanumeric para ver correctamente las cabeceras de columna en japonés virtualizadas. Esta opción está inhabilitada de forma predeterminada y debe habilitarla. Para obtener más información, consulte Los nombres de columna en japonés no se visualizan correctamente en los datos virtualizados.
  8. Seleccione la opción adecuada para asignar la tabla virtual que se va a crear desde los datos del archivo:
    Asignar a Cuándo se utiliza esta opción
    Proyecto Seleccione Proyecto si ha creado la tabla virtual para utilizarla en un proyecto específico. A continuación, elija el proyecto adecuado. La tabla también aparece en Datos virtualizados.
    Datos virtualizados Seleccione Datos virtualizados si la tabla no se ha creado para utilizarla en un proyecto específico. Este valor es el valor predeterminado si no existe ningún proyecto.
  9. Seleccione Publicar en catálogo si también desea publicar en un catálogo seleccionado.
    En el menú desplegable se muestra una lista de catálogos disponibles. Cada catálogo se etiqueta como Gobernado o No gobernado.
    Nota: Debe tener al menos un catálogo en IBM Knowledge Catalog.

    Debe tener permiso para publicar en un catálogo. Un administrador puede habilitar si todos los objetos virtuales se publican en un catálogo gobernado seleccionado, lo que impide que un usuario publique en un catálogo especificado.

  10. Especifique un esquema en el campo Esquema .
    También puede crear un esquema siguiendo estos pasos.
    • Si tiene el rol Ingeniero Data Virtualization o Usuario, deje el campo Esquema como predeterminado para crear un esquema con su ID de usuario.
    • Si tiene el rol de Gestor de Data Virtualization, deje el campo Esquema como predeterminado para crear un esquema con su ID de usuario o introduzca el nuevo nombre del esquema en el campo Esquema.
    Para obtener más información, consulte Creación de esquemas para objetos virtuales.
  11. Pulse Virtualizar para completar el proceso.
    Cuando aparezca la ventana de estado, puede seleccionar ver los datos virtualizados o virtualizar más datos.

Qué hacer a continuación

  • Vea la estructura de tabla y los metadatos.
  • Gestione el acceso a la tabla.
  • Edite los nombres de columna y tipos de los activos de almacenamiento de objetos para que pueda preparar datos precisos para la virtualización.
  • Recopile estadísticas de la tabla virtualizada para optimizar el rendimiento de las consultas. Para obtener más información, consulte Recopilación de estadísticas en Data Virtualization.
  • Opcionalmente, en la página Datos virtualizados, publique el objeto virtual en el catálogo. Para obtener más información, consulte Publicación de datos virtuales en el catálogo en Data Virtualization.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información