!pip install pyarrow 
!pip install sqlparse
!pip uninstall --yes autoai-libs tensorflow-text numba

Requirement already satisfied: pyarrow in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (5.0.0)
Requirement already satisfied: numpy>=1.16.6 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from pyarrow) (1.20.3)
Collecting sqlparse
  Downloading sqlparse-0.4.2-py3-none-any.whl (42 kB)
     |████████████████████████████████| 42 kB 503 kB/s  eta 0:00:01
Installing collected packages: sqlparse
Successfully installed sqlparse-0.4.2
Found existing installation: autoai-libs 1.13.1
Uninstalling autoai-libs-1.13.1:
  Successfully uninstalled autoai-libs-1.13.1
Found existing installation: tensorflow-text 2.7.3
Uninstalling tensorflow-text-2.7.3:
  Successfully uninstalled tensorflow-text-2.7.3
Found existing installation: numba 0.54.1
Uninstalling numba-0.54.1:
  Successfully uninstalled numba-0.54.1


!pip install --upgrade ibmcloudsql

Collecting ibmcloudsql
  Downloading ibmcloudsql-0.5.10.tar.gz (57 kB)
     |████████████████████████████████| 57 kB 4.0 MB/s  eta 0:00:01
  Installing build dependencies ... done
  Getting requirements to build wheel ... done
    Preparing wheel metadata ... done
Collecting sqlparse>=0.4.2
  Downloading sqlparse-0.4.3-py3-none-any.whl (42 kB)
     |████████████████████████████████| 42 kB 1.2 MB/s  eta 0:00:01
Collecting backoff==1.10.0
  Downloading backoff-1.10.0-py2.py3-none-any.whl (31 kB)
Requirement already satisfied: typing-extensions in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (4.1.1)
Collecting deprecated
  Downloading Deprecated-1.2.13-py2.py3-none-any.whl (9.6 kB)
Requirement already satisfied: importlib-metadata in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (4.8.2)
Requirement already satisfied: requests>=2.2.0 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (2.26.0)
Requirement already satisfied: pyarrow in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (5.0.0)
Requirement already satisfied: numpy>=1.20.3 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (1.20.3)
Collecting pre-commit
  Downloading pre_commit-2.20.0-py2.py3-none-any.whl (199 kB)
     |████████████████████████████████| 199 kB 67.2 MB/s eta 0:00:01
Requirement already satisfied: ibm-cos-sdk>=2.10.0 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (2.11.0)
Requirement already satisfied: packaging in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (21.3)
Requirement already satisfied: ibm-cos-sdk-core>=2.10.0 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (2.11.0)
Requirement already satisfied: python-dateutil in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (2.8.2)
Requirement already satisfied: pandas>=1.1.0 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibmcloudsql) (1.3.4)
Collecting isodate
  Downloading isodate-0.6.1-py2.py3-none-any.whl (41 kB)
     |████████████████████████████████| 41 kB 489 kB/s  eta 0:00:01
Requirement already satisfied: ibm-cos-sdk-s3transfer==2.11.0 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibm-cos-sdk>=2.10.0->ibmcloudsql) (2.11.0)
Requirement already satisfied: jmespath<1.0.0,>=0.7.1 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibm-cos-sdk>=2.10.0->ibmcloudsql) (0.10.0)
Requirement already satisfied: urllib3<1.27,>=1.26.7 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from ibm-cos-sdk-core>=2.10.0->ibmcloudsql) (1.26.7)
Requirement already satisfied: pytz>=2017.3 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from pandas>=1.1.0->ibmcloudsql) (2021.3)
Requirement already satisfied: six>=1.5 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from python-dateutil->ibmcloudsql) (1.15.0)
Requirement already satisfied: idna<4,>=2.5 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from requests>=2.2.0->ibmcloudsql) (3.3)
Requirement already satisfied: certifi>=2017.4.17 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from requests>=2.2.0->ibmcloudsql) (2022.6.15)
Requirement already satisfied: charset-normalizer~=2.0.0 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from requests>=2.2.0->ibmcloudsql) (2.0.4)
Requirement already satisfied: wrapt<2,>=1.10 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from deprecated->ibmcloudsql) (1.12.1)
Requirement already satisfied: zipp>=0.5 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from importlib-metadata->ibmcloudsql) (3.6.0)
Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from packaging->ibmcloudsql) (3.0.4)
Collecting virtualenv>=20.0.8
  Downloading virtualenv-20.16.5-py3-none-any.whl (8.8 MB)
     |████████████████████████████████| 8.8 MB 74.8 MB/s eta 0:00:01
Requirement already satisfied: toml in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from pre-commit->ibmcloudsql) (0.10.2)
Collecting nodeenv>=0.11.1
  Downloading nodeenv-1.7.0-py2.py3-none-any.whl (21 kB)
Requirement already satisfied: pyyaml>=5.1 in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from pre-commit->ibmcloudsql) (5.4.1)
Collecting identify>=1.0.0
  Downloading identify-2.5.5-py2.py3-none-any.whl (98 kB)
     |████████████████████████████████| 98 kB 7.7 MB/s  eta 0:00:01
Collecting cfgv>=2.0.0
  Downloading cfgv-3.3.1-py2.py3-none-any.whl (7.3 kB)
Requirement already satisfied: setuptools in /opt/ibm/conda/miniconda3.9/lib/python3.9/site-packages (from nodeenv>=0.11.1->pre-commit->ibmcloudsql) (58.0.4)
Collecting platformdirs<3,>=2.4
  Downloading platformdirs-2.5.2-py3-none-any.whl (14 kB)
Collecting filelock<4,>=3.4.1
  Downloading filelock-3.8.0-py3-none-any.whl (10 kB)
Collecting distlib<1,>=0.3.5
  Downloading distlib-0.3.6-py2.py3-none-any.whl (468 kB)
     |████████████████████████████████| 468 kB 48.9 MB/s eta 0:00:01
Building wheels for collected packages: ibmcloudsql
  Building wheel for ibmcloudsql (PEP 517) ... done
  Created wheel for ibmcloudsql: filename=ibmcloudsql-0.5.10-py3-none-any.whl size=59142 sha256=f1988663a36aaa3baa92ec30ff59d5f59f8e843db321ce529052291eb587819d
  Stored in directory: /home/spark/shared/.cache/pip/wheels/05/2c/f5/0a787ef991cdd05edc4b66b54b251cd5cc6b19202e83ec197d
Successfully built ibmcloudsql
Installing collected packages: platformdirs, filelock, distlib, virtualenv, nodeenv, identify, cfgv, sqlparse, pre-commit, isodate, deprecated, backoff, ibmcloudsql
Successfully installed backoff-1.10.0 cfgv-3.3.1 deprecated-1.2.13 distlib-0.3.6 filelock-3.8.0 ibmcloudsql-0.5.10 identify-2.5.5 isodate-0.6.1 nodeenv-1.7.0 platformdirs-2.5.2 pre-commit-2.20.0 sqlparse-0.4.3 virtualenv-20.16.5


import ibmcloudsql
import sqlparse 
import pandas as pd
import getpass
import pprint
from pygments import highlight
from pygments.lexers import get_lexer_by_name
from pygments.formatters import HtmlFormatter, Terminal256Formatter
lexer = get_lexer_by_name("sql", stripall=True)
formatter = Terminal256Formatter(style='vim')
apikey=''
instancecrn=''
targeturl=''


cos_bucket = project.get_metadata()['entity']['storage']['properties']
targeturl="cos://" + cos_bucket['bucket_region'] + "/" + cos_bucket['bucket_name'] + "/"
targeturl


if apikey == '':
    apikey=getpass.getpass('Enter IBM Cloud API Key: ')
else:
    apikey=getpass.getpass('Enter a new IBM Cloud API Key or leave empty to use the previous one: ') or apikey
if instancecrn == '':
    instancecrn=input('Enter Data Engine instance CRN to use: ')
else:
    instancecrn=input('Enter new Data Engine instance CRN to use (leave empty to use ' + instancecrn + '): ') or instancecrn
if targeturl == '':
    targeturl=input('Enter target URL for SQL results: ')
else:
    targeturl=input('Enter new target URL for SQL results (leave empty to use ' + targeturl + '): ') or targeturl
 
 
sqlClient = ibmcloudsql.SQLQuery(apikey, instancecrn, client_info='Data Engine Starter Notebook', target_cos_url=targeturl, max_concurrent_jobs=4, max_tries=3 )
#sqlClient.configure()  # use this if you want to change the API key or Data Engine CRN later
    
sqlClient.logon()

Enter IBM Cloud API Key: ········
Enter Data Engine instance CRN to use: crn:v1:bluemix:public:sql-query:us-south:a/d86af7367f70fba4f306d3c19c938f2f:d1b2c005-e3d8-48c0-9247-e9726a7ed510::
Enter target URL for SQL results: cos://us-south/sqltempregional/


print('\nYour Data Engine web console link:\n')
sqlClient.sql_ui_link()

Your Data Engine web console link:

https://dataengine.cloud.ibm.com/sqlquery/?instance_crn=crn:v1:bluemix:public:sql-query:us-south:a/d86af7367f70fba4f306d3c19c938f2f:d1b2c005-e3d8-48c0-9247-e9726a7ed510::

'https://dataengine.cloud.ibm.com/sqlquery/?instance_crn=crn:v1:bluemix:public:sql-query:us-south:a/d86af7367f70fba4f306d3c19c938f2f:d1b2c005-e3d8-48c0-9247-e9726a7ed510::'


sqlClient.get_schema_data("cos://us-geo/sql/employees.parquet", type="parquet", dry_run=True)

sqlClient.get_schema_data("cos://us-geo/sql/employees.parquet", type="parquet")


sql=input('Enter your SQL statement (leave empty to use a simple sample SQL)')

if sql == '':
    sql='SELECT o.OrderID, c.CompanyName, e.FirstName, e.LastName FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET o, \
         cos://us-geo/sql/employees.parquet STORED AS PARQUET e, cos://us-geo/sql/customers.parquet STORED AS PARQUET c \
         WHERE e.EmployeeID = o.EmployeeID AND c.CustomerID = o.CustomerID AND o.ShippedDate > o.RequiredDate AND o.OrderDate > "1998-01-01" \
         ORDER BY c.CompanyName'
if " INTO " not in sql:
    sql += ' INTO {}myQueryResult STORED AS CSV'.format(targeturl)
formatted_sql = sqlparse.format(sql, reindent=True, indent_tabs=True, keyword_case='upper')
lexer = get_lexer_by_name("sql", stripall=True)
formatter = Terminal256Formatter(style='tango')
result = highlight(formatted_sql, lexer, formatter)
from IPython.core.display import display, HTML
print('\nYour SQL statement is:\n')
print(result)


sqlClient.reset_()
(sqlClient.select_("o.OrderID, c.CompanyName, e.FirstName, e.LastName")
        .from_cos_("cos://us-geo/sql/orders.parquet", format_type="parquet", alias="o")
        .from_cos_("cos://us-geo/sql/employees.parquet", format_type="parquet", alias="e")
        .from_cos_("cos://us-geo/sql/customers.parquet", alias="c")
        .where_('e.EmployeeID = o.EmployeeID AND c.CustomerID = o.CustomerID AND o.ShippedDate > o.RequiredDate AND o.OrderDate > "1998-01-01"')
        .order_by_("c.CompanyName")
        .store_at_(targeturl + "myResult", format_type="csv")
)

sqlClient.print_sql()


result_df = sqlClient.run_sql(sql)
if isinstance(result_df, str):
    print(result_df)


result_df.head(10)


ax = result_df.FirstName.value_counts().plot(kind='bar', title="Orders per Employee")
ax.set_xlabel("First Name")
ax.set_ylabel("Order Count");


jobId = sqlClient.submit_sql(sql)
print("SQL job submitted and running in the background. jobId = " + jobId)


print("Job status for " + jobId + ": " + sqlClient.get_job(jobId)['status'])


job_status = sqlClient.wait_for_job(jobId)
print("Job " + jobId + " terminated with status: " + job_status)
if job_status == 'failed':
    details = sqlClient.get_job(jobId)
    print("Error: {}\nError Message: {}".format(details['error'], details['error_message']))


result_df = sqlClient.get_result(jobId)
print("OK, we have a dataframe for the SQL result that has been stored by Data Engine in " + sqlClient.get_job(jobId)['resultset_location'])


print("Internal SQL string created earlier using sql_magic:\n ")
sqlClient.print_sql()


jobId= sqlClient.submit()
print("\nSQL job submitted and running in the background. jobId = " + jobId)


job_status = sqlClient.wait_for_job(jobId)
print("Job " + jobId + " terminated with status: " + job_status)
if job_status == 'failed':
    details = sqlClient.get_job(jobId)
    print("Error: {}\nError Message: {}".format(details['error'], details['error_message']))


result = sqlClient.execute_sql(sql, get_result=True) 
display(result.data)


pagination_sql='SELECT OrderID, c.CustomerID CustomerID, CompanyName, City, Region, PostalCode \
                FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET o, \
                     cos://us-geo/sql/customers.parquet STORED AS PARQUET c \
                WHERE c.CustomerID = o.CustomerID \
                INTO {}paginated_orders STORED AS PARQUET'.format(targeturl)

formatted_etl_sql = sqlparse.format(pagination_sql, reindent=True, indent_tabs=True, keyword_case='upper')
result = highlight(formatted_etl_sql, lexer, formatter)
print('\nExample Statement is:\n')
print(result)

jobId = sqlClient.submit_sql(pagination_sql, pagesize=10)
job_status = sqlClient.wait_for_job(jobId)
print("Job " + jobId + " terminated with status: " + job_status)
job_details = sqlClient.get_job(jobId)
if job_status == 'failed':
    print("Error: {}\nError Message: {}".format(job_details['error'], job_details['error_message']))


print("Number of pages written by job {}: {}".format(jobId, len(sqlClient.list_results(jobId))))


pagenumber=1
sqlClient.get_result(jobId, pagenumber=pagenumber).head(100)


pagenumber+=1
sqlClient.get_result(jobId, pagenumber).head(100)


job_details = sqlClient.get_job(jobId)
pprint.pprint(job_details)


etl_sql='SELECT OrderID, c.CustomerID CustomerID, CompanyName, ContactName, ContactTitle, Address, City, Region, PostalCode, Country, Phone, Fax \
         EmployeeID, OrderDate, RequiredDate, ShippedDate, ShipVia, Freight, ShipName, ShipAddress, \
         ShipCity, ShipRegion, ShipPostalCode, ShipCountry FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET o, \
         cos://us-geo/sql/customers.parquet STORED AS PARQUET c \
         WHERE c.CustomerID = o.CustomerID \
         INTO {}customer_orders STORED AS PARQUET PARTITIONED BY (ShipCountry, ShipCity)'.format(targeturl)
formatted_etl_sql = sqlparse.format(etl_sql, reindent=True, indent_tabs=True, keyword_case='upper')
result = highlight(formatted_etl_sql, lexer, formatter)
print('\nExample ETL Statement is:\n')
print(result)


jobId = sqlClient.submit_sql(etl_sql)
print("SQL job submitted and running in the background. jobId = " + jobId)
job_status = sqlClient.wait_for_job(jobId)
print("Job " + jobId + " terminated with status: " + job_status)
job_details = sqlClient.get_job(jobId)
if job_status == 'failed':
    print("Error: {}\nError Message: {}".format(job_details['error'], job_details['error_message']))


resultset_location = job_details['resultset_location']
sqlClient.get_cos_summary(resultset_location)


pd.set_option('display.max_colwidth', None)
result_objects_df = sqlClient.list_results(jobId)
print("List of objects written by ETL SQL:")
result_objects_df.head(200)


sqlClient.get_result(jobId).head(100)


optimized_sql='SELECT * FROM {} STORED AS PARQUET WHERE ShipCountry = "Austria" AND ShipCity="Graz" \
               INTO {} STORED AS PARQUET'.format(resultset_location, targeturl)
formatted_optimized_sql = sqlparse.format(optimized_sql, reindent=True, indent_tabs=True, keyword_case='upper')
result = highlight(formatted_optimized_sql, lexer, formatter)
print('\nRunning SQL against the previously produced hive style partitioned objects as input:\n')
print(result)

jobId = sqlClient.submit_sql(optimized_sql)
job_status = sqlClient.wait_for_job(jobId)
print("Job " + jobId + " terminated with status: " + job_status)
job_details = sqlClient.get_job(jobId)
if job_status == 'failed':
    print("Error: {}\nError Message: {}".format(job_details['error'], job_details['error_message']))


sqlClient.get_job(jobId)


pd.set_option('display.max_colwidth', None)
sql="SELECT * FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET INTO {} STORED AS PARQUET PARTITIONED INTO 3 OBJECTS".format(targeturl)
jobId = sqlClient.submit_sql(sql)
sqlClient.wait_for_job(jobId)
sqlClient.list_results(jobId).head(100)


sqlClient.delete_result(jobId)


sql="SELECT * FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET LIMIT 100 INTO {}first100orders.parquet JOBPREFIX NONE STORED AS PARQUET".format(targeturl)
jobId = sqlClient.submit_sql(sql)
sqlClient.wait_for_job(jobId)
sqlClient.list_results(jobId).head(100)


sqlClient.rename_exact_result(jobId)
sqlClient.list_results(jobId).head(100)


pd.set_option('display.max_colwidth', None) 
#You can change the value -1 for display.max_colwidth to a positive integer if you want to truncate the cell content to shrink the overall table display size.

job_history_df = sqlClient.get_jobs()
job_history_df.head(100)


sqlClient.export_job_history(targeturl + "my_job_history/",   "job_export_" , ".parquet")  
# sqlClient.export_job_history(targeturl + "my_job_history/" , "job_export_" , ".parquet")


# Run another SQL:
sql="SELECT * FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET LIMIT 100 INTO {} STORED AS PARQUET".format(targeturl)
jobId = sqlClient.submit_sql(sql)
sqlClient.wait_for_job(jobId)

#Export job history again:
sqlClient.export_job_history(targeturl + "my_job_history/",   "job_export_" , ".parquet")

# Query exported job history:
pd.set_option('display.max_colwidth', 20)
sql = "SELECT * FROM {}my_job_history/ STORED AS PARQUET INTO {} STORED AS PARQUET".format(targeturl, targeturl)
sqlClient.run_sql(sql)


 
file_name="tracked_jobs1.json"
sqlClient.connect_project_lib(project, file_name)

sql_stmt1='SELECT o.OrderID  FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET o LIMIT 5 ' 
sql_stmt2='SELECT o.OrderID  FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET o LIMIT 10 ' 
sql_stmt3='SELECT o.OrderID  FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET o LIMIT 15 '
sql_stmt4='SELECT o.OrderID  FROM cos://us-geo/sql/orders.parquet STORED AS PARQUET o LIMIT 20'
 

jobs = [ ]

jobs.append(sqlClient.submit_and_track_sql(sql_stmt1))
jobs.append(sqlClient.submit_and_track_sql(sql_stmt2))
jobs.append(sqlClient.submit_and_track_sql(sql_stmt3))  
jobs.append(sqlClient.submit_and_track_sql(sql_stmt4))


sqlClient.process_failed_jobs_until_all_completed(jobs)


sqlClient.create_table("customers", cos_url="cos://us-geo/sql/customers.csv", format_type="csv", force_recreate=True)


customers_schema = sqlClient.describe_table("customers")
customers_schema.head(100)


sqlClient.create_table("customers", cos_url="cos://us-geo/sql/customers.csv", format_type="csv", force_recreate=True,
                       schema="(customerID string, companyName string, contactName string, contact_Title string, address string, city string)")


df = sqlClient.show_tables()
try:
    found = df[df["tableName"].str.contains("customers_partitioned")]
except Exception:
    found = []
if len(found) > 0:
    sqlClient.drop_table("customers_partitioned")
sqlClient.create_partitioned_table("customers_partitioned", cos_url="cos://us-geo/sql/customers_partitioned.csv", format_type="csv")
customers_partitioned_schema = sqlClient.describe_table("customers_partitioned")
customers_partitioned_schema.head(100)


sqlClient.recover_table_partitions("customers_partitioned")


 sqlClient.show_tables()


hive_client_dir="/tmp/dataengine_jars"
!mkdir -p {hive_client_dir}
!wget https://us.sql-query.cloud.ibm.com/download/catalog/hive-metastore-standalone-client-3.1.2-sqlquery.jar -O {hive_client_dir}/dataengine-hive-client.jar


dataengine_spark_version="1.0.10"
!wget https://us.sql-query.cloud.ibm.com/download/catalog/dataengine-spark-integration-{dataengine_spark_version}.jar -O user-libs/spark2/dataengine-spark.jar
!wget https://us.sql-query.cloud.ibm.com/download/catalog/dataengine_spark-{dataengine_spark_version}-py3-none-any.whl -O /tmp/dataengine_spark-{dataengine_spark_version}-py3-none-any.whl
!pip install --user --force-reinstall /tmp/dataengine_spark-{dataengine_spark_version}-py3-none-any.whl


from dataengine import SparkSessionWithDataengine
session_builder = SparkSessionWithDataengine.enableDataengine(instancecrn, apikey, "public", hive_client_dir)
spark = session_builder.appName("Spark DataEngine integration").getOrCreate()


from dataengine import SparkSessionWithDataengine
session_builder = SparkSessionWithDataengine.enableDataengine(instancecrn, apikey, "public")
spark = session_builder.appName("Spark DataEngine integration").getOrCreate()


from dataengine import SparkSessionWithDataengine
session_builder = SparkSessionWithDataengine.enableDataengine(instancecrn, apikey, "public")
spark = session_builder.appName("Spark DataEngine integration").getOrCreate()


for conf in spark.sparkContext.getConf().getAll():
    key = conf[0]
    value = "***" if apikey == conf[1] else conf[1]
    if key.startswith("spark.hive.metastore"):
        print(key, value)


if not targeturl.endswith('/'):
    targeturl+="/"
jobId = sqlClient.submit_sql("SELECT * FROM cos://us-geo/sql/customers.csv INTO {}my_customers.parquet JOBPREFIX NONE STORED AS PARQUET".format(targeturl))
sqlClient.wait_for_job(jobId)
sqlClient.rename_exact_result(jobId)
sqlClient.create_table("my_customers", cos_url="{}my_customers.parquet".format(targeturl), format_type="parquet", force_recreate=True)


spark.sql('show tables').show(truncate=False)


spark_df = spark.sql('select count(*), country from my_customers group by country')
spark_df.show(truncate=True)

Using IBM Data Engine (f.k.a. IBM SQL Query)¶

1. Processing

2. Meta Data

Table of contents¶

1. Setup libraries ¶

2. Configure the Data Engine client ¶

2.1 Using the project bucket ¶

2.2 Setting the Data Engine parameters ¶

3. Get the schema of your data ¶

4. Create your SQL statement ¶

5. Run your SQL statement ¶

5.1 Synchronous Execution()¶

5.2 Asynchronous Execution ¶

Alternative method for asynchronous SQL submission using the internal statement created earlier using sql_magic :¶

5.3 Synchronous execution with optional result dataframe ¶

5.4 Use paginated SQL ¶

5.5 get_job()¶

6. Running ETL SQLs ¶

7. Work with result objects ¶

7.1 list_results()¶

7.2 delete_result()¶

7.3 Enforce exact target object name ¶

8. Manage SQL jobs ¶

8.1. Work with Job History ¶

8.2. Batch automation of SQL jobs ¶

9 Work with hive tables ¶

10. Custom Spark with Hive Metastore in Data Engine ¶

10.1. Set up Data Engine libraries (when using your own Spark runtimes)¶

Before you continue in the next sub section: Restart Kernel now! Select: Kernel -> Restart¶

10.2. Run Custom Spark job with Data Engine as Table Catalog ¶

11. Next steps ¶

Authors ¶