DECISION STATS

Movie Review -The Batman is the worst Batman movie sans Ben Affleck

We have seen Batman movies before. The Gold Standard of the Nolan Trilogy. The original series of Keaton-Kilmer-Clooney (Clooney was terrible too)

Ben Affleck was a bad Batman , but better than Daredevil

This one is an attempt to make Batman the Greatest Detective some angst and brooding. It fails

All you have is a wasted effort and a long movie

I could be a better Batman. Its like that

MLFlow on Azure Databricks

On Azure Databricks you can create experiments using MLFlow https://mlflow.org/

notebook_path = ‘/Users/Ajay/Folder’

notebook_path = notebook_path
mlflow.set_experiment(notebook_path + ‘_experiments’)

with mlflow.start_run(run_name=”ExperimentRun”+curr_ts):
mlflow.log_params({
‘RSME’: RSME,
‘AUC’: AUC,

})
mlflow.end_run()

https://docs.microsoft.com/en-us/azure/databricks/applications/mlflow/

https://docs.microsoft.com/en-us/azure/databricks/applications/mlflow/quick-start-python

Extract date from datetime in Pandas column

use .dt.date

df[‘column’] = pd.to_datetime(df[‘column’], format=’%Y-%m-%d’).dt.date

Source-

https://stackoverflow.com/questions/16176996/keep-only-date-part-when-using-pandas-to-datetime

Adding leading zeros to pandas using zfill

pandasdf[“Col1”]= pandasdf[“Col1”].astype(str)

width = 5

pandasdf[“Col1”]= pandasdf[“Col1”].str.zfill(width)

https://stackoverflow.com/questions/23836277/add-leading-zeros-to-strings-in-pandas-dataframe

Converting Spark DataFrame to Pandas DataFrame

%pythondf=spark.sql(“select * from name_csv”)
display(df.select(“*”))

pandas_df = df.toPandas()

Creating SQL Table using Spark

%python
acc_1=spark.sql(“create table test_spark as select columns, column,columnc from table where to_date(ac_opn_dt) < ‘2012-07-01’ )”)

# Given pandas dataframe, return a spark’s dataframe.
def pandas_to_spark(pandas_df):
columns = list(pandas_df.columns)
types = list(pandas_df.dtypes)
struct_list = []
for column, typo in zip(columns, types):
struct_list.append(define_structure(column, typo))
p_schema = StructType(struct_list)
return sqlContext.createDataFrame(pandas_df, p_schema)