Prepare: Handling Missing Values

ChemML implements 4 strategies to handle missing values and interpolate, replace or remove them.

[1]:

import pandas as pd
import numpy as np
from chemml.preprocessing import MissingValues

[2]:

df = pd.DataFrame()
df['col1'] = [1,2,3,'nan','missing',4,5,np.nan]
df['col2'] = [1,'nan',np.inf,2,3,4,5,6]
df['col3'] = [1,2,3,4,5,6,7,8]
df

[2]:

[3]:

df2 = MissingValues(df, strategy='ignore_row',string_as_null=True,inf_as_null=True,missing_values=None)
df2

[3]:

[4]:

df = pd.DataFrame()
df['col1'] = [1,2,3,'nan','missing',4,5,np.nan]
df['col2'] = [1,'nan',np.inf,2,3,4,5,6]
df['col3'] = [1,2,3,4,5,6,7,8]
df

[4]:

[5]:

df2 = MissingValues(df, strategy='zero',string_as_null=True,inf_as_null=True,missing_values=None)
df2

[5]:

[6]:

df = pd.DataFrame()
df['col1'] = [1,2,3,'nan','missing',4,5,np.nan]
df['col2'] = [1,'nan',np.inf,2,3,4,5,6]
df

[6]:

[7]:

df2 = MissingValues(df,strategy='interpolate',string_as_null=True,inf_as_null=True,missing_values=None)
df2

[7]:

[8]:

df = pd.DataFrame()
df['col1'] = [1,2,3,'nan','missing',4,5,np.nan]
df['col2'] = [1,'nan',np.inf,2,3,4,5,6]
df['col3'] = [1,2,3,4,5,6,7,8]
df

[8]:

[9]:

df2 = MissingValues(df, strategy='ignore_column',string_as_null=True,inf_as_null=True,missing_values=None)
df2

[9]:

[ ]: