import os
import argparse
import matplotlib.pyplot as plt
import cv2
from PIL import Image
from send2trash import send2trash

import numpy as np

import tensorflow as tf
import keras
from keras.preprocessing.image import ImageDataGenerator
from keras.applications.inception_v3 import InceptionV3, preprocess_input

keras.backend.clear_session()


#define paths and constants
cwd = os.getcwd()
data_path = os.path.join(cwd, 'data')
#data_path = "/Users/victorialiu/git/creatica/code/data/"
batch_size = 32
TARGET_SIZE = 299


## Parse command line arguments
def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument('-d', '--img-directory',
        help='subdirectory to validate images from using PIL' +
            'train, test',
        required = True)
#     parser.add_argument('-t', '--test-or-train',
#         help='directory to validate images from using ImageDataGenerator' +
#             'test, train',
#         required = True)

    return parser.parse_args()


def validate_images_PIL(img_directory = 'train'):
    """
    Sends to trash jpg images that cannot be opened with PIL.Image
    """
    bad_files = []

    #img_directory is the /train/ or /test/ directory
    img_directory = os.path.join(data_path, img_directory)

    #categories_dir gives the full path of
    #/train/category1 or /test/category1 etc
    categories_dirs = [
            os.path.join(img_directory, category)
            for category in os.listdir(img_directory)
            if os.path.isdir(os.path.join(img_directory, category))
        ]
    i = 0
    #go through the full path of each category
    for category_dir in categories_dirs:
        #go through each file of /train/category1 or /test/category1 etc
        for filename in os.listdir(category_dir):
            if filename.endswith('.jpg'):
                try:
                    Image.open(
                        os.path.join(category_dir, filename)
                        )
                except:
                    bad_files.append(
                        os.path.join(category_dir, filename)
                        )
                    send2trash(os.path.join(category_dir, filename))
    print(f'bad files according to PIL: {bad_files}')
    print('removed all bad files to trash')
    return bad_files


def image_data_augment(rescale=1/255, shear_range = False, zoom_range = False, horizontal_flip = False):
    """
    declare ImageDataGenerator class for augmenting images using shear, zoom, and flips
    normalize with 1./255
    """
    return (ImageDataGenerator(
            rescale=rescale,
            shear_range=shear_range,
            zoom_range=zoom_range,
            horizontal_flip=horizontal_flip))

def get_images(train_or_test):
    if train_or_test == 'train':
        datagen = image_data_augment(shear_range = 0.2, zoom_range = 0.2, horizontal_flip = True)
    else:
        datagen = image_data_augment()

    generator = datagen.flow_from_directory(
        os.path.join(data_path, train_or_test),
        target_size=(TARGET_SIZE, TARGET_SIZE),
        batch_size=batch_size,
        class_mode=None,
        shuffle=False)
    return generator


def determine_invalid_images(gen):
    """
    data validation
    """
    incorrect_files = []
    for i in range(len(gen)):
        try:
            a = gen[i]
        except:
            incorrect_files.append(gen.filenames[i])
            print(f'bad index at: {i}')
            print(f'bad filename DataImageGenerator: {gen.filenames[i]}')
            print('need to manually remove')



    return incorrect_files
# gen = get_images('train')
# determine_invalid_images(gen)


def main():

# comment this out when running from command line!
    img_directory = 'test'

# #     comment out when not running from cmdline
# #     get cmdline args
#     args = parse_args()
#     img_directory = args.img_directory


    # validate images with PIL
    validate_images_PIL(img_directory = img_directory)

    #validate images of ImageDataGenerator
    gen = get_images(img_directory)
    determine_invalid_images(gen)

    return True
main()

['/Users/victorialiu/git/creatica/code/data/test/nothotdog', '/Users/victorialiu/git/creatica/code/data/test/hotdog', '/Users/victorialiu/git/creatica/code/data/test/cucumbers']
Found 311 images belonging to 3 classes.

True


!jupyter nbconvert --to html validate_images.ipynb

[NbConvertApp] Converting notebook validate_images.ipynb to html
[NbConvertApp] Writing 593365 bytes to validate_images.html

Image Validation

Data Validation¶

Command Line Argument Parser¶

Data Validation¶

Image Pre-processing with InceptionV3 net¶

Main command line function¶