diff --git a/HEALD.tex b/HEALD.tex
new file mode 100644 (file)
index 0000000..d0334e1
--- /dev/null
+++ b/HEALD.tex
@@ -0,0 +1,107 @@
+\def\BibTeX{{\rm B\kern-.05em{\sc i\kern-.025em b}\kern-.08em
+    T\kern-.1667em\lower.7ex\hbox{E}\kern-.125emX}}
+\title{Project Hentai AI: HEAL\'D\\
+\LARGE Differentiating Hentai, Ecchi and Lewd with Deep Learning}
+\author{\IEEEauthorblockN{1\textsuperscript{st} hentai-ai}
+\IEEEauthorblockA{\textit{Project Hentai AI} \\
+In this paper, we propose a framework for collecting data, labeling data, and training machine learning models within the area of lewd anime/manga and hentai.
+deep learning, DL, machine learning, ML, artificial intelligence, AI, thighs, thighdeology, thicc, lewd, ecchi, hentai
+\section{Introduction} \label{sec:intro}
+\emph{Project Hentai AI: HEAL\'D} is only one of many future projects planned within Project Hentai AI. 
+\section{Background} \label{sec:background}
+\subsection{Artificial Intelligence} \label{sec:ai}
+\emph{Artificial Intelligence} (AI) is an umbrella term for the area in computer science aiming to artificially create an intelligent software using statistics and algorithms. There is an important distinction here between Intelligence and Consciousness. An AI which can calculate the best move in chess could be considered intelligent, but does not necessary have a consciousness (a notion of self). The simplest forms of AI are the Non-Playable Characters (NPCs) and bots of video games. The main goal of these AI is to emulate human behavior in order to create an illusion of intelligence and/or consciousness.
+\emph{Machine Learning} (ML) is a subset of AI which is best described by Tom M. Mitchell~\cite{machinelearning}:
+    \emph{``A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E''}
+This means that the algorithm gain experience by training on a task and that this training can then be measured. And the more the algorithm train and gain experience, the better it performs on the task. These tasks are usually classification tasks in ML (e.g., classify email as spam or separating images of cats from images of dogs).
+% Todo: Add something about neural networks?
+While ML needs to perform the feature extraction manually from the input before classification, \emph{Deep Learning} (DL) neural networks automatically extracts the features as a part of the classification \cite{deeplearning}. DL also uses backpropagation algorithms to adjust the parameters of hidden layers (between the input and output layers) during training. Due to its feature extraction, DL can work on both structured and unstructured data as input, and this in turn has made DL efficient in object detection and speech recognition, both of which are classification problems (e.g., does the \emph{sound} match any known \emph{word}).
+    \centering
+    \includegraphics{img/ai_diagram.pdf}
+    \caption{Relation between Artificial Intelligence, Machine Learning and Deep Learning.}
+    \label{fig:ai}
+Machine Learning and Deep Learning falls under the discipline of Artificial Intelligence in computer science, visually presented in Figure~\ref{fig:ai}.
+\subsection{Hentai, Ecchi And Lewd} \label{sec:hentai}
+For the purpose of this study and future studies in Project Hentai AI, the data in the datasets are categorised in three definitions: \emph{Hentai}, \emph{Ecchi} and \emph{Lewd}.
+In its simplest definition, Hentai is anime and manga pornography and can be seen as the highest tier out of the three. Ecchi on the other hand, when used as an adjective, translates to ``sexy'', ``dirty'' or ``naughty'', and has been used to describe anime and manga with \emph{sexual overtones} (playful sexuality or softcore). Lewd in these studies is defined as \emph{sexual undertones}.
+Project Hentai AI includes hentai, ecchi and lewd but groups them hereinafter together under the term hentai for simplicity unless specified.
+% Todo: add images to demonstrate?
+\section{Method} \label{sec:method}
+\subsection{Data Collection} \label{sec:datacollection}
+\noindent The data was collected manually from six separate sources:
+    \item Discord Server: All Things Hentai
+    \item Discord Server: Hanako's Hideout\footnote{formerly known as r/Hentai Group prior to 13th April 2021}
+    \item Discord Server: Community
+    \item Discord Server: NCE: The NEKOPARA Community
+    \item Private Donations
+\subsection{Data Transformation} \label{sec:datatransformation}
+\subsection{Data Labeling} \label{sec:datalabeling}
+The \emph{Multi-labeling} is an additional application area outside of just ranking thighs. Tags could be marked as labels (multiple labels per image) in order to recognise and identify these patterns. This could be related to clothes (e.g., thigh highs, panties, skirt) or body features (e.g., muscle, tattoo, tanned).
+\subsection{} \label{sec:fastai}
+% Todo
+The AI implementation was using, a layered API for deep learning~\cite{fastai}.
+\section{Design} \label{sec:design}
+\section{Implementation} \label{sec:implementation}
All code is open source and can be found on GitWeb\footnote{\url{}}
+\subsection{Data Transformations} \label{sec:datatfms}
+\subsection{Label App} \label{sec:impl_labelapp}
+\subsection{Deep Learning with} \label{sec:impl_deeplearning}
+\section{Discussion} \label{sec:discussion}
+\subsection{Limitations} \label{sec:limitations}
+\subsection{Future Work} \label{sec:futurework}
diff --git a/img/ai_diagram.pdf b/img/ai_diagram.pdf
new file mode 100644 (file)
index 0000000..85a7f3d
Binary files /dev/null and b/img/ai_diagram.pdf differ
diff --git a/ref.bib b/ref.bib
new file mode 100644 (file)
index 0000000..8c0bc95
--- /dev/null
+++ b/ref.bib
@@ -0,0 +1,37 @@
+  author    = {Yann LeCun and
+               Yoshua Bengio and
+               Geoffrey E. Hinton},
+  title     = {Deep learning},
+  journal   = {Nat.},
+  volume    = {521},
+  number    = {7553},
+  pages     = {436--444},
+  year      = {2015},
+  url       = {},
+  doi       = {10.1038/nature14539},
+  timestamp = {Mon, 08 Jun 2020 22:21:28 +0200},
+  biburl    = {},
+  bibsource = {dblp computer science bibliography,}
+  author    = {Jeremy Howard and
+               Sylvain Gugger},
+  title     = {Fastai: {A} Layered {API} for Deep Learning},
+  journal   = {Inf.},
+  volume    = {11},
+  number    = {2},
+  pages     = {108},
+  year      = {2020},
+  url       = {},
+  doi       = {10.3390/info11020108},
+  timestamp = {Fri, 25 Dec 2020 01:14:05 +0100},
+  biburl    = {},
+  bibsource = {dblp computer science bibliography,}
+  title={Machine learning},
+  author={Mitchell, Tom M and others},
+  year={1997},
+  publisher={McGraw-hill New York}
\ No newline at end of file