hychiang-git
diff --git a/‎prepare_data/collect_points/README.md
+108 b/‎prepare_data/collect_points/README.md
+108
diff --git a/‎prepare_data/collect_points/test_point.py
+31-53 b/‎prepare_data/collect_points/test_point.py
+31-53
diff --git a/‎prepare_data/collect_points/trainval_point.py
+28-51 b/‎prepare_data/collect_points/trainval_point.py
+28-51
@@ -0,0 +1,108 @@
+# Extract scene points from ply files in ScanNet v2 dataset 
+
+The codes are borrowed from [PointNet++](https://github.com/charlesq34/pointnet2/tree/master/scannet/preprocessing)
+
+
+
+## Example usage 
+
+```
+    // training set
+    python3 trainval_point.py 
+        --scannet_path /path/to/scannet/scans/ 
+        --label_map_file /path/to/scannetv2-labels.combined.tsv 
+        --num_proc 5
+
+
+    // testing set
+    python3 test_point.py \
+        --scannet_path /path/to/scannet/scans_test/ \
+        --num_proc 5 \
+```
+
+<!--
+## Getting Started
+
+These instructions will get you a copy of the project up and running on your local machine for development and testing purposes. See deployment for notes on how to deploy the project on a live system.
+
+### Prerequisites
+
+What things you need to install the software and how to install them
+
+```
+Give examples
+```
+
+### Installing
+
+A step by step series of examples that tell you how to get a development env running
+
+Say what the step will be
+
+```
+Give the example
+```
+
+And repeat
+
+```
+until finished
+```
+
+End with an example of getting some data out of the system or using it for a little demo
+
+## Running the tests
+
+Explain how to run the automated tests for this system
+
+### Break down into end to end tests
+
+Explain what these tests test and why
+
+```
+Give an example
+```
+
+### And coding style tests
+
+Explain what these tests test and why
+
+```
+Give an example
+```
+
+## Deployment
+
+Add additional notes about how to deploy this on a live system
+
+## Built With
+
+* [Dropwizard](http://www.dropwizard.io/1.0.2/docs/) - The web framework used
+* [Maven](https://maven.apache.org/) - Dependency Management
+* [ROME](https://rometools.github.io/rome/) - Used to generate RSS Feeds
+
+## Contributing
+
+Please read [CONTRIBUTING.md](https://gist.github.com/PurpleBooth/b24679402957c63ec426) for details on our code of conduct, and the process for submitting pull requests to us.
+
+## Versioning
+
+We use [SemVer](http://semver.org/) for versioning. For the versions available, see the [tags on this repository](https://github.com/your/project/tags). 
+
+## Authors
+
+* **Billie Thompson** - *Initial work* - [PurpleBooth](https://github.com/PurpleBooth)
+
+See also the list of [contributors](https://github.com/your/project/contributors) who participated in this project.
+
+## License
+
+This project is licensed under the MIT License - see the [LICENSE.md](LICENSE.md) file for details
+
+## Acknowledgments
+
+* Hat tip to anyone whose code was used
+* Inspiration
+* etc
+--->
+
@@ -6,71 +6,49 @@
 import numpy as np
 import  multiprocessing as mp
 from functools import partial
-from utils import pc_util
-from utils import scannet_util
-g_label_names = scannet_util.g_label_names
-g_label_ids = scannet_util.g_label_ids
 
-SCANNET_DIR = None     # '/tmp3/hychiang/ScanNet.v2/ScanNet/scans/'  
-SCENE_NAMES = None     # [line.rstrip() for line in open('./Benchmark/scannetv2_train.txt')]
-OUTPUT_FOLDER = None   # 'scans_train'
-LOG_FILE = 'log.txt'
-LOG_FOUT = None
+sys.path.append('../utils')
+import pc_utils
+import scannet_utils
 
-def collect_one_scene_data(scene_name, out_filename):
+''' 
+    params 
+'''
+parser = argparse.ArgumentParser()
+parser.add_argument('--scannet_path', required=True, help='path to scannet data')
+parser.add_argument("--num_proc", required=False, type=int, default=30, help="number of parallel process, default is 30")
+opt = parser.parse_args()
+
+
+def collect_point_data(scene_name):
     # Over-segmented segments: maps from segment to vertex/point IDs
-    data_folder = os.path.join(SCANNET_DIR, scene_name)
+    data_folder = os.path.join(opt.scannet_path, scene_name)
     ply_filename = os.path.join(data_folder, '%s_vh_clean_2.ply' % (scene_name))
-    points = pc_util.read_ply_rgba_normal(ply_filename)
+    points = pc_utils.read_ply_rgba_normal(ply_filename)
 
     points = np.delete(points, 6, 1) #  only RGB, ignoring A
     data = points
+    out_filename = os.path.join(data_folder, scene_name+'.npy') # scene0000_00/scene0000_00.npy
     np.save(out_filename, data)
-    log_string(scene_name+' save to '+out_filename+', point:'+str(points.shape)+', data:'+str(data.shape))
+    print(scene_name, ' points shape:', data.shape)
 
-def log_string(out_str):
-    LOG_FOUT.write(out_str+'\n')
-    LOG_FOUT.flush()
-    print(out_str)
 
 def preprocess_scenes(scene_name):
-    log_string(scene_name)
     try:
-        out_dir = os.path.join(OUTPUT_FOLDER, scene_name) # scene0000_00/scene0000_00.npy
-        if not os.path.exists(out_dir):
-            os.mkdir(out_dir)
-        out_file = os.path.join(out_dir, scene_name+'.npy') # scene0000_00/scene0000_00.npy
-        collect_one_scene_data(scene_name, out_file)
+        collect_point_data(scene_name)
     except Exception as e:
-        log_string(scene_name+'ERROR!!')
-        log_string(str(e))
-
-if __name__=='__main__':
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--scene_list", required=True, help="scannet split scene list, e.g. ./Benchmark/scannetv2_train.txt")
-    parser.add_argument("--scannet_dir",required=True,  help="scannet data dir, e.g. {path/to/scannet/data/dir}/scans or {path/to/scannet/data/dir}/scans_test")
-    parser.add_argument("--output_dir", required=True, help="output dir (folder), e.g. ./scans_train")
-    parser.add_argument("--num_proc", required=False, type=int, default=30, help="number of parallel process, default is 30")
-    args = parser.parse_args()
-    SCENE_NAMES = [line.rstrip() for line in open(args.scene_list)]
-    SCANNET_DIR = args.scannet_dir 
-    OUTPUT_FOLDER = args.output_dir
+        sys.stderr.write(scene_name+'ERROR!!')
+        sys.stderr.write(str(e))
+        sys.exit(-1)
+
+def main():
+    scenes = [d for d in os.listdir(opt.scannet_path) if os.path.isdir(os.path.join(opt.scannet_path, d))]
+    scenes.sort()
+    print('Find %d scenes' % len(scenes))
+    print('Extract points (Vertex XYZ, RGB, NxNyNx)')
 
-    print('***  Total Scene in list: ', len(SCENE_NAMES))
-    print('***  ScanNet Data Directory: ', SCANNET_DIR)
-    print('***  Output Directory: ', OUTPUT_FOLDER)
-    print('***  NUM of Processes to parallel: ', args.num_proc)
-    print('***  Extract points (Vertex XYZ, RGB, NxNyNx, Label, Instance-label) parallel in 5 Seconds***')
-
-    if not os.path.exists(OUTPUT_FOLDER):
-        os.mkdir(OUTPUT_FOLDER)
-    LOG_FOUT = open(os.path.join(OUTPUT_FOLDER, LOG_FILE),'w')
-    time.sleep(5)
+    pool = mp.Pool(opt.num_proc)
+    pool.map(preprocess_scenes, scenes)
 
-    print('*** GO ***')
-
-    
-    pool = mp.Pool(args.num_proc)
-    pool.map(preprocess_scenes, SCENE_NAMES)
-
-    LOG_FOUT.close()
+if __name__=='__main__':
+    main()
@@ -13,19 +13,22 @@
 g_label_names = scannet_utils.g_label_names
 g_label_ids = scannet_utils.g_label_ids
 
-SCANNET_DIR = None     # '/tmp3/hychiang/ScanNet.v2/ScanNet/scans/'  
-SCENE_NAMES = None     # [line.rstrip() for line in open('./Benchmark/scannetv2_train.txt')]
-LABEL_MAP_FILE = None  # './scannetv2-labels.combined.tsv' 
-OUTPUT_FOLDER = None   # 'scans_train'
-LOG_FILE = 'log.txt'
-LOG_FOUT = None
+''' 
+    params 
+'''
+parser = argparse.ArgumentParser()
+parser.add_argument('--scannet_path', required=True, help='path to scannet data')
+parser.add_argument('--label_map_file', default='', help='path to scannetv2-labels.combined.tsv (required for label export only)')
+parser.add_argument("--num_proc", required=False, type=int, default=30, help="number of parallel process, default is 30")
+opt = parser.parse_args()
 
-def collect_one_scene_data_label(scene_name, out_filename):
+
+def collect_point_data(scene_name):
     # read label mapping file
-    label_map = scannet_utils.read_label_mapping(LABEL_MAP_FILE, label_from='raw_category', label_to='nyu40id')
+    label_map = scannet_utils.read_label_mapping(opt.label_map_file, label_from='raw_category', label_to='nyu40id')
 
     # Over-segmented segments: maps from segment to vertex/point IDs
-    data_folder = os.path.join(SCANNET_DIR, scene_name)
+    data_folder = os.path.join(opt.scannet_path, scene_name)
     # Read segmentation label 
     seg_filename = os.path.join(data_folder, '%s_vh_clean_2.0.010000.segs.json'%(scene_name))
     seg_to_verts, num_verts = scannet_utils.read_segmentation(seg_filename)
@@ -69,55 +72,29 @@ def collect_one_scene_data_label(scene_name, out_filename):
     #print(data.shape)
     #for i in range(20):
     #    print(data[i, 10])
+    out_filename = os.path.join(data_folder, scene_name+'.npy') # scene0000_00/scene0000_00.npy
     np.save(out_filename, data)
-    log_string(scene_name+' save to '+out_filename+', with data: point:'+str(points.shape)+', label:'+str(label_ids.shape)+', instance label:'+str(instance_ids.shape)+', data:'+str(data.shape))
 
-def log_string(out_str):
-    LOG_FOUT.write(out_str+'\n')
-    LOG_FOUT.flush()
-    print(out_str)
+    print(scene_name, ' points shape:', data.shape)
+
 
 def preprocess_scenes(scene_name):
-    log_string(scene_name)
     try:
-        out_dir = os.path.join(OUTPUT_FOLDER, scene_name) # scene0000_00/scene0000_00.npy
-        if not os.path.exists(out_dir):
-            os.mkdir(out_dir)
-        out_file = os.path.join(out_dir, scene_name+'.npy') # scene0000_00/scene0000_00.npy
-        collect_one_scene_data_label(scene_name, out_file)
+        collect_point_data(scene_name)
     except Exception as e:
-        log_string(scene_name+'ERROR!!')
-        log_string(str(e))
+        sys.stderr.write(scene_name+'ERROR!!')
+        sys.stderr.write(str(e))
+        sys.exit(-1)
 
-if __name__=='__main__':
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--scene_list", required=True, help="scannet split scene list, e.g. ./Benchmark/scannetv2_train.txt")
-    parser.add_argument("--label_map_file", required=True, help="scannet label mapping file , e.g. ./scannetv2-labels.combined.tsv")
-    parser.add_argument("--scannet_dir",required=True,  help="scannet data dir, e.g. {path/to/scannet/data/dir}/scans or {path/to/scannet/data/dir}/scans_test")
-    parser.add_argument("--output_dir", required=True, help="output dir (folder), e.g. ./scans_train")
-    parser.add_argument("--num_proc", required=False, type=int, default=30, help="number of parallel process, default is 30")
-    args = parser.parse_args()
-    LABEL_MAP_FILE = args.label_map_file
-    SCENE_NAMES = [line.rstrip() for line in open(args.scene_list)]
-    SCANNET_DIR = args.scannet_dir 
-    OUTPUT_FOLDER = args.output_dir
-    
-    print('***  Total Scene in list: ', len(SCENE_NAMES))
-    print('***  Read Label Mapping File from: ', LABEL_MAP_FILE)
-    print('***  ScanNet Data Directory: ', SCANNET_DIR)
-    print('***  Output Directory: ', OUTPUT_FOLDER)
-    print('***  NUM of Processes to parallel: ', args.num_proc)
-    print('***  Extract points (Vertex XYZ, RGB, NxNyNx, Label, Instance-label) parallel in 5 Seconds***')
-
-    if not os.path.exists(OUTPUT_FOLDER):
-        os.mkdir(OUTPUT_FOLDER)
-    LOG_FOUT = open(os.path.join(OUTPUT_FOLDER, LOG_FILE),'w')
-    time.sleep(5)
-
-    print('*** GO ***')
 
+def main():
+    scenes = [d for d in os.listdir(opt.scannet_path) if os.path.isdir(os.path.join(opt.scannet_path, d))]
+    scenes.sort()
+    print('Find %d scenes' % len(scenes))
+    print('Extract points (Vertex XYZ, RGB, NxNyNx, Label, Instance-label)')
 
-    pool = mp.Pool(args.num_proc)
-    pool.map(preprocess_scenes, SCENE_NAMES)
+    pool = mp.Pool(opt.num_proc)
+    pool.map(preprocess_scenes, scenes)
 
-    LOG_FOUT.close()
+if __name__=='__main__':
+    main()