OV - K-Means scalability gcc-Ofast 100000000 - Loops

MAQAO

options

Loops Index

▶Scalability Runs Description

Run run_1_thread	Number processes: 1Number nodes: 1Run Command: <executable> kmeans/input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: closeOMP_NUM_THREADS: 1OMP_WAIT_POLICY: activeOMP_PLACES: cores
Run run_2_threads	Number processes: 1Number nodes: 1Run Command: <executable> kmeans/input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PLACES: coresOMP_PROC_BIND: closeOMP_NUM_THREADS: 2OMP_WAIT_POLICY: active
Run run_4_threads	Number processes: 1Number nodes: 1Run Command: <executable> kmeans/input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PLACES: coresOMP_PROC_BIND: closeOMP_NUM_THREADS: 4OMP_WAIT_POLICY: active
Run run_8_threads	Number processes: 1Number nodes: 1Run Command: <executable> kmeans/input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PLACES: coresOMP_PROC_BIND: closeOMP_NUM_THREADS: 8OMP_WAIT_POLICY: active
Run run_10_threads	Number processes: 1Number nodes: 1Run Command: <executable> kmeans/input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: closeOMP_PLACES: coresOMP_NUM_THREADS: 10OMP_WAIT_POLICY: active

▶Filters

Loop id	Source Location	Source Function	Level	Max Thread Time / Walltime run_1_thread (%)	Max Thread Time / Walltime run_2_threads (%)	Max Thread Time / Walltime run_4_threads (%)	Max Thread Time / Walltime run_8_threads (%)	Max Thread Time / Walltime run_10_threads (%)	Exclusive Coverage run_1_thread (%)	Exclusive Coverage run_2_threads (%)	Exclusive Coverage run_4_threads (%)	Exclusive Coverage run_8_threads (%)	Exclusive Coverage run_10_threads (%)	Inclusive Coverage run_1_thread (%)	Inclusive Coverage run_2_threads (%)	Inclusive Coverage run_4_threads (%)	Inclusive Coverage run_8_threads (%)	Inclusive Coverage run_10_threads (%)	Max Exclusive Time Over Threads run_1_thread (s)	Max Exclusive Time Over Threads run_2_threads (s)	Max Exclusive Time Over Threads run_4_threads (s)	Max Exclusive Time Over Threads run_8_threads (s)	Max Exclusive Time Over Threads run_10_threads (s)	Max Inclusive Time Over Threads run_1_thread (s)	Max Inclusive Time Over Threads run_2_threads (s)	Max Inclusive Time Over Threads run_4_threads (s)	Max Inclusive Time Over Threads run_8_threads (s)	Max Inclusive Time Over Threads run_10_threads (s)	Exclusive Time w.r.t. Wall Time run_1_thread (s)	Exclusive Time w.r.t. Wall Time run_2_threads (s)	Exclusive Time w.r.t. Wall Time run_4_threads (s)	Exclusive Time w.r.t. Wall Time run_8_threads (s)	Exclusive Time w.r.t. Wall Time run_10_threads (s)	Inclusive Time w.r.t. Wall Time run_1_thread (s)	Inclusive Time w.r.t. Wall Time run_2_threads (s)	Inclusive Time w.r.t. Wall Time run_4_threads (s)	Inclusive Time w.r.t. Wall Time run_8_threads (s)	Inclusive Time w.r.t. Wall Time run_10_threads (s)	Nb Threads run_1_thread	Nb Threads run_2_threads	Nb Threads run_4_threads	Nb Threads run_8_threads	Nb Threads run_10_threads	GFLOPS run_1_thread	GFLOPS run_2_threads	GFLOPS run_4_threads	GFLOPS run_8_threads	GFLOPS run_10_threads	Vectorization Ratio (%)	Vector Length Use (%)	Speedup If No Scalar Integer	Speedup If FP Vectorized	Speedup If Fully Vectorized	Speedup If Perfect Load Balancing run_1_thread	Speedup If Perfect Load Balancing run_2_threads	Speedup If Perfect Load Balancing run_4_threads	Speedup If Perfect Load Balancing run_8_threads	Speedup If Perfect Load Balancing run_10_threads	Stride 0	Stride 1	Stride n	Stride Unknown	Stride Indirect	Array Access Efficiency	(run_1_thread) Efficiency	(run_1_thread) Potential Speed-Up (%)	(run_2_threads) Efficiency	(run_2_threads) Potential Speed-Up (%)	(run_4_threads) Efficiency	(run_4_threads) Potential Speed-Up (%)	(run_8_threads) Efficiency	(run_8_threads) Potential Speed-Up (%)	(run_10_threads) Efficiency	(run_10_threads) Potential Speed-Up (%)
0	kmeans-gcc-Ofast - main.cpp:117-123	k_means(int, point_t, point_t, int*, int, int) [clone ._omp_fn.0]	Innermost	98.42	76.25	53.02	33.66	26.01	98.90	97.88	96.11	95.50	88.71	98.90	97.88	96.11	95.50	88.71	318.16	156.91	77.93	39.44	29.03	318.16	156.91	77.93	39.44	29.03	318.16	158.73	79.08	40.01	30.32	318.16	158.73	79.08	40.01	30.32	1	2	4	8	10	3.24	6.49	12.96	25.93	32.48	58.57	19.38	1.18	2.18	5	1	1.14	1.22	1.26	1.23	0.5	1	0	0	0	100.00	1	0	1	0	1.01	0	0.99	0.56	1.05	0
1	kmeans-gcc-Ofast - main.cpp:116-123	k_means(int, point_t, point_t, int*, int, int) [clone ._omp_fn.0]	Outermost	1.09	0.78	0.49	0.33	0.31	1.10	0.99	0.98	0.92	0.91	100.00	98.87	97.09	96.42	89.62	3.54	1.61	0.72	0.38	0.34	321.70	158.52	78.65	39.76	29.37	3.54	1.60	0.81	0.39	0.31	321.70	160.34	79.88	40.39	30.63	1	2	4	8	10	3.59	7.07	15.42	30.42	35.79	20	15	1.8	1	8	1	1.15	1.11	1.28	1.41	0	2	0	0	0	100.00	1	0	1.1	0	1.1	0	1.14	0	1.14	0

×